パスワードを忘れた? アカウント作成
397452 journal

kubotaの日記: Unicode と JIS マッピング問題

日記 by kubota

どうやら、Unicode Consortium 内部でも、Unicode と JIS とのマッピングに混乱が生じていることが問題だという認識があるようだ。(上記リンクの「変換表がベンダーによって異なる」を参照)

Markus Kuhn さんがきのう私信で教えてくれたのだが、Unicode メーリングリストで、このことが話題となっているらしい。こんな便りを (前文引用つきで) 送ってくるあたり、Markus さんは、ぼくが unicode メーリングリストを購読していないことを知っているらしい。なかなか気が利いている。(まえにこきおろしたのとは、えらい違いだが、まあそれはさておいて)。

というわけで、Kenneth Whistler さんのメールはこちら。(ちなみに、認証が必要だが、上記 Unicode メーリングリストページにゲスト用ユーザ名とパスワードが書かれている (user=unicode-ml, password=unicode)。たんに spammer を排除したいだけの目的だそうだ。)

おさらいしておくと、いま問題となっているのは、Unicode と JIS (EUC-JP やシフト JIS) のマッピングのうち、記号の部分について、Windows と Macintosh と GNU libc と JIS X 0208 と... で相違がある、というもの。そのため、同一の (シフト JIS) 文書を Windows 環境で Unicode に変換したものと、Linux 環境で Unicode に変換したものは、相違が生じてしまう。そこで、Unicode Consortium として、単一の変換表をリリースして、みんながそれに従うようにすれば、そういった問題がなくなるはず。ただし、その変換表への移行に伴って混乱が生じるが。

それに対して、上記 Kenneth Whistler さんのメールは Unicode Consortium の立場をよく表していると思うのだが、

  • 過去にも現在にも、Unicode と JIS との変換表を Unicode Consortium がリリースしたことはなかった。Unicode Consortium のウェブサイトに置いてある変換表は、単なる参考だ。(ただし、漢字部分については、きちんとした変換表をリリースしている)。
  • それにもかかわらず、それは権威ある変換表だと誤解する人が絶えない。バグ報告もいっぱいきた。そこで、変換表を「OBSOLETE」ディレクトリ以下に移した。
  • それでも、「Unicode Consortium は過去にリリースしていた変換表をひっこめた」と誤解する人もいる (ぼくのこと)。
  • kubota は、「Unicode は標準化団体として、標準の変換表をリリースすべきだ」と言っているが、Unicode Consortium は JIS やら KS やら GB やら CNS やらの標準には責任を持たないので、変換表はリリースしない。
  • 漢字については、IRG というワーキンググループがあって、変換表の面倒を見ているが、非漢字については、IRG に相当するものが存在しない。そのような「nonIRG」ができるまでは、非漢字についてはどのように標準的な変換表を作っていいのか誰にも分からない。
  • さしあたっては、kubota が言っている問題を説明する、ということが可能だ。このことについて説明した Unicode Technical Report を作ろうという仮の提案もある。が、誰かが作業を始めない限りは、現状のままだろう。

というような内容。で、Markus さんは、その作業をぼくがやってみてはどうか、というようなことを言ってきた。Markus さんも、そのようなレポートを書く仕事はできないが校正くらいならできる、と言ってきている。

政治に巻き込まれるのだけは、できれば避けたいと思っているのだが。(書いたとしても、たぶん MS と IBM と Apple と Sun と... のバカヤローみたいな文書になるだろうし、そうなれば、Unicode Consortium から承認を受けることはできないだろうし、その部分を骨抜きにされてしまったら意味がなくなるだろう。) それに、もっとも大事なことは、解決策を示すことができないということだ。なぜって、そんなもの存在しないのだから。

それから、ぼくが得意とするのは、他人が調べた内容 (安岡さん伊藤さん川俣さん益山さんや...) をそのまま伝えることであって、ぼくが独自に調べたことは、ほとんどない。ぼくがやった独特なことは、この問題を Unicode Consortium に対して報告したということくらいのものだ。だから、Unicode Consortium では、この問題を調べた功績はぼくにあると、誤って思われているかもしれない。しかし、Unicode Consortium に話を持っていくことで、問題を愚痴るだけの段階から実作業の段階へと移したのはぼくだから、ここで逃げるのは無責任かもしれない。

そういや、樋浦さんがずっと前に、そんな Unicode Technical Report を書いてみようかな、という話をしていたような。あれはどうなったのだろうか。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

※ただしPHPを除く -- あるAdmin

読み込み中...