kubotaの日記: Unicode と漢字統合の最近の動向
Unicode の漢字統合については、いくつか、特筆すべき動向があります。
ひとつは、U+E0000 以降に備えられた言語タグ。ただしこれは、 Unicode に「状態」を導入するものであること、また、 本来、漢字の異字体は言語とは独立した概念である、 という問題があります。
もうひとつは、すでにここの日記で触れた異体字タグ。Unicode 3.2 で導入される予定ですが、漢字の異体字を指定するためには 使えません。ただし、将来的に、漢字の異体字を指定するために 異体字タグが使えるようになる、という噂があります。
そして、JIS X 0213 の導入。JIS X 0213 は、JIS X 0208 が「包摂」(異体字に同一のコードポイントを与えること) していたいくつかの文字について、別々のコードポイントを 与えています。もちろん Unicode の漢字は JIS X 0208 などを元に作っているので、それらの異体字は包摂しています。 が、Unicode は JIS X 0213 についてもソースセパレーションルールを 適用するっぽいので、JIS X 0213 で別々のコードポイントを与えられて いる文字については、Unicode でも別々のコードポイントを与えないと いけません。そうすると Unicode の漢字統合と、 ソースセパレーションルールとの間で、矛盾が生じることになります。 これについて、加藤弘一さんは『電脳社会の日本語』 (文春新書、2000年3月、ISBN4-16-660094-X) のなかで、次のように 述べています。
一九九九年一二月の漢字連絡会シンガポール会議では、ユニコード 側もついに異体字の大幅拡充を認めた。CJK統合ルールは有名無実化 した。今まで登録が見あわされていたCNS台湾漢字の三面以降の 文字をはじめとして、今後、異体字がどんどんはいるはずである。 「CJK互換漢字」といっても、国際的な情報交換のためには、 漢字圏の国はすべて実装する必要がある。一九九九年は漢字統合が 実質的に崩壊した年として記憶されるかもしれない。
実際には JIS X 0213 で包摂しなくなった文字については Unicode は互換文字領域にコードポイントを与えることで対処しようと しているようですが、それをそのまま解釈すると、上記文書のような 面白いことにはならない、ということになります。 なぜなら、互換領域の文字は他の規格との互換性のためだけに存在する文字で、 できるだけ使わないほうがいいからです。
このへんの動向は、どうなっているのでしょうか?
Unicode と漢字統合の最近の動向 More ログイン