パスワードを忘れた? アカウント作成
34235 journal

yasuokaの日記: 人名用漢字と互換漢字 4

日記 by yasuoka
小形克宏の「なぜUnicode正規化は生まれたか」(Internet Watch, 2008年9月3日)を読んでいたところ、以下の部分にひっかかった。

規格の上から互換用文字/互換漢字といった文字がどのように考えられているかは、次のUnicode規格書の一文に明らかだ。

Conceptually, compatibility characters are those that would not have been encoded except for compatibility and round-trip convertibility with other standards.(概念上からは、互換用文字とは他の規格との互換性及び往復の保全性の目的以外には、符号化されるはずのなかった文字である。) 『Unicode Standard 5.0』2.3 Compatibility Characters

「本来は存在するはずがなかった文字」、それが互換用文字だ。そうした危うい文字に対し、日本は人名用漢字という政令に根拠を持つ文字の一部を対応させているのが現状だ。

確かに現状としてはそうなのだが、1999年当時、話がそんなに簡単だったわけではない。一応、私の知る限りのことを、ここに記しておくことにする。

1998年3月レドモンドでのJTC1/SC2/WG2で、ANSI側はN1698を出してきた。審議中だったCJK統合漢字拡張Aから「﨟」と「﨣」を削除しろ、という要求だ。理由は簡単、「﨟」と「﨣」は、この時点で既に互換漢字(U+FA1FとU+FA23)に含まれていたからだ。日本側はこれに反対したが、N1698は承認されてしまった。

N1698のゴタゴタを知った私(安岡孝一)は、かなり立腹すると同時に、当時の『Unicode 2.0』に記されていた「Compatibility characters are those that would not have been encoded (except for compatibility)」という文言が実効性を失ったと理解した。また、当時開発中だったJIS X 0213において、もし人名用漢字許容字体を全て別の符号位置に分離した場合、たとえば「類」(類の旧字)をUCSに追加要求したとしても、それは却下されるだろうということも理解した。なぜなら「類」は既に互換漢字(U+F9D0)に含まれていたからだ。

そこで安岡は、当時の人名用漢字許容字体205字に関して、UCSとの照合作業をおこなうことにした。照合の結果、148字はCJK統合漢字に、11字は互換漢字に、それぞれ含まれており、残りは46字だった。1999年3月のJCSで安岡は、「類」を含むこれら11字をUCSに追加要求しないことを提案し、承認された。46字の方は互換漢字への追加要求をおこなうことになったが、人名用漢字許容字体だけではなく、常用漢字表のカッコ書きの字体に関しても、同じく追加要求をおこなうことになった。この追加要求に対し、Unicode側は支持を表明(IRG N690)、さらには『Unicode 4.0』において、問題の文言の文頭に「Conceptually,」の一語を追加した。

こうしたイキサツを考えると、もし今さらUnicode側(あるいはANSI側)が、(新)常用漢字や人名用漢字を互換漢字に追加するのをシブるのなら、日本側としてはN1698を破棄して、あらためて「﨟」や「﨣」をCJK統合漢字拡張Aに追加要求すべきだろう。そこのところで日本側が一貫した態度を取れないのなら、現時点でVariation Selectorとかに妥協したところで、どうせいずれ矛盾を来たすというだけのことだ。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
  • 「﨟」と「﨣」はすでに(互換漢字ではなく)統合漢字に含まれているはずですが。U+FA1FとU+FA23は互換漢字ブロックにありますが統合漢字Aの一部ということになっていて他の統合漢字への正規分解も持ってませんから。

    ということを知らないはずがないのに一切言及しないのはなぜですか。

    どうせいずれ矛盾を来たすというだけのことだ。

    すでに矛盾してるような…。U+9FC4と<U+6881 U+E0101>とか。ってまだU+9FC4は(ほとんど確実とはいえ)正式収録されていないのでしたっけ。

    • by yasuoka (21275) on 2008年09月04日 23時53分 (#1415705) 日記
      ARIB外字の方は、まだくすぶってて悶着ありそうなので、現時点では深入りしないことにして…。とりあえず「﨟」と「﨣」の話。

      「﨟」と「﨣」はすでに(互換漢字ではなく)統合漢字に含まれているはずですが。U+FA1FとU+FA23は互換漢字ブロックにありますが統合漢字Aの一部ということになっていて他の統合漢字への正規分解も持ってませんから。

      ということを知らないはずがないのに一切言及しないのはなぜですか。

      そりゃあ、ISO/IEC 10646:2003のAnnex Pが、いつまでたってもInformativeのままでNormativeにならないからですよ。しかも「﨟」の名前は「CJK COMPATIBILITY IDEOGRAPH-FA1F」のままでしょ? これを「CJK UNIFIED IDEOGRAPH-FA1F」にするか、それともAnnex PをNormativeにするか、どっちかなら、「統合漢字Aの一部ということになっていて」と、私も言い切れるんですけどね。
      親コメント
      • by prajna (18168) on 2008年09月14日 0時25分 (#1420525)
        UCSのNormativeな23節では「互換漢字とはCJK COMPATIBILITY IDEOGRAPHS-2001コレクション
        にあるものだ」と規定されていて、Normativeな附属書AではFA1FとFA23はこれらのコレクション
        から除外されており、さらに「統合漢字拡張A」コレクションにはFA1FとFA23が含まれています。

        今や文字名は有名無実と化し、R-Zoneの概念も消滅し、また互換漢字の範囲はコレクションにて
        規定するとUCS規格で整理された現状において、あらためてFA1FとFA23の文字を拡張Aとして
        別符号位置に追加せよ(ということですよね?)と主張される理由がわかりません。

        ※そういえば、U+27EAFはU+FA23は重複してしまっていまるので、その意味でも追加は無意味に
        なってしまったと言えるかと思います。

        なお、北朝鮮の互換漢字など、すでに存在する互換漢字と対応する統合漢字が同じ互換漢字が
        何の問題もなく追加されている現状を考えると、WG2 N1698の
          "However in the case where these additional CJK ideographs are already encoded in
        the R-zone,they should not be encoded a second time."という文章はR-Zoneという考え方の
        消滅にともない、有名無実になったと考えてもいいかとも思います。
        親コメント
        • あらためてFA1FとFA23の文字を拡張Aとして別符号位置に追加せよ(ということですよね?)
          私、必ずしもそれを要求してるわけじゃありませんけど? 「それともAnnex PをNormativeにするか」って書いてるくらいなんだから、その場合は符号位置を変えちゃダメですよ。

          それに、私、ちゃんと「(新)常用漢字や人名用漢字を互換漢字に追加するのをシブるのなら」っていう条件をつけてませんでしたっけ? 私のそもそもの要求は、(新)常用漢字や人名用漢字を互換漢字に(日本の必要に応じて)追加することであって、「﨟」の件を持ち出すのは、それが拒否されてからの話ですよ。

          親コメント
typodupeerror

人生unstable -- あるハッカー

読み込み中...