パスワードを忘れた? アカウント作成
19717 journal

oldwaveの日記: 普通の日本人のためのUnicode 3

日記 by oldwave

Unicodeを仕様通りにフルスペックで実装している処理系はおそらくない。結果として、Unicodeのサブセットがあちこちにあって、インピーダンスミスマッチがしばしば発生している。

Unicodeがなければ良いとは思わない。どんな文字コードもあらゆるニーズを満足させることはできないので、妥協・改訂は避けられない。Unicodeがなければないで別の問題が起きるだけのことだ(各論として個別の問題をどう捉えるかはまた別の話)。

しかし、いくらなんでもUnicodeは複雑過ぎる。多言語環境が必要な利用者はともかく、普通の日本人が利用する場合にはオーバースペックもいいところである。思うに、普通の日本人のためのUnicodeサブセットを標準化し、みんなでそれを使うようにした方がいいのではないか。

# と思って、シコシコ資料を作ってるんだけど、先は長いわ、こりゃ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by parsley (5772) on 2008年02月16日 11時31分 (#1298166) 日記
    「普通の日本語」という範囲がundefinedとなってしまうのが難しさの一つ何でしょう。
    いつまでも、トウ小平 [wikipedia.org]とか、深セン市 [wikipedia.org]なんて表記を新聞紙上で目にし続けている度にそう思います。
    --
    Copyright (c) 2001-2014 Parsley, All rights reserved.
    • 僕の考えているコンセプトは以下の通りです。

      • 文字集合はJIS X 0208に従う(変換テーブルはWindowsに従う)。
      • ASCII文字にマッピングできる文字はASCII文字のコードポイントを使う。
      • 合成文字は使わない。
      • 制御文字はHT、LF、CRのみを許可する。
      • エンコードにはUTF-8を使う。

      これをMINIMUM-JA-UNICODEとでも名付けて、ポータブルな日本語Unicodeテキスト表現の基準とする、ということです。

      もちろん、これでは不足する場合はあるでしょう。ここでのポイントは、すべてのプログラマーが習得すべき基礎教養としての文字列処理とはどういうものか?ということです。入出力や検索において、Unicode標準で許されるすべての表現をサポートすることは、ほとんどのプログラマーにとって苦痛でしょうし、しかもその必要がないケースは非常に多いと思うのです。必要なケースでだけ、この範囲を越える文字列表現をサポートすれば良い、と思うのです。

      中国の人名・地名の問題などは、どこまでいっても万人を満足させる解はないと言えるので、そこはその都度苦労するしかないかな、と。

      # 極論を言うと、&toushouhei;のような表現で個別対応することもできるわけですし。

      親コメント
      • by parsley (5772) on 2008年02月16日 22時13分 (#1298388) 日記
        以前は第二水準まで<これもずいぶん適当なくくりではあるが実用的ではあった
        (なぜ「JIS準拠」<これも適当だが と言わなかったのだろうか)

        と同じ方向を目指して一つのサブセットを作るという考え方はわかります。ただ、乱立すると「また」混乱の元になるので大きな声を出せる人のもとで大規模にやるのがいいのかな?と思ってしまいます。
        --
        Copyright (c) 2001-2014 Parsley, All rights reserved.
        親コメント
typodupeerror

人生の大半の問題はスルー力で解決する -- スルー力研究専門家

読み込み中...