標準コード体系に使用目的への特化は要らない (#1123944) | 文字エンコーディングはUTF8で本当に十分なのか？

「文字エンコーディングはUTF8で本当に十分なのか？」記事へのコメント

記事ページを表示すべてのコメント取得

検索227コメント Log In/Create an Account

文字コード問題で思いつくもの (スコア:1, 興味深い)

by Anonymous Coward

情報交換(他プログラムと、他マシンと)に使うものと、内部処理用は別にしていいですよね。たとえば、内部では1文字すべて64ビット、外部ではXMLで文字コード表記をgzip圧縮、とか。MuleなEmacsは内部3バイトでしたっけ?

同じ文字かどうか問題。(いわゆる)全角と半角のアルファベットAは同じとすべきか。漢字だと旧字の扱い。各国語のA(似た文字も含めて)は同じとすべきか。検索しやすさ(プログラム内での処理含む)にかかってきます。migemoみたいに類似文字をORする正規表現を作成させて、それでマッチさせるとか?

実装可能か、処理しやすいか。Unicodeがなんだかんだ言われても普及しているのは、実際に手を動かして動くものを増やしたからでは? ISO-2022との比較です。(比較できるものかな?)

-- A.C., nothing more, nothing less.
- 標準コード体系に使用目的への特化は要らない (スコア:3, すばらしい洞察)
  
  by Kanji (8729) <reversethis-{moc.ekunam} {ta} {imog-h}> on 2007年03月10日 20時33分 (#1123944) ホームページ日記
  
  親コメントの考え方をストレートに解釈すると、標準コード体系には使用目的への特化なんて必要ないということですよね。
  
  Unicodeは情報交換や内部処理などの特定の目的に特化したものではありません。Asciiコードもそうですが、この手の標準コード体系は、どんな目的にもほどほどに使える中途半端な役割が求められます。そう考えると、今のUnicodeの中途半端さはまさに狙い通りだと思います。
  
  UTF-8は1バイト文化を引きずっていますが、今のところはMatzさんが言うように短いに越したことがないという論理が勝っています。将来的にはどうか分かりませんが。
  
  Unicode反対派は、このまま中途半端なものが定着するのを避けたいようですが、使用目的を考え出すとまず決まりません。使用目的を考えたところが間違いの元だと思います。
  
  シェア
  
  親コメント
  - Re:標準コード体系に使用目的への特化は要らない (スコア:2, 参考になる)
    
    by fcp (32783) on 2007年03月11日 5時16分 (#1124124) ホームページ日記
    
    #1123881 [srad.jp] をどう解釈すると「標準コード体系には使用目的への特化なんて必要ないということですよね」なのか僕にはさっぱりわかりませんが、それはさておき。
    
    Unicode はいろいろな用途に使えることを目指して設計していて、それなりにいろいろな用途に使われています。一方、 Adobe-Japan1-6 (コード表 PDF [adobe.com]) などの CID 符号は書体内のグリフを区別するという用途に特化して設計していて、それはそれでちゃんと使われています。僕は知識不足でほかの例を挙げられませんが、ほかにも専用の文字符号は適材適所で使われていると思います。普段目にしないだけで。
    
    「Unicode 反対派」というのがどういう主張の人を指しているのか知りませんが、もしもその人たちが何らかの目的に特化した文字符号を提案しているなら、それはその目的に特化した文字符号が必要だと思ったからでしょう。それなら Unicode に反対しているのではなく、むしろ Unicode の領分は認めた上で Unicode では力不足の領域の状況を改善しようとしているだけのことで、それって「Unicode 反対派」と呼んでいいのかという疑問が出てきます。
    
    シェア
    
    親コメント
    - Re:標準コード体系に使用目的への特化は要らない (スコア:1, 参考になる)
      
      by KENN (3839) on 2007年03月11日 14時08分 (#1124246) 日記
      
      「専用の文字符号」というと戸籍統一文字番号 [moj.go.jp]とか、住民基本台帳ネットワーク統一文字 [kajo.co.jp]とかですか？
      
      シェア
      
      親コメント
    - Re:標準コード体系に使用目的への特化は要らない (スコア:1)
      
      by vyama (6377) on 2007年03月13日 22時30分 (#1125576) ホームページ日記
      
      私は「まあしょうがないか」と思っているんですが、Unicodeで気に入らないのは、Unicode2.0までは主に文字集合に関する不満です。4.0になったら、番号づけのデザインが気になります。特にサロゲートバイトなんて醜すぎます。(他にも勘弁してくれというルールはあるけど。)「まとも」な文字集合を実装していて、まともな番号づけがあるなら、符号化手段としてのUTF-8は私の中では、ある意味どうにでもなる問題だと思ってます。
      
      --
      vyama 「バグ取れワンワン」
      
      シェア
      
      親コメント
  - Re:標準コード体系に使用目的への特化は要らない (スコア:1, 参考になる)
    
    by Anonymous Coward on 2007年03月11日 3時58分 (#1124112)
    
    標準コード体系（文字集合と符号化方法）は、情報交換のための約束事の一つです。
    情報交換の必要がなければ、標準コード体系なんて決める必要はないのですよ。
    
    Unicode文字集合/符号化方法も、ASCIIコードも、情報交換のための約束事の一つです。
    その約束事にもともとある程度以上の汎用性があったり、情報交換に使う機器の制約と
    (外部との情報交換の必要のない)内部処理に使う機器の制約とが似通っている・もしくは
    同一であるため、内部処理用途に使い回すことが容易だった、等の理由から、内部処理
    用途にも使い回されている/きた、というだけのことに過ぎません。
    
    Unicode符号化方法で表されたデータを通信用途に最適化する変換仕様が、UTF-8等です。
    その仕様は、もともとASCIIコードベースで表現できていたデータは、Unicode符号化方法
    で表現し直しても、通信時にはかつてのASCIIコードベースでの通信とほぼ同等の転送効率
    を実現できることを主眼に作られています。そのとばっちりで、漢字などはUTF-8にすると
    もともとのUnicodeよりも転送効率が落ちてしまうということになっているのは、ご承知かと
    思います。
    
    Unicode文字集合/符号化方法と、Unicode符号化方法によるデータの通信時転送仕様UTF-8は、
    所属するレイヤが異なります。一緒くたに語ってしまうとわけがわからなくなりますよ。
    
    シェア
    
    親コメント
  - Re:標準コード体系に使用目的への特化は要らない (スコア:0)
    
    by Anonymous Coward
    
    何を言いたいのかさっぱりわからないのだけど、
    Unicodeのどういう性質が中途半端だと言っている？
    中途半端でない文字集合・符号化って例えば何?
    
    少なくともMatzさんは「短いに越したことがない」とも
    「短いに越したことがないという論理が勝っている」とも言っていないと思う。
    - Matzさんがどうのは削除で (スコア:1)
      
      by Kanji (8729) <reversethis-{moc.ekunam} {ta} {imog-h}> on 2007年03月11日 0時13分 (#1124052) ホームページ日記
      
      ごめんMatzさんがどうのの部分は削除します（されないけど）。英語圏の人にとってUTF-8の方が短くなるから優勢だと言いたかっただけです。
      
      Unicodeについては説明する手間が惜しいので気に入らなければ聞き流してください。
      
      シェア
      
      親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

文字エンコーディングはUTF8で本当に十分なのか？ More ログイン

「文字エンコーディングはUTF8で本当に十分なのか？」記事へのコメント

文字コード問題で思いつくもの (スコア:1, 興味深い)

標準コード体系に使用目的への特化は要らない (スコア:3, すばらしい洞察)

Re:標準コード体系に使用目的への特化は要らない (スコア:2, 参考になる)

Re:標準コード体系に使用目的への特化は要らない (スコア:1, 参考になる)

Re:標準コード体系に使用目的への特化は要らない (スコア:1)

Re:標準コード体系に使用目的への特化は要らない (スコア:1, 参考になる)

Re:標準コード体系に使用目的への特化は要らない (スコア:0)

Matzさんがどうのは削除で (スコア:1)

スラド