パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

文字エンコーディングはUTF8で本当に十分なのか?」記事へのコメント

  • by Anonymous Coward
    情報交換(他プログラムと、他マシンと)に使うものと、内部処理用は別にしていいですよね。たとえば、内部では1文字すべて64ビット、外部ではXMLで文字コード表記をgzip圧縮、とか。MuleなEmacsは内部3バイトでしたっけ?

    同じ文字かどうか問題。(いわゆる)全角と半角のアルファベットAは同じとすべきか。漢字だと旧字の扱い。各国語のA(似た文字も含めて)は同じとすべきか。検索しやすさ(プログラム内での処理含む)にかかってきます。migemoみたいに類似文字をORする正規表現を作成させて、それでマッチさせるとか?

    実装可能か、処理しやすいか。Unicodeがなんだかんだ言われても普及しているのは、実際に手を動かして動くものを増やしたからでは? ISO-2022との比較です。(比較できるものかな?)

    -- A.C., nothing more, nothing less.
    • 親コメントの考え方をストレートに解釈すると、標準コード体系には使用目的への特化なんて必要ないということですよね。

      Unicodeは情報交換や内部処理などの特定の目的に特化したものではありません。Asciiコードもそうですが、この手の標準コード体系は、どんな目的にもほどほどに使える中途半端な役割が求められます。そう考えると、今のUnicodeの中途半端さはまさに狙い通りだと思います。

      UTF-8は1バイト文化を引きずっていますが、今のところはMatzさんが言うように短いに越したことがないという論理が勝っています。将来的にはどうか分かりませんが。

      Unicode反対派は、このまま中途半端なものが定着するのを避けたいようですが、使用目的を考え出すとまず決まりません。使用目的を考えたところが間違いの元だと思います。
      • #1123881 [srad.jp] をどう解釈すると「標準コード体系には使用目的への特化なんて必要ないということですよね」なのか僕にはさっぱりわかりませんが、それはさておき。

        Unicode はいろいろな用途に使えることを目指して設計していて、それなりにいろいろな用途に使われています。一方、 Adobe-Japan1-6 (コード表 PDF [adobe.com]) などの CID 符号は書体内のグリフを区別するという用途に特化して設計していて、それはそれでちゃんと使われています。僕は知識不足でほかの例を挙げられませんが、ほかにも専用の文字符号は適材適所で使われていると思います。普段目にしないだけで

        • 私は「まあしょうがないか」と思っているんですが、Unicodeで気に入らないのは、Unicode2.0までは主に文字集合に関する不満です。4.0になったら、番号づけのデザインが気になります。特にサロゲートバイトなんて醜すぎます。(他にも勘弁してくれというルールはあるけど。)「まとも」な文字集合を実装していて、まともな番号づけがあるなら、符号化手段としてのUTF-8は私の中では、ある意味どうにでもなる問題だと思ってます。

          --
          vyama 「バグ取れワンワン」
          親コメント

ソースを見ろ -- ある4桁UID

処理中...