アカウント名:
パスワード:
サロゲートペアなんて対応してないソフトだって未だあるんだし、実用上はBMPだけでいいでしょ。そうしたら(英数字も含めて)2バイトですよ。(あえて誤解を招きかねない言い方をすると)Unicode に 3 バイトの文字はありません。日本語が3バイトになるのは、単にUTF-8というエンコード方式によるもので。
テキスト系のプログラミングをやってる人はわかると思うけど、ユニコードをUTF-8やUTF-16でエンコードするのは、環境の問題なので、普通は4バイトの配列にする。つまり、UCS-4が一番ナチュラルだし、unicode.orgでもそうやってインデックスを付けている。
>普通は4バイトの配列にする
普通ってどこの普通だよ。内部エンコーディングでもUTF-16かUTF-8が大半で、32bitで持つシステムが少数派でしょ。Pythonくらいか。
まさに環境依存の話してるじゃないか……。それじゃねーんだよ。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
私はプログラマです。1040 formに私の職業としてそう書いています -- Ken Thompson
Unicodeは実用上2バイト (スコア:1)
サロゲートペアなんて対応してないソフトだって未だあるんだし、実用上はBMPだけでいいでしょ。
そうしたら(英数字も含めて)2バイトですよ。
(あえて誤解を招きかねない言い方をすると)Unicode に 3 バイトの文字はありません。
日本語が3バイトになるのは、単にUTF-8というエンコード方式によるもので。
Re: (スコア:0)
テキスト系のプログラミングをやってる人はわかると思うけど、ユニコードをUTF-8やUTF-16でエンコードするのは、環境の問題なので、普通は4バイトの配列にする。つまり、UCS-4が一番ナチュラルだし、unicode.orgでもそうやってインデックスを付けている。
Re: (スコア:0)
>普通は4バイトの配列にする
普通ってどこの普通だよ。内部エンコーディングでもUTF-16かUTF-8が大半で、32bitで持つシステムが少数派でしょ。Pythonくらいか。
Re:Unicodeは実用上2バイト (スコア:0)
まさに環境依存の話してるじゃないか……。それじゃねーんだよ。