アカウント名:
パスワード:
もう文字コードはUTF8でいいぢゃないって思う。膨大な血を流してUTF16にする利点ってあんまりないと思う。全部UTF8にしてUTF8を超高速に扱う方法をみんなで考えたほうが幸せになれる気がする。
utf8は可変長なので。内部的に使うには仕組み上コストがでかすぎるのですよ。utf16は固定長なのでその辺りの問題がないので内部処理で使われる。その差は仕組み的なものから生まれるから、闇雲に方法とか言われても……
つ サロゲートペア
いまどきUCS2ってなら、それはそれで反対しませんけど。
つ無視
# 規格なんて飾りです
「超高速に扱う方法をみんなで考えたほうが」って下りからコストが高いことは承知の上だって意図を汲めない物ですかね…?
多言語の文字コードの扱いが面倒な点はいつでも可変長だからです。固定長のコストパフォーマンスに目がくらんでUTF16を採用した結果がサロゲートペアやIVSだかなんだかの問題です。
UTF32とか使わない限り、結局可変長の問題にはぶち当たるんですよ。
だったら中途半端に固定長にして後で変な構造で可変長に対応するよりも、最初から全部可変長のまま高速化を狙った方がもしかしたら効率がいいかもしれないじゃないか。
それに、仕組み的にコストがでかいから無理なんて考えは思考停止もいいところですよ。パイプライン的に扱うとか、ハードウェアでサポートしてみるとか、ライブラリ側に隠蔽可能な中間形式で扱うとか、考えようと思えば幾らでもネタは出てきます。そういったアイディアが実用的か否かはまた別の話だけれども、しょっぱなから否定してかかるのはどーなのかね?
んじゃ、この文書の100万文字目を取ってきてくれ。
# 解決は無理な問題もあると思うぞ。# UTF-8のコーディング自体に手を入れないでは
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
UNIXはシンプルである。必要なのはそのシンプルさを理解する素質だけである -- Dennis Ritchie
UTF8でいいぢゃない。 (スコア:1)
もう文字コードはUTF8でいいぢゃないって思う。
膨大な血を流してUTF16にする利点ってあんまりないと思う。
全部UTF8にしてUTF8を超高速に扱う方法をみんなで考えたほうが幸せになれる気がする。
by rti.
Re:UTF8でいいぢゃない。 (スコア:1)
速度的には理論的にはUTF16が速いとは思うが、あんまり関係ないしね。
Re: (スコア:0)
utf8は可変長なので。内部的に使うには仕組み上コストがでかすぎるのですよ。
utf16は固定長なのでその辺りの問題がないので内部処理で使われる。
その差は仕組み的なものから生まれるから、闇雲に方法とか言われても……
Re:UTF8でいいぢゃない。 (スコア:1)
つ サロゲートペア
いまどきUCS2ってなら、それはそれで反対しませんけど。
Re: (スコア:0)
つ無視
# 規格なんて飾りです
Re: (スコア:0)
「超高速に扱う方法をみんなで考えたほうが」
って下りからコストが高いことは承知の上だって意図を汲めない物ですかね…?
多言語の文字コードの扱いが面倒な点はいつでも可変長だからです。
固定長のコストパフォーマンスに目がくらんでUTF16を採用した結果がサロゲートペアやIVSだかなんだかの問題です。
UTF32とか使わない限り、結局可変長の問題にはぶち当たるんですよ。
だったら中途半端に固定長にして後で変な構造で可変長に対応するよりも、最初から全部可変長のまま高速化を狙った方がもしかしたら効率がいいかもしれないじゃないか。
それに、仕組み的にコストがでかいから無理なんて考えは思考停止もいいところですよ。
パイプライン的に扱うとか、ハードウェアでサポートしてみるとか、ライブラリ側に隠蔽可能な中間形式で扱うとか、考えようと思えば幾らでもネタは出てきます。
そういったアイディアが実用的か否かはまた別の話だけれども、しょっぱなから否定してかかるのはどーなのかね?
Re:UTF8でいいぢゃない。 (スコア:1)
んじゃ、この文書の100万文字目を取ってきてくれ。
# 解決は無理な問題もあると思うぞ。
# UTF-8のコーディング自体に手を入れないでは