アカウント名:
パスワード:
もし正式採用でもサロゲートペアであれば、悪夢です。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
人生unstable -- あるハッカー
悪夢じゃね? (スコア:1)
新しくユニコードに含める、ってことは、書体の(フォントファイルの)中に入るって話だよね。
そうすると、絵文字に対応した書体と対応してない書体が世の中で入り乱れたりすると。
Q.「送られてきたメールの文字がソフトバンクのマークになります」
A.「書体を変更してください」
見たいな文章がそこここにあふれることになるんでしょう?
A.「エンコード形式を UTF-8+emojiに設定してください 」
とか
A.「その書体は絵文字入って無いので、新しく買いなおしてください、○万円です」
とか
A.「
Re: (スコア:1, 興味深い)
http://www.unicode.org/~scherer/emoji4unicode/snapshot/full.html [unicode.org]
によるとまだunicodeコードの割り当ては当然まだですが、
携帯各社はU+Exxx(外字領域; Private Use Area)を使い、
google内部コードはU+FExxxになっていますね。
U+5桁ということは、サロゲートペア…
もし正式採用でもサロゲートペア(非BMP面、つまり16bits/charで収まらない領域)であれば、悪夢です。
utf-8はサロゲートペアの処理時に特殊な扱いをしなければならないのですが、正式な規格とはことなる独自規格もひろまっていますし(そのうち正式な規格に統一されるで
Re: (スコア:1)
税金のようなものです。考慮せずに、いわば汚染された UTF-8 を世の中に垂れ流すのは
言語道断ですし、汚染された UTF-8 (BMP 以外は6バイトで表現) に新しいエンコーディング名を
付けて世間に認めさせちゃおう、なんてのは馬鹿としか言いようがありません。
どちらかというと、サロゲートペアであれば悪夢、という言い方が残っていることに驚きました。
いわば税金を払うことを厭わしいという考え方の残存こそが、悪夢の前兆であるように思います。
Re: (スコア:1, 参考になる)
たとえばJavaのCharも16bitだし。
1文字の幅を固定長にしておかないと逆方向のカーソル移動とか、検索とかが甚だしく面倒になるので(どこかにどういう文字列クラスを書いておけ、というのはまあ置いておいて)。
VistaでJIS2004が採用されたときに調査したのですが、JISの第三水準、第四水準にはBMPに入らない文字があって、これがまともにサポート出来ていたのは一太郎ぐらいだったのに愕然としました(MSの製品もダメでした)。
またSunもBMP以外に文字が
Re: (スコア:1)
> たとえばJavaのCharも16bitだし。
補助文字をサポートするようになったのはjava5からなのに、そんなことはないでしょう。
# …と思いたいだけかもしれない
Re: (スコア:0)
さておき。
メモリ使用量さえ気にしなければ、ASCII文化圏のプログラマと同じ気分でプログラムが書けるのですよ?
という気持ちになったプログラマ(というかデザイナ)は一杯居るのです。ここにはファーイーストのプログラマだけではなく、ファーイーストのプログラマにプログラミングをさせる環境をデザインしている側も含まれます。
Javaもそうだし、SymbianもTDesは実際問題16bit幅です。それから私が非常に詳しく知っている某アプリケーションのコードも1文字16bitルールで書いてます。
というかエンコ
Re:悪夢じゃね? (スコア:1)
……って与太はおいといて、16bitあれば全世界の文字が収納できるなんて与太論文書いた馬鹿(Digitalの奴だっけ?)には、今更であっても良いから論文引っ込めてもらいたい。16bit空間なんて日本語の文字(二万六千文字ぐらいだったか?)と中国語(簡体字繁体字どちらかだけで四万文字ぐらいだったか?)の文字を全部入れただけで溢れてしまい、それ以外の文化圏の文字(alpha-numeric込み)を納めることすら出来なくなるのだから。
# って言うか、非欧米圏にどれだけの文字が存在するかきちんと調べようとしなかったのがそもそもの……
ここは自由の殿堂だ。床につばを吐こうが猫を海賊呼ばわりしようが自由だ。- A.バートラム・チャンドラー 銀河辺境シリーズより