ラテン文字とギリシャ文字とキリル文字とが,
形が同じだから統合しろというのは,
別の意味で乱暴です.
たとえば,キリル文字でラテン文字の P と同じ形の文字は実は R に相当する文字だし,キリル文字で C の形をした文字は S に相当します.H のような字は実は N だったりするしで,A はたまたま同じ形で同じ音を表しているだけなのです.混乱させたらごめんなさい.
これらをいっしょにしろというのは,長音記号「ー」もマイナス記号「-」も漢数字のイチ「一」も
同じ横棒だから一緒にしろというのと同じで
(たしかに手で書けば同じですが),
ごっちゃにするとかえって混乱します.
(大昔のタイプライターでは,数字のゼロ 0 を大文字のオー O で代用したとか,数字のイチ 1 を小文字のエル l で代用したとか,伝え聞いておりますが,そんなの
嫌でしょう?)
Re:ISO-2022とISO-2022-JP(いわゆるJIS) (スコア:2)
さて、モデレートはどうくるかな?
Re:ISO-2022とISO-2022-JP(いわゆるJIS) (スコア:1)
なんか,一発検索にこだわりのある方が多いようで:-)
これは,誰一人として意図をはっきり言わないから推測で言いますが,「意味が違うのに,字面が同じだからといって,違うものが一緒になってしまうのはおかしい」という話だと思います.
もしそうなら,「文字コードは,意味にコードを割り振るべきなのか」という疑問に納得できる回答を用意してもらう必要があります.以前よく引き合いに出されていたのは中国語の「湯」(スープの意味) と日本語の「湯」(熱い水の意味) とを区別すべきという話ですが, そこまで言うならどうして「なま」という意味の「生」と,「生きる」という意味の「生」と,「生まれる」という意味の「生」とを区別しないのか, 納得できる説明を持ってきて欲しいものですね. (ついでに「学生」の「生」の字はどれなのかも教えていただけると嬉しい. 私は,こと漢字に関する限り,字面でコードを割り振るしかないと思っていますので,こういう主張には懐疑的なのです.)
字面が同じで意味が違う,というのは,別に漢字だけに限った話ではありません.たとえば, Boot は英語では「長靴」ですが,ドイツ語では「ボート」です.これを区別したいからと言って,英語の B とドイツ語の B とは違うコードを振るべき,という主張をされる方はお見かけしませんね.
Re:ISO-2022とISO-2022-JP(いわゆるJIS) (スコア:2)
おかしいと思うのは、言語を指定しないナンセンスを無視して字面で検索しようとすることに意味があるのだろうかという点です。
grep 毛沢東 が嬉しい方は、英字「A」ギリシャ文字「Α」ロシア文字「А」が統合されていないことをどう考えるのか、
Unicode の豊富な「空白文字」はどう考えるのか、というあたりが気になります。
Re:ISO-2022とISO-2022-JP(いわゆるJIS) (スコア:1)
検索についていえば,言語ごとに分かれていたほうがいい場合もあるでしょうし,よくない場合もあるでしょう.一律にどうこう言える問題ではないと思います. (言語は,文字の一つ一つに固有に存在する属性では ありません.たまたまカタカナは日本語でしか使わないけれど,たとえばラテン文字の A は英語でもフランス語でもスワヒリ語でも日本語でも使います.さて,A は何語の文字でしょう?)
検索に限定せず,文字のコードポイントとして, 形が同じなら一緒にすべきか,という点については, Unicode の立場は「script が違えば形が同じでも 別の文字」ということです.ここでいう script という のは,説明が難しいのですが,大雑把に言えば文字を種類ごとにグループ化したものです.たとえば,片仮名と平仮名は別の script ですので「へ」の字は,形が同じでも統合されていません.漢字は言語によらず同じ script と見なされているので統合されています. (そこで,日本語と中国語を同じ script と 見なすかどうかで意見が分かれるのです.)
これについては,まず例がポイントを外しているので 「毛沢東」も「手紙」も意図が取れなくてつらいのですが.なんせ「沢」を「澤」の略字として使うのは日本だけで, 中国簡体字では「澤」を簡略化した字「泽」(読めるかな) で,繁体字では「澤」ですし, 「東」も簡体字では違う字「东」ですので「毛沢東」をそのまま grep するとひっかかるのは日本語だけということになります. 「手紙」も同様,「紙」は簡体字では「纸」ですので単純 grep では引っかからないのですよ. そういう例ばかり出てくるので,私は高級引っかけ問題かと思ってしまった ;-)
(上の段落では簡体字を使っています.読めなかったらごめんなさい.入力するのにてこずった.:->)
ラテン文字とギリシャ文字とキリル文字とが, 形が同じだから統合しろというのは, 別の意味で乱暴です. たとえば,キリル文字でラテン文字の P と同じ形の文字は実は R に相当する文字だし,キリル文字で C の形をした文字は S に相当します.H のような字は実は N だったりするしで,A はたまたま同じ形で同じ音を表しているだけなのです.混乱させたらごめんなさい. これらをいっしょにしろというのは,長音記号「ー」もマイナス記号「-」も漢数字のイチ「一」も 同じ横棒だから一緒にしろというのと同じで (たしかに手で書けば同じですが), ごっちゃにするとかえって混乱します. (大昔のタイプライターでは,数字のゼロ 0 を大文字のオー O で代用したとか,数字のイチ 1 を小文字のエル l で代用したとか,伝え聞いておりますが,そんなの 嫌でしょう?)
こういう話になるから,Unicode の議論は難しいのですよ.
Re:ISO-2022とISO-2022-JP(いわゆるJIS) (スコア:2)
「ラテン文字とギリシャ文字とキリル文字」を分けるように、日本漢字、簡体字、繁体字を分けるという話であったらよかったのに。
16bits に収めようとして Unification が行われたそうですが、日本も中国も文字追加の提案をしているそうですし、これでは UTF-16 は I18N の選択肢にしかならないような。