アカウント名:
パスワード:
> 簡体字混じりの日本語表記は、日本語母語話者にこの開発者は言語について気にかけていないと感じさせてしまう
感じさせるというか、正しく気にかけてないんだと思うけれど、非漢字圏の人がアウトプットを見て「文字セットが合ってない」と認識することは可能なんだろうか。
今時みんなUTF-8使ってるんだから、表面上の文字セットはUnicode文字セットだよ。ストーリーが「文字セット」って言ってるけどグリフセットの間違いでしょ。
記事より
そもそも日本語の漢字と簡体字と繁体字が混同されてしまいがちなのは、Unicodeが設計された時に、文字セットのサイズを小さくするために中国語・日本語・韓国語で使われる同等の漢字には同等のコードポイントが与えるUnihanが定められたためです。「刃」は日本語の漢字と簡体字と繁体字と韓国語の漢字でそれぞれ見た目が異なりますが、Unicode上では同じコードポイントを与えられており、レンダリングの時に選択した文字セットに応じてふさわしい漢字を表示する仕組みです。
つまり、日本語に翻訳しているのに簡体字や繁体字が表示されてしまう現象の多くは、文字セットを日本語に設定していないことが原因。デフォルトだと簡体字が文字セットに設定されてしまうことが多いので、文字セットを日本語に設定していないと「日本語表記なのに漢字が簡体字表記になる」ということが起こるわけです。
文字セットが未設定で結果として簡体字が選ばれ、その設定でフォント(グリフ)を処理してしまうのが原因ということでいいのかな?でも私も文字セットはUnicode、フォント(グリフ)はどこぞの言語を指定って認識だったので、文字セットが云々と言われると違和感ありますね。
> でも私も文字セットはUnicode、フォント(グリフ)はどこぞの言語を指定って認識だったので、
原文でもまさにこの通りに記載されているように読めますね。
> 文字セットが云々と言われると違和感ありますね。
この「文字セット」の使い方は単に GIGAZINEの文章が変(というか未定義の使い方)なだけだと思います。
unicodeの「文字」は「グリフ」ではありません。CJKVの違いは「グリフ」のバリエーションでしかなく、あくまで1コードポイントに割当たっているのは同一「文字」という考えです。
unicodeには、言語の指定はありません。自分で好きなフォントを使えば? という態度ですね。東アジア人は、外国語の表記に外国語のグリフを使う文化がありません、だそうです。言語の指定みたいなものがあるとしたら、それはunicodeの範囲外の話です。
#この件に関してはこれ以上突っ込む気にはなれません。
言語タグって今も有効なんですか?# 現実には使えないと思いますが、それはともかく。
あと、Unicode FAQ Chinese and Japanese [unicode.org]ってのは真面目に受けとってはいけないんでしょうか?
言語タグ以外のタグ文字がemojiで再利用するためにdeprecate解除されていて草
えっ、「同等の漢字には同等のコードポイントが与える」って、Unicode が設計された初期 16bit Unicode の問題であって、今の Unicode では解決されたのだろうと思ったけど、勘違いなの?
Unicode以前には無かったこの問題が、今でも満足に解決されていないから、このストーリーのザマなんですよ。
結合文字列のおかげでそれ以前の問題になったのは皮肉ではある
最低でもあなたがロシアとブルガリアのキリル文字を区別するのと同じくらいは難しいんじゃないだろうか。(要するに無理)
表示されてればマシな方で、いわゆる豆腐状態になってることも珍しいわけじゃないから無理だし気にもしてない(市場規模も的にも)気にする予定もないってところでしょうか
気にしてないんじゃないかな。キーボードで「タ」が「夕」なのにフォントのせいで納得しちゃうんだし。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
ナニゲにアレゲなのは、ナニゲなアレゲ -- アレゲ研究家
違いの認識 (スコア:3)
> 簡体字混じりの日本語表記は、日本語母語話者にこの開発者は言語について気にかけていないと感じさせてしまう
感じさせるというか、正しく気にかけてないんだと思うけれど、
非漢字圏の人がアウトプットを見て「文字セットが合ってない」と認識することは可能なんだろうか。
Re:違いの認識 (スコア:3)
今時みんなUTF-8使ってるんだから、表面上の文字セットはUnicode文字セットだよ。
ストーリーが「文字セット」って言ってるけどグリフセットの間違いでしょ。
Re:違いの認識 (スコア:1)
記事より
そもそも日本語の漢字と簡体字と繁体字が混同されてしまいがちなのは、Unicodeが設計された時に、文字セットのサイズを小さくするために中国語・日本語・韓国語で使われる同等の漢字には同等のコードポイントが与えるUnihanが定められたためです。「刃」は日本語の漢字と簡体字と繁体字と韓国語の漢字でそれぞれ見た目が異なりますが、Unicode上では同じコードポイントを与えられており、レンダリングの時に選択した文字セットに応じてふさわしい漢字を表示する仕組みです。
つまり、日本語に翻訳しているのに簡体字や繁体字が表示されてしまう現象の多くは、文字セットを日本語に設定していないことが原因。デフォルトだと簡体字が文字セットに設定されてしまうことが多いので、文字セットを日本語に設定していないと「日本語表記なのに漢字が簡体字表記になる」ということが起こるわけです。
文字セットが未設定で結果として簡体字が選ばれ、その設定でフォント(グリフ)を処理してしまうのが原因ということでいいのかな?
でも私も文字セットはUnicode、フォント(グリフ)はどこぞの言語を指定って認識だったので、文字セットが云々と言われると違和感ありますね。
Re:違いの認識 (スコア:1)
> でも私も文字セットはUnicode、フォント(グリフ)はどこぞの言語を指定って認識だったので、
原文でもまさにこの通りに記載されているように読めますね。
> 文字セットが云々と言われると違和感ありますね。
この「文字セット」の使い方は単に GIGAZINEの文章が変(というか未定義の使い方)なだけだと思います。
Re: (スコア:0)
unicodeの「文字」は「グリフ」ではありません。CJKVの違いは「グリフ」の
バリエーションでしかなく、あくまで1コードポイントに割当たっているのは
同一「文字」という考えです。
unicodeには、言語の指定はありません。自分で好きなフォントを
使えば? という態度ですね。
東アジア人は、外国語の表記に外国語のグリフを使う文化がありません、
だそうです。
言語の指定みたいなものがあるとしたら、それはunicodeの範囲外の話です。
Re:違いの認識 (スコア:4, 興味深い)
#この件に関してはこれ以上突っ込む気にはなれません。
Re: (スコア:0)
言語タグって今も有効なんですか?
# 現実には使えないと思いますが、それはともかく。
あと、Unicode FAQ Chinese and Japanese [unicode.org]ってのは真面目に受けとってはいけないんでしょうか?
Re: (スコア:0)
言語タグ以外のタグ文字がemojiで再利用するためにdeprecate解除されていて草
Re: (スコア:0)
えっ、「同等の漢字には同等のコードポイントが与える」って、
Unicode が設計された初期 16bit Unicode の問題であって、
今の Unicode では解決されたのだろうと思ったけど、勘違いなの?
Re: (スコア:0)
Unicode以前には無かったこの問題が、今でも満足に解決されていないから、このストーリーのザマなんですよ。
Re: (スコア:0)
結合文字列のおかげでそれ以前の問題になったのは皮肉ではある
Re: (スコア:0)
最低でもあなたがロシアとブルガリアのキリル文字を区別するのと同じくらいは難しいんじゃないだろうか。(要するに無理)
Re: (スコア:0)
表示されてればマシな方で、いわゆる豆腐状態になってることも珍しいわけじゃないから
無理だし気にもしてない(市場規模も的にも)気にする予定もないってところでしょうか
Re: (スコア:0)
気にしてないんじゃないかな。
キーボードで「タ」が「夕」なのにフォントのせいで納得しちゃうんだし。