> 字形が違うのはフォントの問題であって文字集合の問題ではないし。 JIS X 0208ではそのとおりですが、Unicodeだとコードポイントの変更やらサロゲートペアや4バイトUTF-8への対応やら大騒ぎになるので(つまり常用漢字表ではデザインの違いということになっているものを分離している文字集合の問題)、むしろ日本語を表現する文字集合としてはJIS X 0208のほうが優れているとさえ言えそうです。唯一の問題はガラパゴスなことくらいですが、これは日本語環境に特化して進化たことで得られるメリットと二律背反なのですから仕方ありません、と日本人なら考えそうですね。たとえば分離されていないほうが都合がいいなんてのはまさに日本の都合です。 一方中国や韓国は自国の都合を国際規格にねじ込んだ(ハングル大移動とか、例を挙げるまでもありませんよね)。
> JIS X 0208では表現できない字体 嘘ばっかり。ま、JIS X 0208の「TRONによる実装」で表現できないのは確かですし、Unicodeと相互運用性を考慮した実装でも事実上表現をあきらめざるを得ませんから今のご時世では「表現できない」と言っても近似的にはそれほど間違ってないかもしれませんが、事実でないことに変わりはありません。
改定常用漢字表 (スコア:3, 興味深い)
年末にも内閣告示になる予定の改定常用漢字表 [bunka.go.jp]には、JIS X 0208では表現できない字体が含まれていますので、今後のことを考えればUTF-8(+Extension B)への対応は必須ではないでしょうかね。
参考:
新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 [nikkeibp.co.jp]
Nullius addictus iurare in verba magistri
Re:改定常用漢字表 (スコア:4, おもしろおかしい)
UTF8は日本語と中国語の判別もできない欠陥コードです。
なんて言って周囲を興ざめさせるやつが出てこないか心配です。
ま、UTF8対応は常識になってくるんでしょうね。
中国語と日本語の区別がつかないことがあるなんて、ほとんどの人には
どうでもいい気がする。
Re:改定常用漢字表 (スコア:2, おもしろおかしい)
それを書くならUTF−8って書かなくちゃ。
Re:改定常用漢字表 (スコア:2)
と、言語を区別する方法にもいろいろあるわけで、どの方式を採用するかは確かにほとんどの人にはどうでも良いですが、何らかの方法では区別できるようにしておかないと困るように思います。
Re:改定常用漢字表 (スコア:1)
言語と文字セットは別の概念ですから、別に定義するのが妥当な考え方ですよね。
XHTML だと、xml:lang は、様々な要素にセットできますから、
Content-type: text/xml; charset=UTF-8
で XHTML を返して、要素ごとに日本語か中国語かを入れていけば一番よいのでは?
# ところで、漢文はどっちとして扱うのでしょうか?
Re: (スコア:0)
簡体字か繁体字か日本の漢字かで判断するしかないですね。
「骨」とか一見似ていて、日中でちょっと違うとかいう漢字があると、
混乱します。
Re: (スコア:0)
一瞬、夜は同じなのかと思った。
Re: (スコア:0)
その前に、ラテン語の文字と英語の文字を区別できる画期的なコードセットを……
Re: (スコア:0)
> UTF8は日本語と中国語の判別もできない欠陥コードです。
じゃあ中国語を判別とか以前に書くことすらできないガラパゴスコードなんて欠陥とか論評する以前の論外コードですね。
Re: (スコア:0)
Re:改定常用漢字表 (スコア:1, すばらしい洞察)
例示字形が違うだけで、JIS X0208 では包摂されてるんだから、表現できないわけじゃないでしょ。
字形が違うのはフォントの問題であって文字集合の問題ではないし。
Re:改定常用漢字表 (スコア:2)
ご指摘のとおりです。
「JIS X 0213:2004で包摂分離された字体」、と書かなければいけませんでした。
ただ、PC用OSではJIS X 0213:2004への対応が進んでいますので、UTF-8サポートは望ましいと思います。
Nullius addictus iurare in verba magistri
Re: (スコア:0)
> 字形が違うのはフォントの問題であって文字集合の問題ではないし。
JIS X 0208ではそのとおりですが、Unicodeだとコードポイントの変更やらサロゲートペアや4バイトUTF-8への対応やら大騒ぎになるので(つまり常用漢字表ではデザインの違いということになっているものを分離している文字集合の問題)、むしろ日本語を表現する文字集合としてはJIS X 0208のほうが優れているとさえ言えそうです。唯一の問題はガラパゴスなことくらいですが、これは日本語環境に特化して進化たことで得られるメリットと二律背反なのですから仕方ありません、と日本人なら考えそうですね。たとえば分離されていないほうが都合がいいなんてのはまさに日本の都合です。
一方中国や韓国は自国の都合を国際規格にねじ込んだ(ハングル大移動とか、例を挙げるまでもありませんよね)。
Re:改定常用漢字表 (スコア:2)
どちらも Unicode 文字集合の問題ではありません。サロゲートペアに至ってはただの仕様であって「問題」ですらないような。
Re: (スコア:0)
JIS X 0208なら何もしないで済むはずだったところに対応が発生するのが問題です。
「サロゲートペアや4バイトUTF-8への対応やら」は具体例を挙げないとどんな対応が必要なのか理解できない馬鹿向けに挙げただけです。
Re:改定常用漢字表 (スコア:2)
UTF-8 や UTF-16 といった符号化方式にそれぞれ対応の面倒臭そうな点があるのは事実ですが、それとあなたがおっしゃる「常用漢字表ではデザインの違いということになっているものを分離している文字集合の問題」とは全然関係ありません。
Re: (スコア:0)
> JIS X 0208では表現できない字体
嘘ばっかり。ま、JIS X 0208の「TRONによる実装」で表現できないのは確かですし、Unicodeと相互運用性を考慮した実装でも事実上表現をあきらめざるを得ませんから今のご時世では「表現できない」と言っても近似的にはそれほど間違ってないかもしれませんが、事実でないことに変わりはありません。