アカウント名:
パスワード:
別コメントにもあるように、2バイトずつ区切ってリトルエンディアンの UTF-16として解釈するみたいだけど、「 B」(0x20,0x42→U+4220)はUnified CJK Ideographs(U+4E00 - U+9FBF)の範囲を逸脱し、CJK Ideographs Extension Aの範囲になってしまうので、Unicode文字列である可能性が ぐっと低くなるとみなされるのでしょう。
どなたか、さらなる解析をお願いします。
> 「tiny bug foR nardS」だと化けません。
「oR」0x6F,0x52 U+526F 「dS」0x64,0x53 U+5364 の両方とも CJK Unified Ideographs に入りますが、これらのせいで Unicodeとは判定されなくなっています。(Rのみが大文字、Sのみが大文字の 場合でも文字化けしない)。 とくに、U+526Fは「副」です。JISX0208にも収録されている、ごくありふれた字です。
よくわからないですね。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
吾輩はリファレンスである。名前はまだ無い -- perlの中の人
「Tiny Bug for nards」だと化けない (スコア:5, 参考になる)
「Tiny Bug for nards」だと化けない。
大文字2文字、2文字以上含まれていれば化けないのかな?
テストにしては少ないけど。
Re:「Tiny Bug for nards」だと化けない (スコア:3, 参考になる)
別コメントにもあるように、2バイトずつ区切ってリトルエンディアンの
UTF-16として解釈するみたいだけど、「 B」(0x20,0x42→U+4220)はUnified
CJK Ideographs(U+4E00 - U+9FBF)の範囲を逸脱し、CJK Ideographs
Extension Aの範囲になってしまうので、Unicode文字列である可能性が
ぐっと低くなるとみなされるのでしょう。
どなたか、さらなる解析をお願いします。
Re:「Tiny Bug for nards」だと化けない (スコア:1, 参考になる)
> 「tiny bug foR nardS」だと化けません。
「oR」0x6F,0x52 U+526F
「dS」0x64,0x53 U+5364
の両方とも CJK Unified Ideographs に入りますが、これらのせいで
Unicodeとは判定されなくなっています。(Rのみが大文字、Sのみが大文字の
場合でも文字化けしない)。
とくに、U+526Fは「副」です。JISX0208にも収録されている、ごくありふれた字です。
よくわからないですね。