アカウント名:
パスワード:
別コメントにもあるように、2バイトずつ区切ってリトルエンディアンの UTF-16として解釈するみたいだけど、「 B」(0x20,0x42→U+4220)はUnified CJK Ideographs(U+4E00 - U+9FBF)の範囲を逸脱し、CJK Ideographs Extension Aの範囲になってしまうので、Unicode文字列である可能性が ぐっと低くなるとみなされるのでしょう。
どなたか、さらなる解析をお願いします。
> 「tiny bug foR nardS」だと化けません。
「oR」0x6F,0x52 U+526F 「dS」0x64,0x53 U+5364 の両方とも CJK Unified Ideographs に入りますが、これらのせいで Unicodeとは判定されなくなっています。(Rのみが大文字、Sのみが大文字の 場合でも文字化けしない)。 とくに、U+526Fは「副」です。JISX0208にも収録されている、ごくありふれた字です。
よくわからないですね。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー
「Tiny Bug for nards」だと化けない (スコア:5, 参考になる)
「Tiny Bug for nards」だと化けない。
大文字2文字、2文字以上含まれていれば化けないのかな?
テストにしては少ないけど。
Re:「Tiny Bug for nards」だと化けない (スコア:3, 参考になる)
「TiNy bug for nards」でも化けます。
「Tiny bUg for nards」でも化けます。
各文字列の最初の文字が大文字なのが2文字以上だと化けない?
Re:「Tiny Bug for nards」だと化けない (スコア:2, 参考になる)
「tiny bug foR narDs」だと化けます。
「tiny bug foR Nards」だと化けません。
文字列の最初か最後に大文字が2文字以上だと化けない?
Re:「Tiny Bug for nards」だと化けない (スコア:2, 参考になる)
「Tiny bug foR nards」でも化けません。
Re:「Tiny Bug for nards」だと化けない (スコア:3, 参考になる)
別コメントにもあるように、2バイトずつ区切ってリトルエンディアンの
UTF-16として解釈するみたいだけど、「 B」(0x20,0x42→U+4220)はUnified
CJK Ideographs(U+4E00 - U+9FBF)の範囲を逸脱し、CJK Ideographs
Extension Aの範囲になってしまうので、Unicode文字列である可能性が
ぐっと低くなるとみなされるのでしょう。
どなたか、さらなる解析をお願いします。
Re:「Tiny Bug for nards」だと化けない (スコア:1, 参考になる)
> 「tiny bug foR nardS」だと化けません。
「oR」0x6F,0x52 U+526F
「dS」0x64,0x53 U+5364
の両方とも CJK Unified Ideographs に入りますが、これらのせいで
Unicodeとは判定されなくなっています。(Rのみが大文字、Sのみが大文字の
場合でも文字化けしない)。
とくに、U+526Fは「副」です。JISX0208にも収録されている、ごくありふれた字です。
よくわからないですね。
Re:「Tiny Bug for nards」だと化けない (スコア:1, 興味深い)
UTF-8でも勝手にBOMつけるんだから先にそっちで判定すりゃいいのに。
Re:「Tiny Bug for nards」だと化けない (スコア:0)
ついていないファイルの場合、それ以外の特徴から類推するしかないでしょう。
それに、BOMをつけるのはMSだけのローカルルールだったような気がします。
Notepadが、MS製エディタで作られたファイルだけを読めればいいのなら、BOMだけを
頼りに判別すればいいでしょうが。
Re:「Tiny Bug for nards」だと化けない (スコア:2, 参考になる)
規格として定義されているのかは確認できませんが、
RFC 2781 [rfc.net]の3.2 Byte order mark (BOM)、
及びunicode.orgのFAQ、UTF-8, UTF-16, UTF-32 & BOM [unicode.org]
でBOMについてふれらていますので、ローカルルールとまではいかない気がします。
あとFAQでは、BOMはUTF16だけではなく、UTF32はもちろんUTF8でも付けられると書いてます。
知らなかった...
Re:「Tiny Bug for nards」だと化けない (スコア:0)
JIS X 0221の規格票 [jisc.go.jp]もUnicode 4.0 Book [unicode.org]も公開されているのに、どうして確認できないのですか?
で、結論だけ言うとBOMは決してMicrosoftだけのローカルルールではありません。
Re:「Tiny Bug for nards」だと化けない (スコア:2, 参考になる)
ローカルルールどころか、BOMを付けるのが UTF-16の本来の姿。
UTF-8はバイトオーダー誤認が無いように作られてるので、BOMをつけてる一部のエディタは、そのエディタのローカルルールだけどね。