アカウント名:
パスワード:
別コメントにもあるように、2バイトずつ区切ってリトルエンディアンの UTF-16として解釈するみたいだけど、「 B」(0x20,0x42→U+4220)はUnified CJK Ideographs(U+4E00 - U+9FBF)の範囲を逸脱し、CJK Ideographs Extension Aの範囲になってしまうので、Unicode文字列である可能性が ぐっと低くなるとみなされるのでしょう。
どなたか、さらなる解析をお願いします。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー
「Tiny Bug for nards」だと化けない (スコア:5, 参考になる)
「Tiny Bug for nards」だと化けない。
大文字2文字、2文字以上含まれていれば化けないのかな?
テストにしては少ないけど。
Re:「Tiny Bug for nards」だと化けない (スコア:3, 参考になる)
別コメントにもあるように、2バイトずつ区切ってリトルエンディアンの
UTF-16として解釈するみたいだけど、「 B」(0x20,0x42→U+4220)はUnified
CJK Ideographs(U+4E00 - U+9FBF)の範囲を逸脱し、CJK Ideographs
Extension Aの範囲になってしまうので、Unicode文字列である可能性が
ぐっと低くなるとみなされるのでしょう。
どなたか、さらなる解析をお願いします。
Re:「Tiny Bug for nards」だと化けない (スコア:1, 興味深い)
UTF-8でも勝手にBOMつけるんだから先にそっちで判定すりゃいいのに。
Re:「Tiny Bug for nards」だと化けない (スコア:0)
ついていないファイルの場合、それ以外の特徴から類推するしかないでしょう。
それに、BOMをつけるのはMSだけのローカルルールだったような気がします。
Notepadが、MS製エディタで作られたファイルだけを読めればいいのなら、BOMだけを
頼りに判別すればいいでしょうが。
Re:「Tiny Bug for nards」だと化けない (スコア:2, 参考になる)
規格として定義されているのかは確認できませんが、
RFC 2781 [rfc.net]の3.2 Byte order mark (BOM)、
及びunicode.orgのFAQ、UTF-8, UTF-16, UTF-32 & BOM [unicode.org]
でBOMについてふれらていますので、ローカルルールとまではいかない気がします。
あとFAQでは、BOMはUTF16だけではなく、UTF32はもちろんUTF8でも付けられると書いてます。
知らなかった...
Re:「Tiny Bug for nards」だと化けない (スコア:0)
JIS X 0221の規格票 [jisc.go.jp]もUnicode 4.0 Book [unicode.org]も公開されているのに、どうして確認できないのですか?
で、結論だけ言うとBOMは決してMicrosoftだけのローカルルールではありません。