パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

Windowsのメモ帳(notepad)に文字化けするバグ」記事へのコメント

  • 「Tiny bug for nards」だと化ける。
    「Tiny Bug for nards」だと化けない。

    大文字2文字、2文字以上含まれていれば化けないのかな?

    テストにしては少ないけど。
    • by Anonymous Coward
      文字コード判定アルゴリズムが垣間見える気がします。

      別コメントにもあるように、2バイトずつ区切ってリトルエンディアンの
      UTF-16として解釈するみたいだけど、「 B」(0x20,0x42→U+4220)はUnified
      CJK Ideographs(U+4E00 - U+9FBF)の範囲を逸脱し、CJK Ideographs
      Extension Aの範囲になってしまうので、Unicode文字列である可能性が
      ぐっと低くなるとみなされるのでしょう。

      どなたか、さらなる解析をお願いします。

      • by Anonymous Coward on 2006年07月08日 0時39分 (#974777)
        反例です。

        > 「tiny bug foR nardS」だと化けません。

        「oR」0x6F,0x52 U+526F
        「dS」0x64,0x53 U+5364
        の両方とも CJK Unified Ideographs に入りますが、これらのせいで
        Unicodeとは判定されなくなっています。(Rのみが大文字、Sのみが大文字の
        場合でも文字化けしない)。
        とくに、U+526Fは「副」です。JISX0208にも収録されている、ごくありふれた字です。

        よくわからないですね。

        親コメント

吾輩はリファレンスである。名前はまだ無い -- perlの中の人

処理中...