パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

CP932においてケース変換で化ける配当漢字」記事へのコメント

  • by Anonymous Coward on 2022年03月26日 23時15分 (#4222078)

    カタカナも化ける。
    よく見かけたのは日本語非対応アプリケーションがパスの大文字小文字を変換して
    デスクトップをデベハトップに変換して読み損なう問題。

    CP932の境界線は、マルチバイト文字の先行バイトにも後続バイトにもなりうるバイト値があるので、
    それが連続しているケースでは頭から追っかける以外に方法はない。
    シングルバイト文字の範囲、
    マルチバイト先行バイトの範囲、
    マルチバイト後続バイトの範囲、ちゃんと書き出せば判別可能な条件もわかると思うよ。
    UTF-8は最上位ビットでシングルバイト判定、上から二桁目で先行後続の判別が固定で出来るのありがたいよね。
    しかも先行バイトはそれだけで何バイト文字かも分かるときた。バイト効率は悪いけど。

    • by Anonymous Coward

      CP932を処理するときはCPANのmbを使えば文字化けせずに済む。もちろんUTF-8ならこの苦労はない。

ナニゲにアレゲなのは、ナニゲなアレゲ -- アレゲ研究家

処理中...