パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

Webで利用される文字コード、UTF-8がもうすぐ50%を突破 」記事へのコメント

  • 自分のすべての HTML ファイルを Shift JIS で書いてるんですが、UTF-8 化するには
    何をどうすればよい?

    以前は Content-Type の Charset を Shift_JIS から UTF-8 に変えただけの“対応”を
    したペイジに出くわした事もあるけれど、今どきはさすがにないんでしょうか。

    • by Anonymous Coward

      まとめて nkf して、Charset を一括置換……というだけでは足りないのでしょうか?

      • Re: (スコア:3, 参考になる)

        by Anonymous Coward

        まとめて nkf して、Charset を一括置換……というだけでは足りないのでしょうか?

        いやいやいや全然全く足りませんよ
        そもそもUTF-8はShiftJISの上位互換では無いですから、単純にnkfすれば良いという訳ではないです
        ましてやUTF-8自体もBOM有り/無しとありまして、OSによっては片方のみをUTF-8として認識し、もう片方は認識出来ずに文字化けの嵐なんて事もありますし

        私も昨年、PostgreSQLのDBをEUC_JPからUTF-8に変換しようとして難儀しましたよ
        有名なバックスラッシュとなみ線問題から、一部の漢字の誤変換問題
        更にはそれらをシコシコと手作業で直していたのですが、端末上ではVim、Windowsでは秀丸を使っていましたら、改行はLFで統一されていたものの、何故かBOMが混在した状態になってしまっていたりして・・・・・本当に疲れた

        • by Anonymous Coward
          BOM付きUTF-8なんてローカルルールで標準ではないんですよ。
          ISO-2022-JPで半角カナを拡張して使ってるようなもんです。
          • BOM付きUTF-8なんてローカルルールで標準ではないんですよ。

            → 付ける必要は無いが、付けた場合でも規格の範囲内。

            ISO-2022-JPで半角カナを拡張して使ってるようなもんです。

            → 規格外。

            では? もっとも、HTTPはエンコードを指定できるプロトコルなので、BOMを禁止するべきである (RFC 3629) という話はありますが。

            --
            HIRATA Yasuyuki
            • by Anonymous Coward
              BOM付きUTF-8なんてローカルルールで標準ではないんですよ。

              → 付ける必要は無いが、付けた場合でも規格の範囲内。

              付けた場合はBOMではなく幅のないスペースです。
              • BOM付きUTF-8なんてローカルルールで標準ではないんですよ。

                Unicode Consortiumは「UTF-8 can contain a BOM」と言ってます。 (cf. Unicode FAQ [unicode.org]) もっとも、UTF-8の並びはエンディアンネスは関係無いので「BOM」の役割ではなく、シグネチャ的な用途にとどまりますが。

                …もしかして「(Unicodeの規格ではなく) 一部のローカルルールでは標準的ではない」という意図でしょうか? 場所によってはそのようなローカルルールがあることは否定しません。 たとえば文字コードをUTF-8に決め打ちする場合、BOMを付けないルールは有用でConsortiumのガイドラインにも適っていると思います。

                付けた場合はBOMではなく幅のないスペースです。

                途中に現れた場合に「ZERO WIDTH NON-BREAKING SPACE」と見なす、というルールと混同していませんか? (もっとも、これは後方互換性のためのようですが。)

                --
                HIRATA Yasuyuki
                親コメント

にわかな奴ほど語りたがる -- あるハッカー

処理中...