パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

Webで利用される文字コード、UTF-8がもうすぐ50%を突破 」記事へのコメント

  • 自分のすべての HTML ファイルを Shift JIS で書いてるんですが、UTF-8 化するには
    何をどうすればよい?

    以前は Content-Type の Charset を Shift_JIS から UTF-8 に変えただけの“対応”を
    したペイジに出くわした事もあるけれど、今どきはさすがにないんでしょうか。

    • by Anonymous Coward

      まとめて nkf して、Charset を一括置換……というだけでは足りないのでしょうか?

      • Re: (スコア:3, 参考になる)

        by Anonymous Coward

        まとめて nkf して、Charset を一括置換……というだけでは足りないのでしょうか?

        いやいやいや全然全く足りませんよ
        そもそもUTF-8はShiftJISの上位互換では無いですから、単純にnkfすれば良いという訳ではないです
        ましてやUTF-8自体もBOM有り/無しとありまして、OSによっては片方のみをUTF-8として認識し、もう片方は認識出来ずに文字化けの嵐なんて事もありますし

        私も昨年、PostgreSQLのDBをEUC_JPからUTF-8に変換しようとして難儀しましたよ
        有名なバックスラッシュとなみ線問題から、一部の漢字の誤変換問題
        更にはそれらをシコシコと手作業で直していたのですが、端末上ではVim、Windowsでは秀丸を使っていましたら、改行はLFで統一されていたものの、何故かBOMが混在した状態になってしまっていたりして・・・・・本当に疲れた

        • by Anonymous Coward
          BOM付きUTF-8なんてローカルルールで標準ではないんですよ。
          ISO-2022-JPで半角カナを拡張して使ってるようなもんです。
          • BOM付きUTF-8なんてローカルルールで標準ではないんですよ。

            → 付ける必要は無いが、付けた場合でも規格の範囲内。

            ISO-2022-JPで半角カナを拡張して使ってるようなもんです。

            → 規格外。

            では? もっとも、HTTPはエンコードを指定できるプロトコルなので、BOMを禁止するべきである (RFC 3629) という話はありますが。

            --
            HIRATA Yasuyuki
            • by Anonymous Coward on 2010年01月31日 17時49分 (#1711497)

              RFCもISOの規格票もTUSも読まないでBOM付きのUTF-8はローカルルールだとか勝手に思い込んでる人がこんなに多いんじゃ、面倒でも毎回毎回言及するたびに引用するしかないですね…。

              親コメント

海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs

処理中...