パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

Webで利用される文字コード、UTF-8がもうすぐ50%を突破 」記事へのコメント

  • 自分のすべての HTML ファイルを Shift JIS で書いてるんですが、UTF-8 化するには
    何をどうすればよい?

    以前は Content-Type の Charset を Shift_JIS から UTF-8 に変えただけの“対応”を
    したペイジに出くわした事もあるけれど、今どきはさすがにないんでしょうか。

    • by Anonymous Coward

      まとめて nkf して、Charset を一括置換……というだけでは足りないのでしょうか?

      • Re: (スコア:3, 参考になる)

        by Anonymous Coward

        まとめて nkf して、Charset を一括置換……というだけでは足りないのでしょうか?

        いやいやいや全然全く足りませんよ
        そもそもUTF-8はShiftJISの上位互換では無いですから、単純にnkfすれば良いという訳ではないです
        ましてやUTF-8自体もBOM有り/無しとありまして、OSによっては片方のみをUTF-8として認識し、もう片方は認識出来ずに文字化けの嵐なんて事もありますし

        私も昨年、PostgreSQLのDBをEUC_JPからUTF-8に変換しようとして難儀しましたよ
        有名なバックスラッシュとなみ線問題から、一部の漢字の誤変換問題
        更にはそれらをシコシコと手作業で直していたのですが、端末上ではVim、Windowsでは秀丸を使っていましたら、改行はLFで統一されていたものの、何故かBOMが混在した状態になってしまっていたりして・・・・・本当に疲れた

        • by Anonymous Coward on 2010年01月31日 14時34分 (#1711411)

          > そもそもUTF-8はShiftJISの上位互換では無いですから、
          上位互換ならそもそも変換の必要はありませんから、上位互換でないのは自明だと思いますが…(でもこのものすごい部門名を見るとそう自明でもないのかな)。
          > UTF-8自体もBOM有り/無しとありまして、OSによっては片方のみをUTF-8として認識し、
          元コメントの人は
          > 自分のすべての HTML ファイルを
          と言っています。HTMLに限って言えば両方認識できなければならないことは明確ですし実際のブラウザもそうなっています。まあ手もとで作業するとき文字化けすると不便かもしれませんが。本当はHTMLに限った話ではないのですが認識できないものはできないし当初「ASCIIの上位互換だ」(つまりBOMなし)ということになっていたところから泥沼にはまってるわけですからね。
          > 一部の漢字の誤変換問題
          CP51932とeucJP-msで「鷗」とか「彅」とかの変換されかたが違う系の問題でしょうか。もう少し詳細を書いていただけると同じところでハマるに違いない他の方の参考になるかと思います。それとも深追いしないで手作業で直しちゃったのでしょうか。修正量によってはそっちのほうがコストが低いかもしれませんが、楽するためならどんな苦労でもするプログラマ的にはいまいちです。

          親コメント

弘法筆を選ばず、アレゲはキーボードを選ぶ -- アレゲ研究家

処理中...