アカウント名:
パスワード:
自分のすべての HTML ファイルを Shift JIS で書いてるんですが、UTF-8 化するには何をどうすればよい?
以前は Content-Type の Charset を Shift_JIS から UTF-8 に変えただけの“対応”をしたペイジに出くわした事もあるけれど、今どきはさすがにないんでしょうか。
ファイルそのものの文字コードとContent-Typeを変えれば十分なのでは?UTF-8が「必要」と考えるならばその他の理由もあるでしょうから、その理由に対する変換をしてあげればいいだけで。「阿吽」を「阿呍」にするとか?# 別にShift_JISのファイルだってそのように表示はできるんだけどさ
ちなみに私もほぼ全てShift_JISで書いていますが、当分変えるつもりはありません。
Shift_JISのまま: メリット: 過去のブラウザでも読める デメリット: 別にないUTF-8: メリット: 別にない デメリット: 過去のブラウザで読めない
私にとってはこんな感じなので。過去のブラウザを気にしても意味のないシーンでは、Shift_JIS or UTF-8で扱いやすい方を扱ってます。
> UTF-8:> メリット: 別にない> デメリット: 過去のブラウザで読めないデメリット追加: ファイルサイズが150%ぐらい増加する。
ああ、そうか。そうですよね、それは結構問題。普段は全く気にならないんですが、遅い/品質の低い回線を使わざるを得ないときに実感する...。
極端にやる必要はありませんが、できれば、ファイルサイズは小さくしておきたいですもんね。# 未だにたまに、改行やインデントを見直してちょこっとダイエットしている私
すごくどうでもいいツッコミですが、増加するのは50%ですね。2バイト→3バイトですから。
さらに補足します.
UTF-8 では ASCII の範囲内は 1 バイトで表現できますから, HTMLファイルなら,よほど本文が長いものでない限り,50%も増えません.
極端な例では, slashdot.jp のトップページでは,8%の違いでした (UTF-8 の場合 79423 Byte,Shift_JIS (CP932) の場合 73499 Byte)個人サイトなどでスクリプトや広告が無い場合でも,ちゃんと必要なタグを書いてあるならば,大抵は 30% 以下の増加でしょう.
また,最近では HTML ファイルは圧縮転送される事が多いですが,圧縮した場合にはこの差はさらに縮みます.(大抵の場合は)
> また,最近では HTML ファイルは圧縮転送される事が多いですが,圧縮した場合にはこの差はさらに縮みます.(大抵の場合は)
理想的な圧縮状況であれば圧縮した結果はその文書が持つ情報量に依存するので、元の文字コードが何であれ、同じサイズになるはずですね。
「過去のブラウザ」ってNetscape 3とかIE 3くらいまでさかのぼりますよ? そんな非現実的な状況設定を持ち出すより「ガラケーで読めない」のほうがよほど説得力があるでしょう。困ったことに。> Shift_JISのまま:> デメリット: 別にないで、そこまで古いブラウザを気にしてるなら、「x-sjisと書かないとNetscapeの一部バージョンで文字化けしちゃうよ問題」も当然気にしてるんですよね。なんでISO-2022-JPで書かないんですか? あ、ISO-2022-JPだとOperaの5以前で文字化けしますね。
何をそんなに必死なのか...。あくまで「私にとって」ですよ?単純なテキストばかりのページで、不都合がなかった古いブラウザを突然あえて切り捨てる理由が、私には思いつきません。# 古いブラウザを使い続けるべきかは、別の問題ですよ
私が過去との互換性をある程度大事にしているページでは、過去にNetscape/IE 3.xはもちろん、NCSA Mozaic 2.1.1, Netscape 2.02, Opera 3.1, Cello 1.01a等での表示状況を確認した状態を引き継いでいます。今も表示できることを確認する価値があるとは思っていませんが、故意に切り捨てる必要はないと思っています。あなたの言うガラケー(日本の携帯のことをこう言うんですね)にも対応すべく、未だにHDML(だっけ?)とH" LINK対応の日記ページは残してあったりもしますよ。それぐらいの配慮をした上で、Shift_JISをそのままにしています。
ま、ベストエフォートでいろんな人に見てもらいたいなってのを形にしているだけです。
That's Insightful:+1!However, 'いろんな人' could mean various -Japanese speaker-, depends on the context, heh
アグネスが嫌いな僕としては、むしろペットボトルのキャップを集めいたいところですな。もう少しわかってあげてください。
文字コードを変えたからって、やり方って変わるかな?そこまで低レベルなページの書き方をしていない(ファイルの操作はエディタ頼み)なので、保存時のエンコードを変えるだけだと思うのですが...。
実際、同じエディタで編集しているファイルでも、表示環境にそう心配のないファイル、PerlスクリプトなんかはとっととUTF-8に移行しました。もっとも、こちらはUTF-8にするメリットが大きかったのですが。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
計算機科学者とは、壊れていないものを修理する人々のことである
Shift JIS→UTF-8変換。 (スコア:1)
自分のすべての HTML ファイルを Shift JIS で書いてるんですが、UTF-8 化するには
何をどうすればよい?
以前は Content-Type の Charset を Shift_JIS から UTF-8 に変えただけの“対応”を
したペイジに出くわした事もあるけれど、今どきはさすがにないんでしょうか。
Re:Shift JIS→UTF-8変換。 (スコア:2, 興味深い)
ファイルそのものの文字コードとContent-Typeを変えれば十分なのでは?
UTF-8が「必要」と考えるならばその他の理由もあるでしょうから、その理由に対する変換をしてあげればいいだけで。「阿吽」を「阿呍」にするとか?
# 別にShift_JISのファイルだってそのように表示はできるんだけどさ
ちなみに私もほぼ全てShift_JISで書いていますが、当分変えるつもりはありません。
Shift_JISのまま:
メリット: 過去のブラウザでも読める
デメリット: 別にない
UTF-8:
メリット: 別にない
デメリット: 過去のブラウザで読めない
私にとってはこんな感じなので。過去のブラウザを気にしても意味のないシーンでは、Shift_JIS or UTF-8で扱いやすい方を扱ってます。
Re:Shift JIS→UTF-8変換。 (スコア:1, 興味深い)
> UTF-8:
> メリット: 別にない
> デメリット: 過去のブラウザで読めない
デメリット追加: ファイルサイズが150%ぐらい増加する。
Re:Shift JIS→UTF-8変換。 (スコア:1)
ああ、そうか。そうですよね、それは結構問題。
普段は全く気にならないんですが、遅い/品質の低い回線を使わざるを得ないときに実感する...。
極端にやる必要はありませんが、できれば、ファイルサイズは小さくしておきたいですもんね。
# 未だにたまに、改行やインデントを見直してちょこっとダイエットしている私
Re:Shift JIS→UTF-8変換。 (スコア:1)
すごくどうでもいいツッコミですが、増加するのは50%ですね。2バイト→3バイトですから。
Re: (スコア:0)
さらに補足します.
UTF-8 では ASCII の範囲内は 1 バイトで表現できますから, HTMLファイルなら,よほど本文が長いものでない限り,50%も増えません.
極端な例では, slashdot.jp のトップページでは,8%の違いでした (UTF-8 の場合 79423 Byte,Shift_JIS (CP932) の場合 73499 Byte)
個人サイトなどでスクリプトや広告が無い場合でも,ちゃんと必要なタグを書いてあるならば,大抵は 30% 以下の増加でしょう.
また,最近では HTML ファイルは圧縮転送される事が多いですが,圧縮した場合にはこの差はさらに縮みます.(大抵の場合は)
Re: (スコア:0)
> また,最近では HTML ファイルは圧縮転送される事が多いですが,圧縮した場合にはこの差はさらに縮みます.(大抵の場合は)
理想的な圧縮状況であれば圧縮した結果はその文書が持つ情報量に依存するので、
元の文字コードが何であれ、同じサイズになるはずですね。
Re: (スコア:0)
「過去のブラウザ」ってNetscape 3とかIE 3くらいまでさかのぼりますよ? そんな非現実的な状況設定を持ち出すより「ガラケーで読めない」のほうがよほど説得力があるでしょう。困ったことに。
> Shift_JISのまま:
> デメリット: 別にない
で、そこまで古いブラウザを気にしてるなら、「x-sjisと書かないとNetscapeの一部バージョンで文字化けしちゃうよ問題」も当然気にしてるんですよね。なんでISO-2022-JPで書かないんですか? あ、ISO-2022-JPだとOperaの5以前で文字化けしますね。
Re:Shift JIS→UTF-8変換。 (スコア:2, 興味深い)
何をそんなに必死なのか...。あくまで「私にとって」ですよ?
単純なテキストばかりのページで、不都合がなかった古いブラウザを突然あえて切り捨てる理由が、私には思いつきません。
# 古いブラウザを使い続けるべきかは、別の問題ですよ
私が過去との互換性をある程度大事にしているページでは、過去にNetscape/IE 3.xはもちろん、NCSA Mozaic 2.1.1, Netscape 2.02, Opera 3.1, Cello 1.01a等での表示状況を確認した状態を引き継いでいます。今も表示できることを確認する価値があるとは思っていませんが、故意に切り捨てる必要はないと思っています。
あなたの言うガラケー(日本の携帯のことをこう言うんですね)にも対応すべく、未だにHDML(だっけ?)とH" LINK対応の日記ページは残してあったりもしますよ。それぐらいの配慮をした上で、Shift_JISをそのままにしています。
ま、ベストエフォートでいろんな人に見てもらいたいなってのを形にしているだけです。
Re:Shift JIS→UTF-8変換。 (スコア:1, おもしろおかしい)
If you hope more people will become interested in your documents,
they should be written in English instead of Japanese.
Re:Shift JIS→UTF-8変換。 (スコア:1)
That's Insightful:+1!
However, 'いろんな人' could mean various -Japanese speaker-, depends on the context, heh
Re: (スコア:0, フレームのもと)
Re: (スコア:0, オフトピック)
アグネスが嫌いな僕としては、むしろペットボトルのキャップを集めいたいところですな。もう少しわかってあげてください。
Re: (スコア:0)
Re:Shift JIS→UTF-8変換。 (スコア:1)
文字コードを変えたからって、やり方って変わるかな?
そこまで低レベルなページの書き方をしていない(ファイルの操作はエディタ頼み)なので、保存時のエンコードを変えるだけだと思うのですが...。
実際、同じエディタで編集しているファイルでも、表示環境にそう心配のないファイル、PerlスクリプトなんかはとっととUTF-8に移行しました。もっとも、こちらはUTF-8にするメリットが大きかったのですが。
Re: (スコア:0)