アカウント名:
パスワード:
言語情報やエンコーディング情報一切なしの状態で、特定言語へのバイアスとかもなしの状態で、テキストデータのエンコーディングを類推することはどれくらい可能なんだろうか... まったく中立な条件で、あるファイルが EUC-JP か Shift-JIS か ISO-8859-1 か ISO-8859-2 か KOI8-R か EUC-KR か etc etc か判別する、というのは、かなりつらそう。「日本語の可能性が高い、次に可能性が高いのは英語」というふうなバイアス
ヘッダのContent-Language や、html要素のlang属性に「ja」等の国コードがあれば、そこから随分絞り込めると思います。
それにほら、XHTMLだと、XML宣言中に文字コードを記述する様になっているし!
国際的に見ると、国(地域)コードと文字符号化方式にどれほどの関連性があるか、不確かな面もあると思いますが。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
日本発のオープンソースソフトウェアは42件 -- ある官僚
automatic detection (スコア:1)
言語情報やエンコーディング情報一切なしの状態で、特定言語へのバイアスとかもなしの状態で、テキストデータのエンコーディングを類推することはどれくらい可能なんだろうか... まったく中立な条件で、あるファイルが EUC-JP か Shift-JIS か ISO-8859-1 か ISO-8859-2 か KOI8-R か EUC-KR か etc etc か判別する、というのは、かなりつらそう。「日本語の可能性が高い、次に可能性が高いのは英語」というふうなバイアス
Re:automatic detection (スコア:2)
ヘッダのContent-Language や、html要素のlang属性に「ja」等の国コードがあれば、そこから随分絞り込めると思います。
それにほら、XHTMLだと、XML宣言中に文字コードを記述する様になっているし!
国際的に見ると、国(地域)コードと文字符号化方式にどれほどの関連性があるか、不確かな面もあると思いますが。