文字コード自動判別 / lv新パッチ人柱募集 | kubotaの日記

スラド

kubotaの日記：文字コード自動判別 / lv新パッチ人柱募集 2

日記 by kubota 2003年09月16日 23時01分

文字コード自動判別で、EUC-JP の「名前」が UTF-8 と誤認される問題ですが、じつは UTF-8 として正しいシーケンスではなかったということがわかりました。(坂本さんありがとうございます)

というわけで、そのへんのチェックを厳しくした新パッチです。試してみてくださいませ。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索2コメント Log In/Create an Account

文字コード自動判別パッチ (スコア:1)

by numa (4467) on 2003年09月19日 21時17分 (#400451) ホームページ日記
Linux じゃなくて Solaris ですが， UTF-8/eucJP/SJIS の判別が，手元にあるデータの範囲内では正常動作することを確認しました．

ところで，いくつか問題を見つけたので報告します．
- setlocale() の返却値に NULL がきたときの対処がない．たとえば:
  env LANG=xyzzy lv /etc/profile
  のように，存在しないロケール名を環境変数に指定すると，core を吐いて死にます．
- ロケール名が xx_YY の形式であることに依存した部分がある．たとえば，Solaris では ja とか ko とかいったロケール名が存在します．
- コードセット名が glibc 依存になっている．他のシステムでは名前が違っている可能性があるので，できる限り対応しておいた方がいいでしょう．
パッチは，別途メールでお送りします．
- Re:文字コード自動判別パッチ (スコア:1)
  
  by kubota (64) on 2003年09月20日 18時07分 (#400956) ホームページ日記
  
  ありがとうございます。ためしてみます。setlocale() や nl_langinfo() の返り値ですが、どれくらい広い範囲に対応しないといけないかよくわからないので、大文字・小文字は無視したり、ハイフンやアンダースコアも無視するような文字列比較ルーチンを作ってそれを用いたほうがいいかもしれません。
  ほんとうは、configure で nl_langinfo() の有無を調べるなどしたほうがいいのかもしれませんが、そのへん、どうでしょうか? もちろん、あったほうがいいのでしょうが、バグが混入したり、テストしきれなかったりするリスクとの比較で。
  
  シェア
  
  親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

私は悩みをリストアップし始めたが、そのあまりの長さにいやけがさし、何も考えないことにした。-- Robert C. Pike

文字コード自動判別 More ログイン

文字コード自動判別パッチ (スコア:1)

Re:文字コード自動判別パッチ (スコア:1)