Cubeの日記: 改めて、日本語文字コードの半角/全角カナ問題を考える。
日記 by
Cube
郵政公社が著作権フリーで提供している7桁郵便番号データ(通常版 と大口事業所専固有番号)。
(IBM の EBCDICへのコンバータが同じページで提供されているのもご愛敬だけど)
当然文字コードは SJIS で、フリガナ部分が半角カナ フォーマットである。
その点は100歩譲ってよしとしよう。
どうせ nkf とか perl の Jcode.pm ですぐに変換できるから・・・
と軽くタカをくくっていたら思わぬ落とし穴。
半角カナの長音記号とASCII のハイフンが混在してやがる・・・
郵政公社、データの運用面(入力データの妥当性チェックの部分)に問題あるんじゃない?
それから、このデータをいじっていて気付いた点。
これは郵政省時代から連綿とメンテされてきたこのデータに文句を付けるのではなく、
UTF-8 での文字コード割り振りの問題。
UTF-8では全角のチルダ、というか From・・・To を意味する
「にょろ」の文字コードを解釈できないソフトがあるのね。
勝手な邪推だけど、これは多分欧米人が
「コノモジ、チルダヲ デカクシタダケデショ?」
という解釈のもとに半角チルダに割り振ってしまったせいではないかと。
日本人に言わせれば、
「半角チルダと『にょろ』は全然別モン」何だけどな~
でも欧米人にとっては同じモノなんだろうな・・・
改めて、日本語文字コードの半角/全角カナ問題を考える。 More ログイン