yasuokaの日記: 日本IT界の鬼っ子「外字問題」解消プロジェクト 11
ネットサーフィンしていたところ、朝日新聞社のサイトで『日本IT界の鬼っ子「外字問題」解消を 経産省が着手』という今日付のニュースを見つけた。
「外字(がいじ)」。コンピューターで使う漢字として日本工業規格(JIS)が定めた約1万字に含まれない、規格外の文字たち。文字化けや正常なデータ通信ができない原因になり、IT業界にとって悩ましい、この「外字問題」を一気に解消しようというプロジェクトが始まった。
うーむ、そんなすごいプロジェクトが始まったのか、と思って読み進めていったところ
経産省が動いたのは、官民ともにインターネットによる電子的な手続きの導入が進むなか、正しい人名表記を扱う必要に迫られると考えたためだ。法務省が幅広い電子化を目指して04年にまとめた「戸籍統一文字」(5万6040字)をもとに5万8713字のデータベースを作る。
とあってズッコケた。いや、それ、去年の8月に公募していた文字情報基盤構築に関する研究開発事業のことで、翌月には発足したんだけど。
委員として参画している私(安岡孝一)が言うのも何だが、この事業で「外字問題」は少しは楽になるかもしれないけど、決して解消するわけではない。たとえば戸籍統一文字の552700は、この58713字には含まれていない。というのも、戸籍統一文字は56040字から3字増えて現在は56043字になっているが、増えた3字のうち552700「⿳宀癶山」は、現時点ではこの事業の対象になっていないからだ。
だったら「⿳宀癶山」を追加すればいいじゃん、という意見もあるだろうが、話はそう簡単じゃない。「外字問題」ってのは、今後いつどこで増えるかわからないから「外字問題」なのだ。というか、日々増え続けているからこそ、「外字」としてしか扱えないのであって、そんな問題がそう簡単に解消できるわけがない、というのが、文字コード屋としての私の偽らざる考えだ。でも、じゃあ、どうすればいいんだろ…。
解決策? (スコア:1)
昔「ビットマップを文字コードにすりゃいいじゃん」とのたもうた御仁があったが、部首のようなパーツとその位置関係をコード化できんかなと。
Re:解決策? (スコア:2)
Droid Sans Fallback [hatena.ne.jp]的アプローチをすすめたものですかね。
Re:解決策? (スコア:1)
emk氏が挙げてるKAGEとか、あと古くはMac用のパラメトリックフォントとかに近いかな。
重要なのは「同じ字は同じコード」を保証することかな?
ただのビットマップだとこれを保証できないから文字コードにはできないけど、字形コードならできるというわけ。
Re:解決策? (スコア:1)
KAGEデータ形式とか? GlyphWikiでの運用実績もあります。
「⿳宀癶山」ってGTには2000年に収録済み [tron.org]だったんですね。法務省が見落としたわけじゃなくて、単に当時は「誤字」扱いだったので方針により戸籍統一文字に含まれていなかっただけみたいですけど。
Re:解決策? (スコア:1)
Re:解決策? (スコア:1)
「倖」の異字体?
調べてみたが拾えない...U+5024のE0100とE0101の差くらい?
# これを異字体とするには抵抗があるなぁ...区別はできると思うけど。
Re:解決策? (スコア:1)
コード化はしてませんが、和田研フォント [wikipedia.org]がそのような考え方の元に半ば機械的に作成されていたかと。
大変ですよねぇ (スコア:1)
個人的には文字コードのレイヤが薄すぎるのが問題じゃないかとか思ってます(偏見)
...国際的な文字コード界隈で日本が忌み子にならなきゃいいんですが、なかなか...
M-FalconSky (暑いか寒い)
今回の件でやっと何とか溜飲が下がりそうな『ワタナベ』 (スコア:0)
少なくとも今回のことで確実に恩恵を受ける(溜飲を下げる)ことの出来そうな者です。
最終判断は、文字サイズを大きくしてやらないといけなさそうですが(笑)
引っ越しの際の外字登録とか、30を過ぎてやっと気付いた誤記の修正(家族の中で自分だけ)など、
いろいろと面倒なことになってるんですよ。
『本当は●●●な字なんですが、いろいろとアレ(苦笑)なんで…』
と、JISの似てる字で書類送って貰ってます。銀行とかのも。(手書きサインは正しい方を書きますが)
『辺』の方も電気屋とかのポイントカードで使っていますので、実用範囲で3つを使い分けてますよ。実際。
どこぞのお方のように『人にとっては使い勝手が悪化するだけだ』なんてのは、馬鹿の極みと個人的に思いますね。
個人の人名にまつわるものであれば、それによって救われる人にとっては愚弄・嘲笑に他なりませんし。