パスワードを忘れた? アカウント作成
12648809 journal
日本

yasuokaの日記: キラキラネームにおける異体字と音訓 6

日記 by yasuoka

私(安岡孝一)の2015年7月16日の日記の読者から、山西良典・大泉順平・西原陽子・福本淳一の『人名の言語的特徴の分析に基づくキラキラネーム判定』(日本感性工学会論文誌、2015年10月9日)という論文を紹介いただいた。ざっと読んでみたのだが、常用漢字や人名用漢字における異体字と音訓を、ちゃんと理解していないらしく、かなり妙な話になっていた。

キラキラネームには異体漢字が含まれることが多い.異体字とは,常用漢字と同様に使用可能であり読むことは可能であるが,形が異なっている漢字を指す.例としては,「愛來(あいら:女)」の「來」,「愛凜(あめり:女)」の「凜」が異体漢字にあたる.
(中略)
このとき,異体字の判定には,異体字を収集したデータベースを用いる.このデータベースは著者のうち1名がWebページ1を参照して作成した.データベースには1,332個の異体字を収録している.

1 http://wwwap.hi.u-tokyo.ac.jp/ships/itaiji_list.jsp など

人名用漢字における異体字は、戸籍法施行規則別表第二の一に「同一の字種」として18組36字、別表第二の二に212組424字が掲げられている。どう数えても「1,332個」になったりはしない。数がかなり多いところをみると、正直、このデータベースには、子供の名づけに使えないような漢字が紛れ込んでいるか、あるいは、異体字でないものまで異体字として数えていると予想される。

キラキラネームの読みは漢字の音訓読みに一致しないものが多い.例としては,「弓(あむろ:女)」の「弓」1文字に対しての「あむろ」や「希音(ねおん:女)」の「希」に「ね」という音を充てたものなどがあった.キラキラネームにおいて通常の漢字の音訓読みにない読み方が使用される理由として,漢字の読みではなく漢字から連想される音を読みとして与えることが多いこと考えられる.
(中略)
音訓読みのありなしの判定には,漢字の音訓読みを集めたデータベースを用いる.法務省が子の名に使用できる漢字として公開している常用漢字表と人名用漢字表を元にしてテキストを作成した[1].データベース内には,13,389個の漢字と,40,715個の音訓読みがある.

[1]法務省: 戸籍―子の名に使える漢字,http://www.moj.go.jp/MINJI/minji86.html

ちょっと待て。常用漢字表が2136字、人名用漢字表が862字なのに、どうして「13,389個の漢字」が収録されてるんだ。それはいくら何でも多すぎるぞ。しかも、常用漢字表には音訓が掲載されているが、人名用漢字表に音訓は掲載されていない。そのデータベースにおける音訓の妥当性は、誰がどうやって保証しているんだ?

SVMを使うという判定手法そのものは、まあ工学的には妥当なのかもしれないが、それでも、判定に用いたデータがダメだったら、どうやったってマトモな結果は出ないだろう。いくら交差検定でいい再現率が得られたところで、それはSVM自身のパワー(いい意味での大雑把さ)に過ぎないのであって、提案手法そのものの妥当性を示しているとは限らない。というか、こんなおかしなデータを用いているのに、なぜ、いい再現率が得られたことになってるんだろう。よければ、判定に用いたデータを公開してほしい。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

計算機科学者とは、壊れていないものを修理する人々のことである

読み込み中...