パスワードを忘れた? アカウント作成
12657507 journal
日記

yasuokaの日記: キラキラネームにおける人名用漢字の音訓 1

日記 by yasuoka

私(安岡孝一)の1月12日17日18日の日記の読者から、音訓もUnihan Databaseから拾ってきたのではないか、との御指摘を複数いただいた。もしそうだとすると、山西良典・大泉順平・西原陽子・福本淳一の『人名の言語的特徴の分析に基づくキラキラネーム判定』(日本感性工学会論文誌、2015年10月9日)には、実験事実に関して虚偽の記載があることになり、かなりマズイことになる。当該部分を、もう一度みてみよう。

キラキラネームの読みは漢字の音訓読みに一致しないものが多い.例としては,「弓(あむろ:女)」の「弓」1文字に対しての「あむろ」や「希音(ねおん:女)」の「希」に「ね」という音を充てたものなどがあった.キラキラネームにおいて通常の漢字の音訓読みにない読み方が使用される理由として,漢字の読みではなく漢字から連想される音を読みとして与えることが多いこと考えられる.
(中略)
音訓読みのありなしの判定には,漢字の音訓読みを集めたデータベースを用いる.法務省が子の名に使用できる漢字として公開している常用漢字表と人名用漢字表を元にしてテキストを作成した[1].データベース内には,13,389個の漢字と,40,715個の音訓読みがある.

[1]法務省: 戸籍―子の名に使える漢字,http://www.moj.go.jp/MINJI/minji86.html

「常用漢字表と人名用漢字表を元にしてテキストを作成した[1]」のが事実なら、常用漢字表2136字に示されている4388個の音訓はいいとしても、人名用漢字表862字に音訓が示されていない点が問題になる。論文中で示された[1]のページには、さらに戸籍統一文字へのリンクが示されている。そこで仮に、戸籍統一文字から人名用漢字表862字の音訓を拾ってくると、現時点で「音読み」が2022個、「訓読み」が1081個、合わせて3103個の音訓が得られる。こうすれば、漢字2998字に対して、音訓が7491個。この論文に示されている数にはほど遠い。

その一方、Unicode 6.2時点のUnihan.zipには、Unihan_Readings.txtというテキストファイルに漢字の読みが格納されている。読みの中には日本語の音訓もあり、具体的にはkJapaneseOnが23927個、kJapaneseKunが16788個、合わせて40715個の音訓が収録されている。このUnihan_Readings.txtには、45999字のUCSが示されているが、それらのうちkJapaneseOnないしkJapaneseKunを含むのは13389字。つまり、漢字13389字に対して、音訓が40715個。ドンピシャだ。Unihan Databaseを直接参照したのか、それとも別のサイトを経由したのかは不明だが、偶然の一致とは考えにくい。

もちろん、これは、私を含めた複数の人間による、単なる推測に過ぎない。しかしながら、漢字の数も音訓の数も全く合っていない以上、この論文の「常用漢字表と人名用漢字表を元にしてテキストを作成した[1]」という記載は、何がしかの虚偽を含んでいる可能性が極めて高い。その虚偽がどういうものだったかについては、4人の著者[山西良典・大泉順平・西原陽子・福本淳一]もしくは日本感性工学会論文審査編集委員会によって、明らかにされるべきだろう。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
  • 図1「漢字の音訓読みと人名の読み方の部分一致判定アルゴリズム」もバグってるみたいです。最長一致になっちゃってるので、たとえば「世市」(せいち)を正しく判定できないように思えます。どうして非決定性有限オートマトンを使わないのかしら。

typodupeerror

犯人は巨人ファンでA型で眼鏡をかけている -- あるハッカー

読み込み中...