yasuokaの日記: キラキラネームにおける人名用漢字の異体字 4
私(安岡孝一)の1月12日の日記に対し、不要な異体字は現実の処理において使われないはずだから異体字を多目に準備する分には問題ないはず、という趣旨の御意見をいただいた。山西良典・大泉順平・西原陽子・福本淳一『人名の言語的特徴の分析に基づくキラキラネーム判定』(日本感性工学会論文誌、2015年10月9日)の当該部分を、もう一度みてみよう。
キラキラネームには異体漢字が含まれることが多い.異体字とは,常用漢字と同様に使用可能であり読むことは可能であるが,形が異なっている漢字を指す.例としては,「愛來(あいら:女)」の「來」,「愛凜(あめり:女)」の「凜」が異体漢字にあたる.
(中略)
このとき,異体字の判定には,異体字を収集したデータベースを用いる.このデータベースは著者のうち1名がWebページ1を参照して作成した.データベースには1,332個の異体字を収録している.1 http://wwwap.hi.u-tokyo.ac.jp/ships/itaiji_list.jsp など
「著者のうち1名」が参照したらしい「史料編纂所データベース異体字同定一覧」には、現時点で1083字の「親字」と1333字の「異体字」が収録されている。しかし、この「異体字」は、史料編纂所のよくあるご質問にも書かれているとおり、あくまで史料編纂所のデータベースでの異体字同定のためのものであって、人名用漢字の異体字には適していない。
具体的に言うと、この「史料編纂所データベース異体字同定一覧」には、「逸」「謁」「禍」「悔」「海」「漢」「祈」「器」「響」「勤」「謹」「穀」「祉」「視」「社」「者」「煮」「臭」「祝」「暑」「署」「諸」「祥」「神」「節」「祖」「僧」「層」「憎」「贈」「嘆」「著」「懲」「都」「突」「難」「梅」「繁」「卑」「碑」「賓」「敏」「侮」「福」「勉」「墨」「欄」「虜」「類」「練」「朗」「廊」「渚」「猪」「琢」「祐」「禎」が収録されていない。これら57字は、人名用漢字の異体字であっても、史料編纂所のデータベースには現れない漢字だからだ。その一方で「史料編纂所データベース異体字同定一覧」においては、「塡」「剝」「頰」「籠」が「異体字」ということになっている。これら4字は常用漢字なので、上記論文においては「異体字」扱いしてはいけないのだが、さて、ちゃんと取り除かれているのだろうか。
まあ、それもこれも「著者のうち1名」が判定に用いたデータを公開するか、あるいは、この「提案手法を実装したキラキラネーム判定システムを公開」すれば、ハッキリする話だろう。私個人としては、公開を心から待ち望む次第である。
異体字・異体漢字は「イタい(>_<)感じ」、なんちって… (スコア:1)
正字/旧字と新字だとか常用漢字がなんだとかいう不毛な論点を霧散させる
副次効果が強力なので、‘異体字’という用語は便利なんでしょうね。
問題ないのでは? (スコア:1)
学習させる人名がそれらを含んでいれば、確かに問題が起こり得るでしょう。
逆に含んでいなければ、それらは永遠に検索に引っかからずに、学習結果に反映されません。
したがって、入力した人名が実際に有効なものであれば、データベース中に余計な漢字があっても問題にならないと思います。
ただし学習させた人名のソースがあやしいという指摘と合わせて考えれば、不適当なモデルの原因になり得るとは思います。
架空のキラキラネーム (スコア:2)
そうなんですよね、この論文が「キラキラネーム」を集めてきたという http://dqname.jp/ [dqname.jp] を検索してみると、どう考えても子供の名づけに使えない「キラキラネーム」が見つかるのです。たとえば「乃莱」とか「夢掴」とか「焔心」とか、人名用漢字じゃない字が紛れ込んでて、さてさてどうしたものやら…。
Re:架空のキラキラネーム (スコア:1)
そうだったのですね。確かに問題です。
そこまで確認せず、またソースが掲示版(2ch?)であることも気付かず、楽観的な発言してしまいました。