yasuokaの日記: 旧仮名口語UniDicによる漢文訓読の活用語尾自動付与
3月6日の『漢文自動訓読ツールUD-Kundokuの開発』で、私(安岡孝一)は書いた。
表4に載っていない動詞については、旧仮名口語UniDic [9] に活用の種類(表7)を問い合わせる。
これに対し、実際どのように問い合わせているのか、という主旨の質問をいただいた。まあ、UD-Kundokuの中を読んでもらってもいいのだが、とりあえず「墮」という動詞に関して、MeCabのソフトわかち書きで、旧仮名口語UniDicに問い合わせてみよう。
$ pip3 install -U udkundoku
$ python3
>>> import udkundoku,unidic2ud,MeCab,os
>>> t=MeCab.Tagger("-d "+os.path.join(unidic2ud.DOWNLOAD_DIR,"qkana")+" -a -p -m -F%m,%pP,%H\\n")
>>> print(t.parse("墮\t動詞"))
墮,0.000000,動詞,一般,*,*,文語四段-サ行,連用形-一般,オトス,落とす,墮,オトシ,オトシ,和,墮す,オトス,オトス,オトス,*,*,*,*,*,*,2,C1,*
墮,1.000000,動詞,一般,*,*,五段-サ行,連用形-一般,オトス,落とす,墮,オトシ,オトシ, 和,墮す,オトス,オトス,オトス,*,*,*,*,*,*,2,C1,*
墮,0.000000,動詞,一般,*,*,文語四段-サ行,連体形-一般,オトス,落とす,墮,オトス,オトス,和,墮す,オトス,オトス,オトス,*,*,*,*,*,*,2,C1,*
墮,0.000000,動詞,一般,*,*,文語四段-サ行,終止形-一般,オトス,落とす,墮,オトス,オトス,和,墮す,オトス,オトス,オトス,*,*,*,*,*,*,2,C1,*
墮,0.000000,動詞,一般,*,*,文語四段-サ行,未然形-一般,オトス,落とす,墮,オトサ,オトサ,和,墮す,オトス,オトス,オトス,*,*,*,*,*,*,2,C1,*
墮,0.000000,動詞,一般,*,*,五段-サ行,未然形-一般,オトス,落とす,墮,オトサ,オトサ, 和,墮す,オトス,オトス,オトス,*,*,*,*,*,*,2,C1,*
墮,0.000000,動詞,一般,*,*,文語上二段-タ行,連用形-一般,オチル,落ちる,墮,オチ,オチ,和,墮つ,オツ,オツ,オツ,*,*,*,*,*,*,1,C1,*
墮,0.000000,動詞,一般,*,*,文語上二段-タ行,終止形-一般,オチル,落ちる,墮,オツ,オツ,和,墮つ,オツ,オツ,オツ,*,*,*,*,*,*,1,C1,*
墮,0.000000,動詞,一般,*,*,文語上二段-タ行,未然形-一般,オチル,落ちる,墮,オチ,オチ,和,墮つ,オツ,オツ,オツ,*,*,*,*,*,*,1,C1,*
EOS
問い合わせ結果を見る限り「文語四段-サ行」「五段-サ行」「文語上二段-タ行」のいずれかであることがわかる。また、MeCabの出力した確率は、「五段-サ行」連用形が1.000000で、他は全て0.000000である。MeCabを信じるなら、「墮」の活用の種類は「五段-サ行」であり、表7の「五段-サ行」にもとづいて「墮さ:墮し:墮す:墮す:墮せ:墮せ」という活用が得られる。
もちろん、このやり方だと、各漢字ごとに「活用の種類」が一種類しか得られない。それだと、複数の活用を持つ漢字(たとえば「行く」と「行ふ」)に対応できないため、表4では我々の4階層品詞(たとえば「v,動詞,行為,移動」と「v,動詞,行為,動作」)を併用して、異なる活用を得ているわけだ。ただ、この表4については、今のところ手作業で表を補充していたりする。本来ならAIにやらせるべき仕事を、人間が手作業でやっているわけで、これ、何とかAI化できないかなぁ。
旧仮名口語UniDicによる漢文訓読の活用語尾自動付与 More ログイン