yasuokaの日記: SudachiPyの分割モードAと旧仮名口語UniDicの短単位
SudachiPyには3つの分割モードがあるが、これらのうちUniDicの短単位に対応するのは、分割モードAだったりする。たとえば「都大路を駆け抜ける」という文を、3つの分割モードでそれぞれ見てみよう。
$ echo 都大路を駆け抜ける | sudachipy -m A
都 名詞,普通名詞,一般,*,*,* 都
大路 名詞,普通名詞,一般,*,*,* 大路
を 助詞,格助詞,*,*,*,* を
駆け 動詞,一般,*,*,下一段-カ行,連用形-一般 駆ける
抜ける 動詞,非自立可能,*,*,下一段-カ行,終止形-一般 抜く
EOS
$ echo 都大路を駆け抜ける | sudachipy -m B
都大路 名詞,普通名詞,一般,*,*,* 都大路
を 助詞,格助詞,*,*,*,* を
駆け抜ける 動詞,一般,*,*,下一段-カ行,終止形-一般 駆け抜ける
EOS
$ echo 都大路を駆け抜ける | sudachipy -m C
都大路 名詞,普通名詞,一般,*,*,* 都大路
を 助詞,格助詞,*,*,*,* を
駆け抜ける 動詞,一般,*,*,下一段-カ行,終止形-一般 駆け抜ける
EOS
一方、「都大路を驅け拔ける」という文を、UniDic2UD+旧仮名口語UniDicで解析すると、以下の結果になる。
$ echo 都大路を驅け拔ける | unidic2ud -U qkana
# text = 都大路を驅け拔ける
1 都 都 NOUN 名詞-普通名詞-一般 _ 2 compound _ SpaceAfter=No|Translit=ミヤコ
2 大路 大路 NOUN 名詞-普通名詞-一般 _ 4 obj _ SpaceAfter=No|Translit=オオチ
3 を を ADP 助詞-格助詞 _ 2 case _ SpaceAfter=No|Translit=ヲ
4 驅け 駆ける VERB 動詞-一般 _ 5 advcl _ SpaceAfter=No|Translit=カケ
5 拔ける 抜ける VERB 動詞-非自立可能 _ 0 root _ SpaceAfter=No|Translit=ヌケル
つまり、旧仮名口語UniDicとSudachiPyを併用するなら、SudachiPyの方は分割モードAを使うべきということだ。「Japanese BERT trained on Aozora Bunko and Wikipedia」も、そうやって作ったのだろうとは思うのだが、それにしては中のvocab.txtが微妙だったりする。うーむ、もうちょっと詳しい説明が出てくるまで待つべきかな。
SudachiPyの分割モードAと旧仮名UniDicの短単位 More ログイン