パスワードを忘れた? アカウント作成
14135563 journal
人工知能

yasuokaの日記: SudachiPyの分割モードAと旧仮名口語UniDicの短単位

日記 by yasuoka

SudachiPyには3つの分割モードがあるが、これらのうちUniDicの短単位に対応するのは、分割モードAだったりする。たとえば「都大路を駆け抜ける」という文を、3つの分割モードでそれぞれ見てみよう。

$ echo 都大路を駆け抜ける | sudachipy -m A
都    名詞,普通名詞,一般,*,*,*    都
大路    名詞,普通名詞,一般,*,*,*    大路
を    助詞,格助詞,*,*,*,*    を
駆け    動詞,一般,*,*,下一段-カ行,連用形-一般    駆ける
抜ける    動詞,非自立可能,*,*,下一段-カ行,終止形-一般    抜く
EOS
$ echo 都大路を駆け抜ける | sudachipy -m B
都大路    名詞,普通名詞,一般,*,*,*    都大路
を    助詞,格助詞,*,*,*,*    を
駆け抜ける    動詞,一般,*,*,下一段-カ行,終止形-一般    駆け抜ける
EOS
$ echo 都大路を駆け抜ける | sudachipy -m C
都大路    名詞,普通名詞,一般,*,*,*    都大路
を    助詞,格助詞,*,*,*,*    を
駆け抜ける    動詞,一般,*,*,下一段-カ行,終止形-一般    駆け抜ける
EOS

一方、「都大路を驅け拔ける」という文を、UniDic2UD+旧仮名口語UniDicで解析すると、以下の結果になる。

$ echo 都大路を驅け拔ける | unidic2ud -U qkana
# text = 都大路を驅け拔ける
1    都    都    NOUN    名詞-普通名詞-一般    _    2    compound    _    SpaceAfter=No|Translit=ミヤコ
2    大路    大路    NOUN    名詞-普通名詞-一般    _    4    obj    _    SpaceAfter=No|Translit=オオチ
3    を    を    ADP    助詞-格助詞    _    2    case    _    SpaceAfter=No|Translit=ヲ
4    驅け    駆ける    VERB    動詞-一般    _    5    advcl    _    SpaceAfter=No|Translit=カケ
5    拔ける    抜ける    VERB    動詞-非自立可能    _    0    root    _    SpaceAfter=No|Translit=ヌケル

つまり、旧仮名口語UniDicとSudachiPyを併用するなら、SudachiPyの方は分割モードAを使うべきということだ。「Japanese BERT trained on Aozora Bunko and Wikipedia」も、そうやって作ったのだろうとは思うのだが、それにしては中のvocab.txtが微妙だったりする。うーむ、もうちょっと詳しい説明が出てくるまで待つべきかな。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

人生unstable -- あるハッカー

読み込み中...