
yasuokaの日記: 多言語係り受け解析ツールとしてのUniDic2UD
UniDic2UDには、公式ページに掲げた9つのUniDicに加えて、UDPipeの各言語を使う隠しオプションがある。具体的には「unidic2ud -U Dict」コマンドのDictのところに、たとえば以下のような各言語モデルを指定できる。
- czech-pdt チェコ語
- english-ewt 英語
- estonian-edt エストニア語
- french-gsd フランス語
- german-gsd ドイツ語
- italian-isdt イタリア語
- korean-kaist 韓国語
- latvian-lvtb ラトビア語
- polish-pdb ポーランド語
- portuguese-gsd ポルトガル語
- russian-syntagrus ロシア語
- spanish-gsd スペイン語
- turkish-imst トルコ語
- ukrainian-iu ウクライナ語
わかりやすいところで、「What fun it is to ride and sing a sleighing song tonight」という英文を、係り受け解析してみよう。
$ echo What fun it is to ride and sing a sleighing song tonight | unidic2ud -U english-ewt -t
What <┐ det(決定詞)
fun ─┘<┐ obj(目的語)
it ───┘<┐ nsubj(主語)
is ─────┴─┐ root(親)
to <┐ │ mark(標識)
ride ─┴───┐<┤ xcomp(節補語)
and <┐ │ │ cc(接続詞)
sing ─┴─┐<┘ │ conj(接続)
a <┐ │ │ det(決定詞)
sleighing <┤ │ │ amod(用言による連体修飾語)
song ─┘<┘ │ obj(目的語)
tonight <──────┘ obl:tmod(斜格補語[時])
表示が乱れる場合は、-tオプションの代わりに-t2オプションを試すのもいいと思う。ちなみに、上に示した以外の言語も動いたりするので、自然言語処理 Advent Calendar 2019から来た読者も、その他の読者も、「pip3 install unidic2ud」して色々と試してみてほしい。メリークリスマス。
多言語係り受け解析ツールとしてのUniDic2UD More ログイン