パスワードを忘れた? アカウント作成
14076239 journal
人工知能

yasuokaの日記: 多言語係り受け解析ツールとしてのUniDic2UD

日記 by yasuoka

UniDic2UDには、公式ページに掲げた9つのUniDicに加えて、UDPipeの各言語を使う隠しオプションがある。具体的には「unidic2ud -U Dict」コマンドのDictのところに、たとえば以下のような各言語モデルを指定できる。

  • czech-pdt チェコ語
  • english-ewt 英語
  • estonian-edt エストニア語
  • french-gsd フランス語
  • german-gsd ドイツ語
  • italian-isdt イタリア語
  • korean-kaist 韓国語
  • latvian-lvtb ラトビア語
  • polish-pdb ポーランド語
  • portuguese-gsd ポルトガル語
  • russian-syntagrus ロシア語
  • spanish-gsd スペイン語
  • turkish-imst トルコ語
  • ukrainian-iu ウクライナ語

わかりやすいところで、「What fun it is to ride and sing a sleighing song tonight」という英文を、係り受け解析してみよう。

$ echo What fun it is to ride and sing a sleighing song tonight | unidic2ud -U english-ewt -t
     What <┐       det(決定詞)
      fun ─┘<┐     obj(目的語)
       it ───┘<┐   nsubj(主語)
       is ─────┴─┐ root(親)
       to <┐     │ mark(標識)
     ride ─┴───┐<┤ xcomp(節補語)
      and <┐   │ │ cc(接続詞)
     sing ─┴─┐<┘ │ conj(接続)
        a <┐ │   │ det(決定詞)
sleighing <┤ │   │ amod(用言による連体修飾語)
     song ─┘<┘   │ obj(目的語)
  tonight <──────┘ obl:tmod(斜格補語[時])

表示が乱れる場合は、-tオプションの代わりに-t2オプションを試すのもいいと思う。ちなみに、上に示した以外の言語も動いたりするので、自然言語処理 Advent Calendar 2019から来た読者も、その他の読者も、「pip3 install unidic2ud」して色々と試してみてほしい。メリークリスマス。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常

読み込み中...