韓国語の係り受け解析エンジンとしてのUDPipe | yasuokaの日記

yasuokaの日記：韓国語の係り受け解析エンジンとしてのUDPipe 0

日記 by yasuoka 2019年08月05日 18時23分

思うところあって、韓国語の係り受け解析をUDPipeで試してみた。現時点のUDPipeには、韓国語向けにKorean-KaistとKorean-GSDの2つのモデルがあるのだが、私(安岡孝一)個人の感触としてはKorean-GSDの方が肌に合っている気がする。7月3日の日記で書いた「Chamame2UD.py」を使いまわして、試しに「그래서 그들은 바다로 갔다.」を係り受け解析してみよう。

% python -i Chamame2UD.py >>> ko=UDPipe2UD("korean-gsd") >>> s=ko("그래서 그들은 바다로 갔다.") >>> s.browse() >>> print(s) # newdoc # newpar # sent_id = 1 # text = 그래서 그들은 바다로 갔다. 1 그래서 그래서 ADV MAJ _ 4 advmod _ _ 2 그들은 그+들+은 PRON NP+XSN+JX _ 4 nsubj _ _ 3 바다로 바다+로 ADV NNG+JKB _ 4 obl _ _ 4 갔다 가+았+다 VERB VV+EP+EF _ 0 root _ SpaceAfter=No 5 . . PUNCT SF _ 4 punct _ SpaceAfter=No

うまくいけば、こんな感じのブラウザが立ち上がってくるはずだ。ただ、ヤヤコシイのは、XPOS(第5フィールド)が、Sejong Corporaの品詞タグを組み合わせたものになっている点だ。NP+XSN+JXは[pronoun]+[suffix (noun-derived)]+[particle (discourse)]に、NNG+JKBは[common noun]+[case marker (adverbial)]に、VV+EP+EFは[verb]+[ending (prefinal)]+[ending (final)]に、それぞれ頭の中で読み替えなきゃならない。このあたり、できればFEATS(第6フィールド)に反映させるべきだと思うのだけど、勝手にやったらマズイかなぁ。

yasuokaの日記：韓国語の係り受け解析エンジンとしてのUDPipe 0

韓国語の係り受け解析エンジンとしてのUDPipe More ログイン

スラド