yasuokaの日記: 韓国語の係り受け解析エンジンとしてのUDPipe
思うところあって、韓国語の係り受け解析をUDPipeで試してみた。現時点のUDPipeには、韓国語向けにKorean-KaistとKorean-GSDの2つのモデルがあるのだが、私(安岡孝一)個人の感触としてはKorean-GSDの方が肌に合っている気がする。7月3日の日記で書いた「Chamame2UD.py」を使いまわして、試しに「그래서 그들은 바다로 갔다.」を係り受け解析してみよう。
% python -i Chamame2UD.py
>>> ko=UDPipe2UD("korean-gsd")
>>> s=ko("그래서 그들은 바다로 갔다.")
>>> s.browse()
>>> print(s)
# newdoc
# newpar
# sent_id = 1
# text = 그래서 그들은 바다로 갔다.
1 그래서 그래서 ADV MAJ _ 4 advmod _ _
2 그들은 그+들+은 PRON NP+XSN+JX _ 4 nsubj _ _
3 바다로 바다+로 ADV NNG+JKB _ 4 obl _ _
4 갔다 가+았+다 VERB VV+EP+EF _ 0 root _ SpaceAfter=No
5 . . PUNCT SF _ 4 punct _ SpaceAfter=No
うまくいけば、こんな感じのブラウザが立ち上がってくるはずだ。ただ、ヤヤコシイのは、XPOS(第5フィールド)が、Sejong Corporaの品詞タグを組み合わせたものになっている点だ。NP+XSN+JXは[pronoun]+[suffix (noun-derived)]+[particle (discourse)]に、NNG+JKBは[common noun]+[case marker (adverbial)]に、VV+EP+EFは[verb]+[ending (prefinal)]+[ending (final)]に、それぞれ頭の中で読み替えなきゃならない。このあたり、できればFEATS(第6フィールド)に反映させるべきだと思うのだけど、勝手にやったらマズイかなぁ。
韓国語の係り受け解析エンジンとしてのUDPipe More ログイン