パスワードを忘れた? アカウント作成
13974819 journal
人工知能

yasuokaの日記: 韓国語の係り受け解析エンジンとしてのUDPipe

日記 by yasuoka

思うところあって、韓国語の係り受け解析をUDPipeで試してみた。現時点のUDPipeには、韓国語向けにKorean-KaistとKorean-GSDの2つのモデルがあるのだが、私(安岡孝一)個人の感触としてはKorean-GSDの方が肌に合っている気がする。7月3日の日記で書いた「Chamame2UD.py」を使いまわして、試しに「그래서 그들은 바다로 갔다.」を係り受け解析してみよう。

% python -i Chamame2UD.py
>>> ko=UDPipe2UD("korean-gsd")
>>> s=ko("그래서 그들은 바다로 갔다.")
>>> s.browse()
>>> print(s)
# newdoc
# newpar
# sent_id = 1
# text = 그래서 그들은 바다로 갔다.
1    그래서    그래서    ADV    MAJ    _    4    advmod    _    _
2    그들은    그+들+은    PRON    NP+XSN+JX    _    4    nsubj    _    _
3    바다로    바다+로    ADV    NNG+JKB    _    4    obl    _    _
4    갔다    가+았+다    VERB    VV+EP+EF    _    0    root    _    SpaceAfter=No
5    .    .    PUNCT    SF    _    4    punct    _    SpaceAfter=No

うまくいけば、こんな感じのブラウザが立ち上がってくるはずだ。ただ、ヤヤコシイのは、XPOS(第5フィールド)が、Sejong Corporaの品詞タグを組み合わせたものになっている点だ。NP+XSN+JXは[pronoun]+[suffix (noun-derived)]+[particle (discourse)]に、NNG+JKBは[common noun]+[case marker (adverbial)]に、VV+EP+EFは[verb]+[ending (prefinal)]+[ending (final)]に、それぞれ頭の中で読み替えなきゃならない。このあたり、できればFEATS(第6フィールド)に反映させるべきだと思うのだけど、勝手にやったらマズイかなぁ。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

物事のやり方は一つではない -- Perlな人

読み込み中...