パスワードを忘れた? アカウント作成
16312193 journal
人工知能

yasuokaの日記: 韓国語の係り受け解析は語節と形態素のどちらが適切なのか

日記 by yasuoka

Jungyeul ParkとFrancis Tyersの『A New Annotation Scheme for the Sejong Part-of-speech Tagged Corpus』(Proceedings of the 13th Linguistic Annotation Workshop (August 2019), pp.195-202)を横目に、形態素にもとづく韓国語の係り受けモデルroberta-base-korean-morph-uposを試作してみた。esuparを使って、Google Colaboratory上で動かしてみよう。

!pip install esupar
import esupar
nlp=esupar.load("KoichiYasuoka/roberta-base-korean-morph-upos")
doc=nlp("그래서 그들은 바다로 갔다.")
import deplacy
deplacy.render(doc)
deplacy.serve(doc,port=None)

그래서 그들은 바다로 갔다.」を形態素レベルで係り受け解析してみたところ、私(安岡孝一)の手元では以下の結果になった。

그래서 ADV   <════════╗   advmod
그     PRON  ═╗═╗<══╗ ║   nsubj
들     PART  <╝ ║   ║ ║   aux
은     ADP   <══╝   ║ ║   case
바다   NOUN  ═╗<══╗ ║ ║   obl
로     ADP   <╝   ║ ║ ║   case
가     VERB  ═╗═╗═╝═╝═╝═╗ root
았     AUX   <╝ ║       ║ aux
다     PART  <══╝       ║ aux
.      PUNCT <══════════╝ punct

1    그래서    _    ADV    _    _    7    advmod    _    _
2    그    _    PRON    _    _    7    nsubj    _    SpaceAfter=No
3    들    _    PART    _    _    2    aux    _    SpaceAfter=No
4    은    _    ADP    _    _    2    case    _    _
5    바다    _    NOUN    _    _    7    obl    _    SpaceAfter=No
6    로    _    ADP    _    _    5    case    _    _
7-9    갔다    _    _    _    _    _    _    _    SpaceAfter=No
7    가    _    VERB    _    _    0    root    _    _
8    았    _    AUX    _    _    7    aux    _    _
9    다    _    PART    _    _    7    aux    _    _
10    .    _    PUNCT    _    _    7    punct    _    SpaceAfter=No

SVGで可視化すると、こんな感じ。「그」=aux⇒「들」は、どう見ても解析ミスで、fixedか、逆向きのcompoundの方が適切だ。また、「갔다」を「가」「았」「다」に分けているものの、これが本当に適切なのかは悩ましい。むしろ「가다」の下称過去として「갔다」を処理する方がいいような気もするのだが、うーん、さて、どうしたものか。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

アレゲはアレゲを呼ぶ -- ある傍観者

読み込み中...