yasuokaの日記: 韓国語の係り受け解析は語節と形態素のどちらが適切なのか
Jungyeul ParkとFrancis Tyersの『A New Annotation Scheme for the Sejong Part-of-speech Tagged Corpus』(Proceedings of the 13th Linguistic Annotation Workshop (August 2019), pp.195-202)を横目に、形態素にもとづく韓国語の係り受けモデルroberta-base-korean-morph-uposを試作してみた。esuparを使って、Google Colaboratory上で動かしてみよう。
!pip install esupar
import esupar
nlp=esupar.load("KoichiYasuoka/roberta-base-korean-morph-upos")
doc=nlp("그래서 그들은 바다로 갔다.")
import deplacy
deplacy.render(doc)
deplacy.serve(doc,port=None)
「그래서 그들은 바다로 갔다.」を形態素レベルで係り受け解析してみたところ、私(安岡孝一)の手元では以下の結果になった。
그래서 ADV <════════╗ advmod
그 PRON ═╗═╗<══╗ ║ nsubj
들 PART <╝ ║ ║ ║ aux
은 ADP <══╝ ║ ║ case
바다 NOUN ═╗<══╗ ║ ║ obl
로 ADP <╝ ║ ║ ║ case
가 VERB ═╗═╗═╝═╝═╝═╗ root
았 AUX <╝ ║ ║ aux
다 PART <══╝ ║ aux
. PUNCT <══════════╝ punct
1 그래서 _ ADV _ _ 7 advmod _ _
2 그 _ PRON _ _ 7 nsubj _ SpaceAfter=No
3 들 _ PART _ _ 2 aux _ SpaceAfter=No
4 은 _ ADP _ _ 2 case _ _
5 바다 _ NOUN _ _ 7 obl _ SpaceAfter=No
6 로 _ ADP _ _ 5 case _ _
7-9 갔다 _ _ _ _ _ _ _ SpaceAfter=No
7 가 _ VERB _ _ 0 root _ _
8 았 _ AUX _ _ 7 aux _ _
9 다 _ PART _ _ 7 aux _ _
10 . _ PUNCT _ _ 7 punct _ SpaceAfter=No
SVGで可視化すると、こんな感じ。「그」=aux⇒「들」は、どう見ても解析ミスで、fixedか、逆向きのcompoundの方が適切だ。また、「갔다」を「가」「았」「다」に分けているものの、これが本当に適切なのかは悩ましい。むしろ「가다」の下称過去として「갔다」を処理する方がいいような気もするのだが、うーん、さて、どうしたものか。
韓国語の係り受け解析は語節と形態素のどちらが適切なのか More ログイン