yasuokaの日記: 形態素レベルでの韓国語係り受け解析モデルroberta-base-korean-morph-uposの改良
『Universal Dependencies와 BERT/RoBERTa 모델을 통한 고전 중국어 정보처리』(漢文教育研究所第6回招待講演會、2022年11月24日)を横目に、形態素レベルでの韓国語係り受け解析モデルroberta-base-korean-morph-uposを、私(安岡孝一)なりに改良してみた。12月1日の日記と同様に、Google Colaboratoryで動かしてみよう。
!pip install esupar
import esupar
nlp=esupar.load("KoichiYasuoka/roberta-base-korean-morph-upos")
doc=nlp("그래서 그들은 바다로 갔다.")
import deplacy
deplacy.render(doc)
deplacy.serve(doc,port=None)
「그래서 그들은 바다로 갔다.」を形態素レベルで係り受け解析してみたところ、私の手元では以下の結果になった。
그래서 ADV <══════╗ advmod
그 PRON ═╗═╗<╗ ║ nsubj
들 PART <╝ ║ ║ ║ fixed
은 ADP <══╝ ║ ║ case
바다 NOUN ═╗<╗ ║ ║ obl
로 ADP <╝ ║ ║ ║ case
가 VERB ═╗═╝═╝═╝═╗═╗ root
았 AUX <╝ ║ ║ aux
다 PART <════════╝ ║ mark
. PUNCT <══════════╝ punct
1 그래서 _ ADV _ _ 7 advmod _ _
2 그 _ PRON _ _ 7 nsubj _ SpaceAfter=No
3 들 _ PART _ _ 2 fixed _ SpaceAfter=No
4 은 _ ADP _ _ 2 case _ _
5 바다 _ NOUN _ _ 7 obl _ SpaceAfter=No
6 로 _ ADP _ _ 5 case _ _
7-9 갔다 _ _ _ _ _ _ _ SpaceAfter=No
7 가 _ VERB _ _ 0 root _ _
8 았 _ AUX _ _ 7 aux _ _
9 다 _ PART _ _ 7 mark _ _
10 . _ PUNCT _ _ 7 punct _ SpaceAfter=No
SVGで可視化すると、こんな感じ。[갔다」を「가」「았」「다」に分解すべきかどうかは、私自身は疑義があるものの、とりあえずmorphUD-koreanに従った。ただ、現時点のUniversal Dependencies 2.11で公開されているのは、あくまで語節レベルでの韓国語コーパスなので、さて、どうしたものかなぁ。
形態素レベルでの韓国語係り受け解析モデルroberta-base-korean-morph-uposの改良 More ログイン