パスワードを忘れた? アカウント作成
16351973 journal
人工知能

yasuokaの日記: 形態素レベルでの韓国語係り受け解析モデルroberta-base-korean-morph-uposの改良

日記 by yasuoka

『Universal Dependencies와 BERT/RoBERTa 모델을 통한 고전 중국어 정보처리』(漢文教育研究所第6回招待講演會、2022年11月24日)を横目に、形態素レベルでの韓国語係り受け解析モデルroberta-base-korean-morph-uposを、私(安岡孝一)なりに改良してみた。12月1日の日記と同様に、Google Colaboratoryで動かしてみよう。

!pip install esupar
import esupar
nlp=esupar.load("KoichiYasuoka/roberta-base-korean-morph-upos")
doc=nlp("그래서 그들은 바다로 갔다.")
import deplacy
deplacy.render(doc)
deplacy.serve(doc,port=None)

그래서 그들은 바다로 갔다.」を形態素レベルで係り受け解析してみたところ、私の手元では以下の結果になった。

그래서 ADV   <══════╗     advmod
그     PRON  ═╗═╗<╗ ║     nsubj
들     PART  <╝ ║ ║ ║     fixed
은     ADP   <══╝ ║ ║     case
바다   NOUN  ═╗<╗ ║ ║     obl
로     ADP   <╝ ║ ║ ║     case
가     VERB  ═╗═╝═╝═╝═╗═╗ root
았     AUX   <╝       ║ ║ aux
다     PART  <════════╝ ║ mark
.      PUNCT <══════════╝ punct

1    그래서    _    ADV    _    _    7    advmod    _    _
2    그    _    PRON    _    _    7    nsubj    _    SpaceAfter=No
3    들    _    PART    _    _    2    fixed    _    SpaceAfter=No
4    은    _    ADP    _    _    2    case    _    _
5    바다    _    NOUN    _    _    7    obl    _    SpaceAfter=No
6    로    _    ADP    _    _    5    case    _    _
7-9    갔다    _    _    _    _    _    _    _    SpaceAfter=No
7    가    _    VERB    _    _    0    root    _    _
8    았    _    AUX    _    _    7    aux    _    _
9    다    _    PART    _    _    7    mark    _    _
10    .    _    PUNCT    _    _    7    punct    _    SpaceAfter=No

SVGで可視化すると、こんな感じ。[갔다」を「가」「았」「다」に分解すべきかどうかは、私自身は疑義があるものの、とりあえずmorphUD-koreanに従った。ただ、現時点のUniversal Dependencies 2.11で公開されているのは、あくまで語節レベルでの韓国語コーパスなので、さて、どうしたものかなぁ。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

Stableって古いって意味だっけ? -- Debian初級

読み込み中...