yasuokaの日記: ウクライナ語係り受け解析エンジンとしてのspaCy-Transformers
昨日の日記の読者から、spaCy-Transformers向けウクライナ語モデルukr-models/uk_core_news_trfがリリースされた、との連絡をいただいた。Google Colaboratoryでdeplacyに繫いでみよう。
!pip install spacy-transformers deplacy
import os
from transformers.file_utils import hf_bucket_url
model="ukr-models/uk_core_news_trf"
m=os.path.basename(model)
!pip install {m+"@"+hf_bucket_url(model,m+"-any-py3-none-any.whl")}
import spacy
nlp=spacy.load(m)
doc=nlp("Не скупись на втіху їй і ласку любий брате")
import deplacy
deplacy.render(doc,WordRight=True)
deplacy.serve(doc,port=None)
「Не скупись на втіху їй і ласку любий брате」を係り受け解析してみたところ、私(安岡孝一)の手元では以下の結果になった。
advmod ╔════════> PART Не
ROOT ╚═╔═╔═╔═══ VERB скупись
case ║ ║ ║ ╔> ADP на
obl ║ ║ ╚>╚═ NOUN втіху
obj ║ ╚>╔═══ PRON їй
cc ║ ║ ╔> CCONJ і
conj ║ ╚>╚═ NOUN ласку
amod ║ ╔> ADJ любий
nsubj ╚════>╚═ NOUN брате
1 Не _ PART _ Polarity=Neg 2 advmod _ _
2 скупись _ VERB _ Aspect=Imp|Mood=Imp|Number=Sing|Person=2|VerbForm=Fin 0 ROOT _ _
3 на _ ADP _ Case=Acc 4 case _ _
4 втіху _ NOUN _ Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing 2 obl _ _
5 їй _ PRON _ Case=Dat|Gender=Fem|Number=Sing|Person=3|PronType=Prs 2 obj _ _
6 і _ CCONJ _ _ 7 cc _ _
7 ласку _ NOUN _ Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing 5 conj _ _
8 любий _ ADJ _ Case=Nom|Degree=Pos|Gender=Masc|Number=Sing 9 amod _ _
9 брате _ NOUN _ Animacy=Anim|Case=Gen|Gender=Masc|Number=Sing 2 nsubj _ SpaceAfter=No
SVGで可視化すると、こんな感じ。私の見る限り、名詞の格が係り受けタグに反映されておらず、非常に解析精度が悪い。2021年12月15日の日記にも書いたが、spaCy-Transformersは細かなチューニングがおこないにくいようだ。さて、どうすればいいかな。
ウクライナ語係り受け解析エンジンとしてのspaCy-Transformers More ログイン