yasuokaの日記: esuparのコプト語係り受け解析モデルroberta-base-coptic-uposリリース
日記 by
yasuoka
多言語係り受け解析ツールesupar向けに、コプト語係り受け解析モデルroberta-base-coptic-uposを作成した。コプト語は、もともと単語間に区切りのない言語なので、RembertTokenizerFastの助けを借りてトークナイザを設計したのだが、思ったより手間取った。最新のesuparとともに試してみよう。
$ pip3 install -U esupar --user
$ python3
>>> import esupar
>>> nlp=esupar.load("KoichiYasuoka/roberta-base-coptic-upos")
>>> doc=nlp("ⲙⲟⲟϣⲉϩⲱⲥϣⲏⲣⲉⲙⲡⲟⲩⲟⲉⲓⲛ·")
>>> import deplacy
>>> deplacy.render(doc,WordRight=True)
root ╔═╔═════════ VERB ⲙⲟⲟϣⲉ
mark ║ ║ ╔══════> SCONJ ϩⲱⲥ
advcl ║ ╚>╚═╔═════ NOUN ϣⲏⲣⲉ
case ║ ║ ╔══> ADP ⲙ
det ║ ║ ║ ╔> DET ⲡ
nmod ║ ╚>╚═╚═ NOUN ⲟⲩⲟⲉⲓⲛ
punct ╚══════════> PUNCT ·
コプト語フォントをちゃんと表示できるかどうか、という問題はあるものの、単語切りも品詞付与も係り受け解析も、ほぼ完璧なようだ。コプト語を知らない読者諸氏も、この機にぜひ試してみてほしい。
esuparのコプト語係り受け解析モデルroberta-base-coptic-uposリリース More ログイン