パスワードを忘れた? アカウント作成
15646942 journal
人工知能

yasuokaの日記: esuparのコプト語係り受け解析モデルroberta-base-coptic-uposリリース

日記 by yasuoka

多言語係り受け解析ツールesupar向けに、コプト語係り受け解析モデルroberta-base-coptic-uposを作成した。コプト語は、もともと単語間に区切りのない言語なので、RembertTokenizerFastの助けを借りてトークナイザを設計したのだが、思ったより手間取った。最新のesuparとともに試してみよう。

$ pip3 install -U esupar --user
$ python3
>>> import esupar
>>> nlp=esupar.load("KoichiYasuoka/roberta-base-coptic-upos")
>>> doc=nlp("ⲙⲟⲟϣⲉϩⲱⲥϣⲏⲣⲉⲙⲡⲟⲩⲟⲉⲓⲛ·")
>>> import deplacy
>>> deplacy.render(doc,WordRight=True)
 root ╔═╔═════════ VERB  ⲙⲟⲟϣⲉ
 mark ║ ║ ╔══════> SCONJ ϩⲱⲥ
advcl ║ ╚>╚═╔═════ NOUN  ϣⲏⲣⲉ
 case ║     ║ ╔══> ADP   ⲙ
  det ║     ║ ║ ╔> DET   ⲡ
 nmod ║     ╚>╚═╚═ NOUN  ⲟⲩⲟⲉⲓⲛ
punct ╚══════════> PUNCT ·

コプト語フォントをちゃんと表示できるかどうか、という問題はあるものの、単語切りも品詞付与も係り受け解析も、ほぼ完璧なようだ。コプト語を知らない読者諸氏も、この機にぜひ試してみてほしい。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

最初のバージョンは常に打ち捨てられる。

読み込み中...