パスワードを忘れた? アカウント作成
14296756 journal
人工知能

yasuokaの日記: CLASSLA 0.0.6で読むスロベニア語

日記 by yasuoka

CLASSLA 0.0.6がリリースされたとの連絡をもらったので、さっそく使ってみることにした。CLASSLAは、StanfordNLPを改造した係り受け解析エンジンで、スロベニア語・クロアチア語・セルビア語・ブルガリア語の解析が強化されている。とりあえず、スロベニア語の言語モデルを含め、インストールしよう。

$ pip3 install classla deplacy
$ python3
>>> import classla
>>> classla.download("sl",force=True)

ダウンロードにかなり時間がかかるので、高速なネットワークの下でおこなってほしい。インストールできたら、続けて「Po koroškem po kranjskem že ajda zori.」を係り受け解析してみよう。

>>> nlp=classla.Pipeline("sl")
>>> doc=nlp("Po koroškem po kranjskem že ajda zori.")
>>> d=doc.conll_file.conll_as_string()
>>> import deplacy
>>> deplacy.render(d)
Po        ADP   <╗         case
koroškem  ADJ   ═╝<════╗   obl
po        ADP   <╗     ║   case
kranjskem ADJ   ═╝<══╗ ║   obl
že        PART  <══╗ ║ ║   advmod
ajda      NOUN  <╗ ║ ║ ║   nsubj
zori      VERB  ═╝═╝═╝═╝═╗ root
.         PUNCT <════════╝ punct

「ajda」がちゃんとNOUN(名詞)になっていて、係り受けも完璧だ。スロベニア語向けの強化は、かなりうまくいっているようだ。ただ、私(安岡孝一)のマシンが非力なせいか、メモリを食いまくって、とにかく遅い。もう少し、リソースを食わない言語モデルにしてくれないかなぁ。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

弘法筆を選ばず、アレゲはキーボードを選ぶ -- アレゲ研究家

読み込み中...