yasuokaの日記: CLASSLA 0.0.6で読むスロベニア語
CLASSLA 0.0.6がリリースされたとの連絡をもらったので、さっそく使ってみることにした。CLASSLAは、StanfordNLPを改造した係り受け解析エンジンで、スロベニア語・クロアチア語・セルビア語・ブルガリア語の解析が強化されている。とりあえず、スロベニア語の言語モデルを含め、インストールしよう。
$ pip3 install classla deplacy
$ python3
>>> import classla
>>> classla.download("sl",force=True)
ダウンロードにかなり時間がかかるので、高速なネットワークの下でおこなってほしい。インストールできたら、続けて「Po koroškem po kranjskem že ajda zori.」を係り受け解析してみよう。
>>> nlp=classla.Pipeline("sl")
>>> doc=nlp("Po koroškem po kranjskem že ajda zori.")
>>> d=doc.conll_file.conll_as_string()
>>> import deplacy
>>> deplacy.render(d)
Po ADP <╗ case
koroškem ADJ ═╝<════╗ obl
po ADP <╗ ║ case
kranjskem ADJ ═╝<══╗ ║ obl
že PART <══╗ ║ ║ advmod
ajda NOUN <╗ ║ ║ ║ nsubj
zori VERB ═╝═╝═╝═╝═╗ root
. PUNCT <════════╝ punct
「ajda」がちゃんとNOUN(名詞)になっていて、係り受けも完璧だ。スロベニア語向けの強化は、かなりうまくいっているようだ。ただ、私(安岡孝一)のマシンが非力なせいか、メモリを食いまくって、とにかく遅い。もう少し、リソースを食わない言語モデルにしてくれないかなぁ。
CLASSLA 0.0.6で読むスロベニア語 More ログイン