
yasuokaの日記: ixaKatのバスク語係り受け解析をGoogle Colaboratoryで動かす
バスク大学のixaKatのうちixa-pipe-dep-euを、Google Colaboratoryで動かすべく挑戦してみた。
!test -d ixa-pipe-dep-eu || ( curl -L http://ixa2.si.ehu.es/ixakat/downloads/ixa-pipe-dep-eu-v2.0.0.tgz | tar xzf - )
!test -d dep-eu-resources-v2.0.0 || ( curl -L http://ixa2.si.ehu.es/ixakat/downloads/dep-eu-resources-v2.0.0.tgz | tar xzf - )
!test -d ixa-pipe-pos-eu || ( curl -L http://ixa2.si.ehu.es/eustagger/download/ixa-pipe-pos-eu-x86-64.tar.bz2 | tar xjf - )
!echo Euskaldun izatea lan extra bat izatea da. | sh ixa-pipe-pos-eu/ixa-pipe-pos-eu.sh | java -jar ixa-pipe-dep-eu/ixa-pipe-dep-eu-2.0.0-exec.jar -b dep-eu-resources-v2.0.0 -c tmp.conll > /dev/null
!pip install deplacy
f=open("tmp.conll","r",encoding="utf-8")
doc=f.read()
f.close()
import deplacy
deplacy.render(doc)
「Euskaldun izatea lan extra bat izatea da.」という文を係り受け解析してみたところ、私(安岡孝一)の手元では、以下の結果が得られた。
Euskaldun ADJ <╗ ncmod
izatea ADI ═╝<══════╗ xcomp_subj
lan IZE ═╗═╗<╗ ║ ncmod
extra ADJ <╝ ║ ║ ║ ncmod
bat DET <══╝ ║ ║ detmod
izatea IZE ═════╝<╗ ║ ncpred
da ADT ═╗═════╝═╝ ROOT
. PUNT <╝ PUNC
うーん、品詞も係り受けタグも独特で、正しいのかどうか、よく分からない。やっぱり、spacy-udpipe使う方がいいかなぁ。
ixaKatのバスク語係り受け解析をGoogle Colaboratoryで動かす More ログイン