パスワードを忘れた? アカウント作成
14328912 journal
Google

yasuokaの日記: ixaKatのバスク語係り受け解析をGoogle Colaboratoryで動かす

日記 by yasuoka

バスク大学のixaKatのうちixa-pipe-dep-euを、Google Colaboratoryで動かすべく挑戦してみた。

!test -d ixa-pipe-dep-eu || ( curl -L http://ixa2.si.ehu.es/ixakat/downloads/ixa-pipe-dep-eu-v2.0.0.tgz | tar xzf - )
!test -d dep-eu-resources-v2.0.0 || ( curl -L http://ixa2.si.ehu.es/ixakat/downloads/dep-eu-resources-v2.0.0.tgz | tar xzf - )
!test -d ixa-pipe-pos-eu || ( curl -L http://ixa2.si.ehu.es/eustagger/download/ixa-pipe-pos-eu-x86-64.tar.bz2 | tar xjf - )
!echo Euskaldun izatea lan extra bat izatea da. | sh ixa-pipe-pos-eu/ixa-pipe-pos-eu.sh | java -jar ixa-pipe-dep-eu/ixa-pipe-dep-eu-2.0.0-exec.jar -b dep-eu-resources-v2.0.0 -c tmp.conll > /dev/null
!pip install deplacy
f=open("tmp.conll","r",encoding="utf-8")
doc=f.read()
f.close()
import deplacy
deplacy.render(doc)

「Euskaldun izatea lan extra bat izatea da.」という文を係り受け解析してみたところ、私(安岡孝一)の手元では、以下の結果が得られた。

Euskaldun ADJ  <╗         ncmod
izatea    ADI  ═╝<══════╗ xcomp_subj
lan       IZE  ═╗═╗<╗   ║ ncmod
extra     ADJ  <╝ ║ ║   ║ ncmod
bat       DET  <══╝ ║   ║ detmod
izatea    IZE  ═════╝<╗ ║ ncpred
da        ADT  ═╗═════╝═╝ ROOT
.         PUNT <╝         PUNC

うーん、品詞も係り受けタグも独特で、正しいのかどうか、よく分からない。やっぱり、spacy-udpipe使う方がいいかなぁ。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell

読み込み中...