yasuokaの日記: 現代中国語係り受け解析ツールとしてのCamphr-Udify 3
私(安岡孝一)の昨日の日記に対し、Camphr-Udifyはjiebaをトークナイザとして現代中国語に対応している、という御連絡をいただいた。ただ、ja_mecab_udifyではなく、en_udifyの方を使う必要があるようだ。とりあえず、インストール。
$ pip3 install https://github.com/PKSHATechnology-Research/camphr_models/releases/download/0.5/en_udify-0.5.tar.gz
$ pip3 install jieba
インストールがうまくいったら、以前の日記で例にした「我把这本书看完了」を、係り受け解析してみよう。
$ python3
>>> from camphr.pipelines import load_udify
>>> zh=load_udify("zh",punct_chars=["。"])
>>> for r in ["我把这本书看完了","我把這本書看完了"]:
... s=zh(r)
... print("".join("\t".join([str(t.i+1),t.orth_,t.lemma_,t.pos_,t.tag_,"_",str(0 if t.head==t else t.head.i+1),t.dep_,"_","_" if t.whitespace_ else "SpaceAfter=No"])+"\n" for t in s))
...
1 我 我 PRON _ 5 nsubj _ SpaceAfter=No
2 把 把 VERB _ 5 aux:caus _ SpaceAfter=No
3 这 这 DET _ 4 det _ SpaceAfter=No
4 本书 本书 NOUN _ 5 obj _ SpaceAfter=No
5 看 看 VERB _ 0 root _ SpaceAfter=No
6 完 完 VERB _ 5 mark _ SpaceAfter=No
7 了 了 X _ 5 discourse _ SpaceAfter=No
1 我 我 PRON _ 4 nsubj _ SpaceAfter=No
2 把 把 VERB _ 4 aux:caus _ SpaceAfter=No
3 這本書 這本書 DET _ 4 obj _ SpaceAfter=No
4 看 看 VERB _ 0 root _ SpaceAfter=No
5 完 完 VERB _ 4 mark _ SpaceAfter=No
6 了 了 X _ 4 discourse _ SpaceAfter=No
うーん、全体にうまくいってない。jiebaが簡化字用の形態素解析器なのに、Camphr-Udifyは繁體字用のUD_Chinese-GSD(それも旧版のUD2.3)を使っていて、そこのところのマッチングがうまくいってない気がする。簡化字用のUD_Chinese-GSDSimpを混ぜたいけど、Udifyの中をいじるのは大変かなぁ。
早速ありがとうございます (スコア:1)
Re:早速ありがとうございます (スコア:1)
jiebaのtokenizerを変える方法 (スコア:1)