パスワードを忘れた? アカウント作成
14111406 journal
中国

yasuokaの日記: 現代中国語係り受け解析ツールとしてのCamphr-Udify 3

日記 by yasuoka

私(安岡孝一)の昨日の日記に対し、Camphr-Udifyはjiebaをトークナイザとして現代中国語に対応している、という御連絡をいただいた。ただ、ja_mecab_udifyではなく、en_udifyの方を使う必要があるようだ。とりあえず、インストール。

$ pip3 install https://github.com/PKSHATechnology-Research/camphr_models/releases/download/0.5/en_udify-0.5.tar.gz
$ pip3 install jieba

インストールがうまくいったら、以前の日記で例にした「我把这本书看完了」を、係り受け解析してみよう。

$ python3
>>> from camphr.pipelines import load_udify
>>> zh=load_udify("zh",punct_chars=["。"])
>>> for r in ["我把这本书看完了","我把這本書看完了"]:
...   s=zh(r)
...   print("".join("\t".join([str(t.i+1),t.orth_,t.lemma_,t.pos_,t.tag_,"_",str(0 if t.head==t else t.head.i+1),t.dep_,"_","_" if t.whitespace_ else "SpaceAfter=No"])+"\n" for t in s))
...
1    我    我    PRON        _    5    nsubj    _    SpaceAfter=No
2    把    把    VERB        _    5    aux:caus    _    SpaceAfter=No
3    这    这    DET        _    4    det    _    SpaceAfter=No
4    本书    本书    NOUN        _    5    obj    _    SpaceAfter=No
5    看    看    VERB        _    0    root    _    SpaceAfter=No
6    完    完    VERB        _    5    mark    _    SpaceAfter=No
7    了    了    X        _    5    discourse    _    SpaceAfter=No

1    我    我    PRON        _    4    nsubj    _    SpaceAfter=No
2    把    把    VERB        _    4    aux:caus    _    SpaceAfter=No
3    這本書    這本書    DET        _    4    obj    _    SpaceAfter=No
4    看    看    VERB        _    0    root    _    SpaceAfter=No
5    完    完    VERB        _    4    mark    _    SpaceAfter=No
6    了    了    X        _    4    discourse    _    SpaceAfter=No

うーん、全体にうまくいってない。jiebaが簡化字用の形態素解析器なのに、Camphr-Udifyは繁體字用のUD_Chinese-GSD(それも旧版のUD2.3)を使っていて、そこのところのマッチングがうまくいってない気がする。簡化字用のUD_Chinese-GSDSimpを混ぜたいけど、Udifyの中をいじるのは大変かなぁ。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

開いた括弧は必ず閉じる -- あるプログラマー

読み込み中...