現代中国語係り受け解析ツールとしてのCamphr-Udify | yasuokaの日記

yasuokaの日記：現代中国語係り受け解析ツールとしてのCamphr-Udify 3

日記 by yasuoka 2020年02月14日 0時40分

私(安岡孝一)の昨日の日記に対し、Camphr-Udifyはjiebaをトークナイザとして現代中国語に対応している、という御連絡をいただいた。ただ、ja_mecab_udifyではなく、en_udifyの方を使う必要があるようだ。とりあえず、インストール。

$ pip3 install https://github.com/PKSHATechnology-Research/camphr_models/releases/download/0.5/en_udify-0.5.tar.gz $ pip3 install jieba

インストールがうまくいったら、以前の日記で例にした「我把这本书看完了」を、係り受け解析してみよう。

$ python3 >>> from camphr.pipelines import load_udify >>> zh=load_udify("zh",punct_chars=["。"]) >>> for r in ["我把这本书看完了","我把這本書看完了"]: ... s=zh(r) ... print("".join("\t".join([str(t.i+1),t.orth_,t.lemma_,t.pos_,t.tag_,"_",str(0 if t.head==t else t.head.i+1),t.dep_,"_","_" if t.whitespace_ else "SpaceAfter=No"])+"\n" for t in s)) ... 1 我我 PRON _ 5 nsubj _ SpaceAfter=No 2 把把 VERB _ 5 aux:caus _ SpaceAfter=No 3 这这 DET _ 4 det _ SpaceAfter=No 4 本书本书 NOUN _ 5 obj _ SpaceAfter=No 5 看看 VERB _ 0 root _ SpaceAfter=No 6 完完 VERB _ 5 mark _ SpaceAfter=No 7 了了 X _ 5 discourse _ SpaceAfter=No 1 我我 PRON _ 4 nsubj _ SpaceAfter=No 2 把把 VERB _ 4 aux:caus _ SpaceAfter=No 3 這本書這本書 DET _ 4 obj _ SpaceAfter=No 4 看看 VERB _ 0 root _ SpaceAfter=No 5 完完 VERB _ 4 mark _ SpaceAfter=No 6 了了 X _ 4 discourse _ SpaceAfter=No

うーん、全体にうまくいってない。jiebaが簡化字用の形態素解析器なのに、Camphr-Udifyは繁體字用のUD_Chinese-GSD(それも旧版のUD2.3)を使っていて、そこのところのマッチングがうまくいってない気がする。簡化字用のUD_Chinese-GSDSimpを混ぜたいけど、Udifyの中をいじるのは大変かなぁ。

この議論は、yasuoka (21275)によってログインユーザだけとして作成されたが、今となっては新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索3コメント Log In/Create an Account

早速ありがとうございます (スコア:1)

by tamuhey (49003) on 2020年02月14日 0時59分 (#3761845)

なるほど，トークナイザが異なるものなのですね，，jieba向きにUdifyを調整するとなると，トレーニングデータの準備と，学習が必要となりかなりのコストがかかります．おそらくトークナイザをjiebaからUD用のものに切り替える方が良いです．（ただし繁體字用のトークナイザがspaCyに実装されているかどうかはわからない)
- Re:早速ありがとうございます (スコア:1)
  
  by shilik (49005) on 2020年02月15日 17時40分 (#3762877)
  
  Camphr-Udifyの解析には宅に立つかどうかわかりませんが、 jiebaは以下の繁体字の辞書を入れ替えれば、繁体字の処理が可能になります。お試し頂ければいかがでしょうか。 https://github.com/ldkrsi/jieba-zh_TW/blob/master/jieba/dict.txt [github.com]
  
  シェア
  
  親コメント
jiebaのtokenizerを変える方法 (スコア:1)

by tamuhey (49003) on 2020年02月16日 13時50分 (#3763119)

jiebaのREADME(https://github.com/fxsjy/jieba#using-other-dictionaries)からtraditional chinese用の辞書をダウンロードし，以下のようにするとうまくいくかもしれません import jieba; jieba.set_dictionary("./dict.txt.big")

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

yasuokaの日記：現代中国語係り受け解析ツールとしてのCamphr-Udify 3

現代中国語係り受け解析ツールとしてのCamphr-Udify More ログイン

早速ありがとうございます (スコア:1)

Re:早速ありがとうございます (スコア:1)

jiebaのtokenizerを変える方法 (スコア:1)

スラド