
yasuokaの日記: COMBO-pytorchの古典中国語(漢文)サポートと「単語切り」
COMBO-pytorchが古典中国語(漢文)をサポートした、との連絡をいただいたので、さっそくGoogle Colaboratoryで動かしてみた。
!pip install git+https://gitlab.clarin-pl.eu/syntactic-tools/combo
!python -m spacy download en_core_web_sm
from combo.predict import COMBO
from combo.data import sentence2conllu
nlp=COMBO.from_pretrained("classical-chiense-kyoto-ud29")
doc=nlp("孟子見梁惠王")
print(sentence2conllu(doc,False).serialize())
「chiense」の綴りにちょっとイラっとくるものの、私(安岡孝一)の手元では以下の結果になった。
1 孟子見梁惠王 孟子見梁惠王 NUM n,数詞,数,* _ 0 root _ _
「孟子見梁惠王」を係り受け解析してみたのだが、どうも様子がおかしい。どうやら、トークナイザ(単語切り)がうまく動いてないようだ。ちょっと、手で切ってみよう。
doc=nlp("孟子 見 梁 惠 王")
print(sentence2conllu(doc,False).serialize())
「孟子 見 梁 惠 王」を係り受け解析してみたところ、私の手元では以下の結果になった。
1 孟子 孟子 PROPN n,名詞,人,複合的人名 _ 2 nsubj _ _
2 見 見 VERB v,動詞,行為,動作 _ 0 root _ _
3 梁 梁 PROPN n,名詞,主体,国名 _ 5 nmod _ _
4 惠 惠 PROPN n,名詞,人,その他の人名 _ 5 compound _ _
5 王 王 NOUN n,名詞,人,役割 _ 2 obj _ _
ふむ。ということは、やはりトークナイザ(単語切り)が動いてないということなのだが、さて、どうやって動かせばいいんだろ。
COMBO-pytorchの古典中国語(漢文)サポートと「単語切り」 More ログイン