パスワードを忘れた? アカウント作成
15892931 journal
人工知能

yasuokaの日記: COMBO-pytorchの古典中国語(漢文)サポートと「単語切り」

日記 by yasuoka

COMBO-pytorchが古典中国語(漢文)をサポートした、との連絡をいただいたので、さっそくGoogle Colaboratoryで動かしてみた。

!pip install git+https://gitlab.clarin-pl.eu/syntactic-tools/combo
!python -m spacy download en_core_web_sm
from combo.predict import COMBO
from combo.data import sentence2conllu
nlp=COMBO.from_pretrained("classical-chiense-kyoto-ud29")
doc=nlp("孟子見梁惠王")
print(sentence2conllu(doc,False).serialize())

「chiense」の綴りにちょっとイラっとくるものの、私(安岡孝一)の手元では以下の結果になった。

1    孟子見梁惠王    孟子見梁惠王    NUM    n,数詞,数,*    _    0    root    _    _

「孟子見梁惠王」を係り受け解析してみたのだが、どうも様子がおかしい。どうやら、トークナイザ(単語切り)がうまく動いてないようだ。ちょっと、手で切ってみよう。

doc=nlp("孟子 見 梁 惠 王")
print(sentence2conllu(doc,False).serialize())

「孟子 見 梁 惠 王」を係り受け解析してみたところ、私の手元では以下の結果になった。

1    孟子    孟子    PROPN    n,名詞,人,複合的人名    _    2    nsubj    _    _
2    見    見    VERB    v,動詞,行為,動作    _    0    root    _    _
3    梁    梁    PROPN    n,名詞,主体,国名    _    5    nmod    _    _
4    惠    惠    PROPN    n,名詞,人,その他の人名    _    5    compound    _    _
5    王    王    NOUN    n,名詞,人,役割    _    2    obj    _    _

ふむ。ということは、やはりトークナイザ(単語切り)が動いてないということなのだが、さて、どうやって動かせばいいんだろ。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell

読み込み中...