パスワードを忘れた? アカウント作成
15503915 journal
中国

yasuokaの日記: 古典中国語標点モデルethanyt/guwen-puncをGoogle Colaboratoryで動かすには

日記 by yasuoka

思うところあって、ethanyt/guwen-puncをGoogle Colaboratoryで試してみた。

!pip install transformers
from transformers import AutoTokenizer,AutoModelForTokenClassification,TokenClassificationPipeline
tkz=AutoTokenizer.from_pretrained("ethanyt/guwen-punc")
mdl=AutoModelForTokenClassification.from_pretrained("ethanyt/guwen-punc")
ppl=TokenClassificationPipeline(tokenizer=tkz,model=mdl,aggregation_strategy="simple")
s="憲問恥子曰邦有道穀邦無道穀恥也克伐怨欲不行焉可以為仁矣子曰可以為難矣仁則吾不知也"
for t in reversed(ppl(s)):
  s=s[0:t["end"]]+t["entity_group"]+s[t["end"]:]
print(s)

「憲問恥子曰邦有道穀邦無道穀恥也克伐怨欲不行焉可以為仁矣子曰可以為難矣仁則吾不知也」に標点を打ってみたところ、私(安岡孝一)の手元では以下の結果になった。

憲問恥.子曰:邦有道,穀,邦無道.穀,恥也.克\伐\怨\欲不行,焉,可以為仁矣.子曰:可以為難矣.仁則,吾不知也.

うーん、「克\伐\怨\欲」の並置を読み切っている点は素晴らしいが、コンマやピリオドはちょっとおかしい。さて、こういうモデル、どう評価したらいいのかな。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs

読み込み中...