古典中国語標点モデルethanyt/guwen-puncをGoogle Colaboratoryで動かすには | yasuokaの日記

yasuokaの日記：古典中国語標点モデルethanyt/guwen-puncをGoogle Colaboratoryで動かすには 0

日記 by yasuoka 2021年12月03日 16時07分

思うところあって、ethanyt/guwen-puncをGoogle Colaboratoryで試してみた。

!pip install transformers from transformers import AutoTokenizer,AutoModelForTokenClassification,TokenClassificationPipeline tkz=AutoTokenizer.from_pretrained("ethanyt/guwen-punc") mdl=AutoModelForTokenClassification.from_pretrained("ethanyt/guwen-punc") ppl=TokenClassificationPipeline(tokenizer=tkz,model=mdl,aggregation_strategy="simple") s="憲問恥子曰邦有道穀邦無道穀恥也克伐怨欲不行焉可以為仁矣子曰可以為難矣仁則吾不知也" for t in reversed(ppl(s)): s=s[0:t["end"]]+t["entity_group"]+s[t["end"]:] print(s)

「憲問恥子曰邦有道穀邦無道穀恥也克伐怨欲不行焉可以為仁矣子曰可以為難矣仁則吾不知也」に標点を打ってみたところ、私(安岡孝一)の手元では以下の結果になった。

憲問恥.子曰:邦有道,穀,邦無道.穀,恥也.克\伐\怨\欲不行,焉,可以為仁矣.子曰:可以為難矣.仁則,吾不知也.

うーん、「克\伐\怨\欲」の並置を読み切っている点は素晴らしいが、コンマやピリオドはちょっとおかしい。さて、こういうモデル、どう評価したらいいのかな。

yasuokaの日記：古典中国語標点モデルethanyt/guwen-puncをGoogle Colaboratoryで動かすには 0

古典中国語標点モデルethanyt/guwen-puncをGoogle Colaboratoryで動かすには More ログイン

スラド