パスワードを忘れた? アカウント作成
15396437 journal
人工知能

yasuokaの日記: bert-base-japanese-uposで読む「難儀な難儀は難儀する」

日記 by yasuoka

8月20日の日記に続いて、bert-base-japanese-uposも作ってみた。cl-tohoku/bert-base-japanese-char-v2をもとに、常用漢字や人名用漢字を全て含めたbert-base-japanese-char-extendedを作り、それをUniversal DependenciesのUPOSでファインチューニングしたものだ。ただし、複数文字に渡る単語の場合は、最初の文字の品詞に「B-」を、残りの文字に「I-」を付けている。試しにGoogle Colaboratoryで動かしてみよう。

!pip install transformers
import torch
from transformers import AutoTokenizer,AutoModelForTokenClassification
tokenizer=AutoTokenizer.from_pretrained("KoichiYasuoka/bert-base-japanese-upos")
model=AutoModelForTokenClassification.from_pretrained("KoichiYasuoka/bert-base-japanese-upos")
s="難儀な難儀は難儀する"
p=[model.config.id2label[q] for q in torch.argmax(model(tokenizer.encode(s,return_tensors="pt"))[0],dim=2)[0].tolist()[1:-1]]
print(list(zip(s,p)))

「難儀な難儀は難儀する」に品詞付与してみたところ、私(安岡孝一)の手元では以下の結果になった。

[('難', 'B-ADJ'), ('儀', 'I-ADJ'), ('な', 'AUX'), ('難', 'B-NOUN'), ('儀', 'I-NOUN'), ('は', 'ADP'), ('難', 'B-VERB'), ('儀', 'I-VERB'), ('す', 'B-AUX'), ('る', 'I-AUX')]

「難儀な」がADJ+AUXに、「難儀は」がNOUN+ADPに、「難儀する」がVERB+AUXになっていて、私個人としては大満足だ。読者諸氏も、よければ試してみてほしい。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

人生unstable -- あるハッカー

読み込み中...