yasuokaの日記: jstroberta-base-manbyo-wordpieceは「夜の底が[MASK]なった。」の[MASK]に何を埋めてくるのか 3
NIIの相澤研究室から日本語BERTモデルが4つ発表されたので、まずはjstroberta-base-manbyo-wordpieceを試してみた。ただ、このモデルは/usr/local/lib/mecab/dic/userdicにユーザ辞書を入れなければならないので、手元のマシンだとちょっとツライ。とりあえずGoogle Colaboratoryで動かしてみよう。
!pip install transformers fugashi ipadic
f="/usr/local/lib/mecab/dic/userdic/MANBYO_201907_Dic-utf8.dic"
!mkdir -p /usr/local/lib/mecab/dic/userdic
!test -f {f} || curl -L https://sociocom.jp/~data/2018-manbyo/data/MANBYO_201907_Dic-utf8.dic -o {f}
from transformers import pipeline
fmp=pipeline("fill-mask","alabnii/jstroberta-base-manbyo-wordpiece")
print(fmp("夜の底が[MASK]なった。"))
「夜の底が[MASK]なった。」を穴埋めさせてみたところ、私(安岡孝一)の手元では以下の結果になった。
[{'score': 0.24596861004829407, 'token': 11944, 'token_str': '深く', 'sequence': '夜 の 底 が 深く なっ た 。'}, {'score': 0.13985803723335266, 'token': 13401, 'token_str': '悪く', 'sequence': '夜 の 底 が 悪く なっ た 。'}, {'score': 0.08497772365808487, 'token': 27479, 'token_str': '重く', 'sequence': '夜 の 底 が 重く なっ た 。'}, {'score': 0.07890825718641281, 'token': 9078, 'token_str': '強く', 'sequence': '夜 の 底 が 強く なっ た 。'}, {'score': 0.06926961243152618, 'token': 26947, 'token_str': '痛く', 'sequence': '夜 の 底 が 痛く なっ た 。'}]
「深く」「悪く」「重く」「強く」「痛く」と並ぶあたり、さすがmanbyoモデルだけのことはある。ただ、この日本語BERTモデルのjstrobertaって、さて、JSTのRoBERTaなのかしら。
補足 (スコア:1)
Re:補足 (スコア:1)
Re:補足 (スコア:2)
で、カレントディレクトリにも置けることを確認しました。どうもありがとうございます。