roberta-base-japanese-with-auto-jumanppのトークナイザはsentencepieceを必要としないのか | yasuokaの日記

yasuokaの日記： roberta-base-japanese-with-auto-jumanppのトークナイザはsentencepieceを必要としないのか 1

日記 by yasuoka 2022年10月17日 20時10分

早稲田大学の河原研究室から、日本語RoBERTaモデルroberta-base-japanese-with-auto-jumanppがリリースされたので、早速、Google Colaboratoryで動かしてみた。

!test -d jumanpp-2.0.0-rc3 || curl -L https://github.com/ku-nlp/jumanpp/releases/download/v2.0.0-rc3/jumanpp-2.0.0-rc3.tar.xz | tar xJf - !test -x /usr/local/bin/jumanpp || ( mkdir jumanpp-2.0.0-rc3/build && cd jumanpp-2.0.0-rc3/build && cmake .. -DCMAKE_BUILD_TYPE=Release && make install ) !pip install transformers pyknp sentencepiece from transformers import pipeline fmp=pipeline("fill-mask","nlp-waseda/roberta-base-japanese-with-auto-jumanpp") print(fmp("国境の[MASK]トンネルを抜けると雪国であった。"))

2021年12月25日の日記と同様に、「国境の[MASK]トンネルを抜けると雪国であった。」の[MASK]を穴埋めさせてみたところ、私(安岡孝一)の手元では以下の結果になった。

[{'score': 0.12904559075832367, 'token': 3775, 'token_str': '女', 'sequence': '国境の女トンネルを抜けるとであった。'}, {'score': 0.07489769905805588, 'token': 1568, 'token_str': '口', 'sequence': '国境の口トンネルを抜けるとであった。'}, {'score': 0.06730563193559647, 'token': 464, 'token_str': 'か', 'sequence': '国境のかトンネルを抜けるとであった。'}, {'score': 0.045510273426771164, 'token': 961, 'token_str': 'と', 'sequence': '国境のとトンネルを抜けるとであった。'}, {'score': 0.039868827909231186, 'token': 1652, 'token_str': 'や', 'sequence': '国境のやトンネルを抜けるとであった。'}]

動きが変だ。特に「雪国」が消えているのが、かなりおかしい。サブワードの処理がうまくいっておらず、「雪国」が未定義語になっている気がする。ちょっと確かめてみよう。

print(fmp.tokenizer.tokenize("国境の[MASK]トンネルを抜けると雪国であった。")) print(type(fmp.tokenizer.subword_tokenizer))

私の手元では、以下の結果になった。

['国境', 'の', '[MASK]', 'トンネル', 'を', '抜ける', 'と', '[UNK]', 'であった', '。'] <class 'transformers.models.bert.tokenization_bert.WordpieceTokenizer'>

やはり、「雪国」のサブワード処理がうまくいっていない。というか、サブワード処理にはsentencepieceを使ってるはずなのに、なぜかWordpieceTokenizerが繋がれてしまってる。うーむ、これ、どうやって直せばいいんだろ。

この議論は、yasuoka (21275)によってログインユーザだけとして作成されたが、今となっては新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索1コメント Log In/Create an Account

vocab.txtの作り直し (スコア:2)

by yasuoka (21275) on 2022年10月18日 0時32分 (#4345523) 日記

vocab.txtを作り直すことでムリヤリ直す方法を考えたので、今日の日記 [srad.jp]に書いておきます。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

yasuokaの日記： roberta-base-japanese-with-auto-jumanppのトークナイザはsentencepieceを必要としないのか 1

roberta-base-japanese-with-auto-jumanppのトークナイザはsentencepieceを必要としないのか More ログイン

vocab.txtの作り直し (スコア:2)

スラド