パスワードを忘れた? アカウント作成
15667971 journal
人工知能

yasuokaの日記: 青空文庫DeBERTaモデルdeberta-base-japanese-aozoraリリース

日記 by yasuoka

昨日の日記に続いて、日本語DeBERTa(V2)モデルdeberta-base-japanese-aozoraも作ってみた。普通に12層・隠れサイズ768・12ヘッド・トークン幅512としたが、7772556文3億字(青空文庫データ2.37億字+異体字増量分0.64億字)をNVIDIA A100-SXM4-40GBで728679ステップ(64バッチ)学習させたところ、19時間15分かかってしまった。ちょっと試してみよう。

$ pip3 install 'transformers>=4.19.0' --user
$ python3
>>> from transformers import AutoTokenizer,AutoModelForMaskedLM,FillMaskPipeline
>>> tokenizer=AutoTokenizer.from_pretrained("KoichiYasuoka/deberta-base-japanese-aozora")
>>> model=AutoModelForMaskedLM.from_pretrained("KoichiYasuoka/deberta-base-japanese-aozora")
>>> pipeline=FillMaskPipeline(model,tokenizer)
>>> print(pipeline("夜の底が[MASK]なった。"))
[{'score': 0.443998247385025, 'token': 2114, 'token_str': '白く', 'sequence': '夜の底が白くなった。'}, {'score': 0.1593685746192932, 'token': 3508, 'token_str': 'わるく', 'sequence': '夜の底がわるくなった。'}, {'score': 0.041328057646751404, 'token': 297, 'token_str': '重', 'sequence': '夜の底が重なった。'}, {'score': 0.0368022695183754, 'token': 7041, 'token_str': '暑く', 'sequence': '夜の底が暑くなった。'}, {'score': 0.03450362756848335, 'token': 5301, 'token_str': '狭く', 'sequence': '夜の底が狭くなった。'}]

「夜の底が[MASK]なった。」を穴埋めさせてみたところ、私(安岡孝一)の手元では「白く」「わるく」「重」「暑く」「狭く」を埋めてきた。青空文庫には『雪国』は入ってないはずなので、「白く」がトップに来ているのはイイ線なのだが、むしろショッキングなのは「重」だ。うーん、何がどうなってるんだろう。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

アレゲは一日にしてならず -- アレゲ研究家

読み込み中...