青空文庫DeBERTaモデルdeberta-base-japanese-aozoraリリース | yasuokaの日記

yasuokaの日記：青空文庫DeBERTaモデルdeberta-base-japanese-aozoraリリース 0

日記 by yasuoka 2022年05月24日 18時32分

昨日の日記に続いて、日本語DeBERTa(V2)モデルdeberta-base-japanese-aozoraも作ってみた。普通に12層・隠れサイズ768・12ヘッド・トークン幅512としたが、7772556文3億字(青空文庫データ2.37億字＋異体字増量分0.64億字)をNVIDIA A100-SXM4-40GBで728679ステップ(64バッチ)学習させたところ、19時間15分かかってしまった。ちょっと試してみよう。

$ pip3 install 'transformers>=4.19.0' --user $ python3 >>> from transformers import AutoTokenizer,AutoModelForMaskedLM,FillMaskPipeline >>> tokenizer=AutoTokenizer.from_pretrained("KoichiYasuoka/deberta-base-japanese-aozora") >>> model=AutoModelForMaskedLM.from_pretrained("KoichiYasuoka/deberta-base-japanese-aozora") >>> pipeline=FillMaskPipeline(model,tokenizer) >>> print(pipeline("夜の底が[MASK]なった。")) [{'score': 0.443998247385025, 'token': 2114, 'token_str': '白く', 'sequence': '夜の底が白くなった。'}, {'score': 0.1593685746192932, 'token': 3508, 'token_str': 'わるく', 'sequence': '夜の底がわるくなった。'}, {'score': 0.041328057646751404, 'token': 297, 'token_str': '重', 'sequence': '夜の底が重なった。'}, {'score': 0.0368022695183754, 'token': 7041, 'token_str': '暑く', 'sequence': '夜の底が暑くなった。'}, {'score': 0.03450362756848335, 'token': 5301, 'token_str': '狭く', 'sequence': '夜の底が狭くなった。'}]

「夜の底が[MASK]なった。」を穴埋めさせてみたところ、私(安岡孝一)の手元では「白く」「わるく」「重」「暑く」「狭く」を埋めてきた。青空文庫には『雪国』は入ってないはずなので、「白く」がトップに来ているのはイイ線なのだが、むしろショッキングなのは「重」だ。うーん、何がどうなってるんだろう。

yasuokaの日記：青空文庫DeBERTaモデルdeberta-base-japanese-aozoraリリース 0

青空文庫DeBERTaモデルdeberta-base-japanese-aozoraリリース More ログイン

スラド