パスワードを忘れた? アカウント作成
15722990 journal
人工知能

yasuokaの日記: 日本語DeBERTaモデルdeberta-large-japanese-wikipediaリリース

日記 by yasuoka

6月25日の日記の手法をもとに、日本語DeBERTa(V2)モデルdeberta-large-japanese-wikipediaも作ってみた。24層・隠れサイズ1024・16ヘッド・トークン幅512としたが、青空文庫3億字(元データ2.37億字+異体字増量分0.64億字)にWikipedia 13億字を加えたため、NVIDIA A100-SXM4-40GBで254時間51分(7744065ステップ×16バッチ)もかかってしまった。Google Colaboratoty (GPU)上でJCommonSenceQAに挑戦してみよう。

!test -d transformers-4.20.1 || git clone -b v4.20.1 --depth=1 https://github.com/huggingface/transformers transformers-4.20.1
!test -d JGLUE || ( git clone --depth=1 https://github.com/yahoojapan/JGLUE && cat JGLUE/fine-tuning/patch/transformers-4.9.2_jglue-1.0.0.patch | ( cd transformers-4.20.1 && patch -p1 ) )
!cd transformers-4.20.1 && pip install .
!pip install -r transformers-4.20.1/examples/pytorch/text-classification/requirements.txt
!pip install protobuf==3.19.1 tensorboard
!python transformers-4.20.1/examples/pytorch/multiple-choice/run_swag.py --model_name_or_path KoichiYasuoka/deberta-large-japanese-wikipedia --do_train --do_eval --do_predict --max_seq_length 64 --per_device_train_batch_size 8 --learning_rate 5e-05 --num_train_epochs 4 --output_dir ./output_jcommonsenseqa --overwrite_output_dir --train_file JGLUE/datasets/jcommonsenseqa-v1.0/train-v1.0.json --validation_file JGLUE/datasets/jcommonsenseqa-v1.0/valid-v1.0.json --test_file JGLUE/datasets/jcommonsenseqa-v1.0/valid-v1.0.json --use_fast_tokenizer True --evaluation_strategy epoch --warmup_ratio 0.1

ファインチューニングに70分ほどかかったが、私(安岡孝一)の手元では以下の「eval metrics」が出力された。

***** eval metrics *****
  epoch                   =        4.0
  eval_accuracy           =     0.5996
  eval_loss               =     3.4278
  eval_runtime            = 0:00:36.81
  eval_samples            =       1119
  eval_samples_per_second =     30.393
  eval_steps_per_second   =      3.802

JCommonSenseQAが0.5996となっていて、悲しいことにdeberta-base-japanese-wikipediaより低い。largeモデルを頑張って作ったのに、baseモデルより低いというのは、どこか作り方を間違ってるのかしら。

この議論は、yasuoka (21275)によって「 ログインユーザだけ」として作成されている。 ログインしてから来てね。
typodupeerror

最初のバージョンは常に打ち捨てられる。

読み込み中...