パスワードを忘れた? アカウント作成
15712099 journal
人工知能

yasuokaの日記: 日本語DeBERTaモデルdeberta-base-japanese-wikipediaリリース

日記 by yasuoka

5月24日の日記の手法をもとに、日本語DeBERTa(V2)モデルdeberta-base-japanese-wikipediaも作ってみた。12層・隠れサイズ768・12ヘッド・トークン幅512としたが、青空文庫3億字(元データ2.37億字+異体字増量分0.64億字)にWikipedia 13億字を加えたため、NVIDIA A100-SXM4-40GBで87時間44分(3872034ステップ×32バッチ)もかかってしまった。Google Colaboratoty (GPU)上でJCommonSenceQAに挑戦してみよう。

!test -d transformers-4.20.1 || git clone -b v4.20.1 --depth=1 https://github.com/huggingface/transformers transformers-4.20.1
!test -d JGLUE || ( git clone --depth=1 https://github.com/yahoojapan/JGLUE && cat JGLUE/fine-tuning/patch/transformers-4.9.2_jglue-1.0.0.patch | ( cd transformers-4.20.1 && patch -p1 ) )
!cd transformers-4.20.1 && pip install .
!pip install -r transformers-4.20.1/examples/pytorch/text-classification/requirements.txt
!pip install protobuf==3.19.1 tensorboard
!python transformers-4.20.1/examples/pytorch/multiple-choice/run_swag.py --model_name_or_path KoichiYasuoka/deberta-base-japanese-wikipedia --do_train --do_eval --do_predict --max_seq_length 64 --per_device_train_batch_size 16 --learning_rate 5e-05 --num_train_epochs 4 --output_dir ./output_jcommonsenseqa --overwrite_output_dir --train_file JGLUE/datasets/jcommonsenseqa-v1.0/train-v1.0.json --validation_file JGLUE/datasets/jcommonsenseqa-v1.0/valid-v1.0.json --test_file JGLUE/datasets/jcommonsenseqa-v1.0/valid-v1.0.json --use_fast_tokenizer True --evaluation_strategy epoch --warmup_ratio 0.1

ファインチューニングに20分ほどかかったが、私(安岡孝一)の手元では以下の「eval metrics」が出力された。

***** eval metrics *****
  epoch                   =        4.0
  eval_accuracy           =     0.6381
  eval_loss               =     1.5437
  eval_runtime            = 0:00:11.53
  eval_samples            =       1119
  eval_samples_per_second =     97.005
  eval_steps_per_second   =     12.136

JCommonSenseQAが0.6381なので、もう少し頑張りたいところだ。うーん、largeモデルにも挑戦すべきかな。

この議論は、yasuoka (21275)によって「 ログインユーザだけ」として作成されている。 ログインしてから来てね。
typodupeerror

私は悩みをリストアップし始めたが、そのあまりの長さにいやけがさし、何も考えないことにした。-- Robert C. Pike

読み込み中...