パスワードを忘れた? アカウント作成
15697261 journal
人工知能

yasuokaの日記: esupar向け国語研長単位係り受け解析用DeBERTaモデル(BertJapaneseTokenizer使用)を公開

日記 by yasuoka

一昨昨日昨日の日記で作成した日本語DeBERTa(V2)モデル(青空文庫元データ2.37億字+異体字増量分0.64億字、BertJapaneseTokenizer使用)を、5月29日の日記と同様の手法でファインチューニングしてみた。とりあえずUPOS/LAS/MLASで評価した結果を以下に示す。

  • deberta-base-japanese-unidic-luw-upos
    構築時の評価(evaluation) 96.92/92.82/84.30 テスト(predict) 96.75/91.71/82.90
    共通テスト『国語』第1問【文章Ⅰ】93.07/84.04/65.47 【文章Ⅱ】96.97/88.60/73.10
  • deberta-large-japanese-unidic-luw-upos
    構築時の評価(evaluation) 96.78/92.50/83.97 テスト(predict) 96.90/91.83/83.47
    共通テスト『国語』第1問【文章Ⅰ】93.92/84.97/67.86 【文章Ⅱ】96.54/86.89/71.48

ざっと見た限り、私(安岡孝一)が以前作ったDeBERTa(V2)モデル群より少し性能がいい。うーむ、DebertaV2TokenizerFastとBertJapaneseTokenizerの差なのかなぁ。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

日本発のオープンソースソフトウェアは42件 -- ある官僚

読み込み中...