yasuokaの日記: esupar向け国語研長単位係り受け解析用DeBERTaモデル(BertJapaneseTokenizer使用)を公開
日記 by
yasuoka
一昨昨日・昨日の日記で作成した日本語DeBERTa(V2)モデル(青空文庫元データ2.37億字+異体字増量分0.64億字、BertJapaneseTokenizer使用)を、5月29日の日記と同様の手法でファインチューニングしてみた。とりあえずUPOS/LAS/MLASで評価した結果を以下に示す。
- deberta-base-japanese-unidic-luw-upos
構築時の評価(evaluation) 96.92/92.82/84.30 テスト(predict) 96.75/91.71/82.90
共通テスト『国語』第1問【文章Ⅰ】93.07/84.04/65.47 【文章Ⅱ】96.97/88.60/73.10 - deberta-large-japanese-unidic-luw-upos
構築時の評価(evaluation) 96.78/92.50/83.97 テスト(predict) 96.90/91.83/83.47
共通テスト『国語』第1問【文章Ⅰ】93.92/84.97/67.86 【文章Ⅱ】96.54/86.89/71.48
ざっと見た限り、私(安岡孝一)が以前作ったDeBERTa(V2)モデル群より少し性能がいい。うーむ、DebertaV2TokenizerFastとBertJapaneseTokenizerの差なのかなぁ。
esupar向け国語研長単位係り受け解析用DeBERTaモデル(BertJapaneseTokenizer使用)を公開 More ログイン