パスワードを忘れた? アカウント作成
15710069 journal
人工知能

yasuokaの日記: Question Answeringによる国語研長単位係り受け解析モデルのUPOS/LAS/MLAS評価

日記 by yasuoka

6月16日18日19日の日記で公開した国語研長単位係り受け解析用DeBERTaモデルに対し、『Transformersと国語研長単位による日本語係り受け解析モデルの製作』の表4・表5と同様に、UPOS/LAS/MLASで評価してみた。現時点での結果を以下に示す。

  • deberta-base-japanese-aozora-ud-head
    構築時の評価(evaluation) 95.39/88.40/78.17 テスト(predict) 95.03/87.78/77.21
    共通テスト国語第1問【文章Ⅰ】 91.37/78.96/59.55 【文章Ⅱ】 95.76/84.57/69.42
  • deberta-large-japanese-aozora-ud-head
    構築時の評価(evaluation) 95.13/88.99/78.47 テスト(predict) 95.14/87.68/77.26
    共通テスト国語第1問【文章Ⅰ】 90.80/77.17/56.56 【文章Ⅱ】 94.93/82.23/67.34
  • deberta-base-japanese-unidic-ud-head
    構築時の評価(evaluation) 95.34/87.69/74.70 テスト(predict) 94.49/85.91/71.89
    共通テスト国語第1問【文章Ⅰ】 91.31/76.37/50.39 【文章Ⅱ】 96.05/86.72/70.19
  • deberta-large-japanese-unidic-ud-head
    構築時の評価(evaluation) 95.69/88.34/75.72 テスト(predict) 95.52/87.31/74.25
    共通テスト国語第1問【文章Ⅰ】 92.21/77.81/51.93 【文章Ⅱ】 94.76/81.69/62.78

また、私(安岡孝一)の手元にあった日本語BERT/RoBERTaのうち、単文字トークナイザによるモデルもファインチューンして、それぞれ評価してみた。

  • roberta-base-japanese-aozora-ud-head
    構築時の評価(evaluation) 95.26/89.07/78.40 テスト(predict) 94.63/87.24/76.31
    共通テスト国語第1問【文章Ⅰ】 91.68/80.40/60.94 【文章Ⅱ】 94.63/84.75/69.04
  • roberta-large-japanese-aozora-ud-head
    構築時の評価(evaluation) 92.38/82.11/66.82 テスト(predict) 91.89/79.53/64.27
    共通テスト国語第1問【文章Ⅰ】 87.14/67.40/45.08 【文章Ⅱ】 91.50/72.95/53.82
  • bert-base-japanese-wikipedia-ud-head
    構築時の評価(evaluation) 96.79/91.69/83.59 テスト(predict) 96.46/89.58/80.98
    共通テスト国語第1問【文章Ⅰ】 91.30/78.74/58.34 【文章Ⅱ】 94.63/83.61/67.35
  • bert-large-japanese-wikipedia-ud-head
    構築時の評価(evaluation) 96.72/91.35/83.11 テスト(predict) 96.23/89.45/80.60
    共通テスト国語第1問【文章Ⅰ】 90.37/76.16/57.84 【文章Ⅱ】 94.91/85.45/69.62

モデルごとに得手不得手があるらしく、なかなか比較が難しい。ただ、全体の傾向としては、まだesuparによるBiaffine実装には追いついていないようだ。なお、ファインチューン・評価用のGoogle Colaboratoryページを、ここここに示しておいたので、参考にしてほしい。

この議論は、yasuoka (21275)によって「 ログインユーザだけ」として作成されている。 ログインしてから来てね。
typodupeerror

コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell

読み込み中...