
yasuokaの日記: Question Answeringによる国語研長単位係り受け解析モデルのUPOS/LAS/MLAS評価
6月16日・18日・19日の日記で公開した国語研長単位係り受け解析用DeBERTaモデルに対し、『Transformersと国語研長単位による日本語係り受け解析モデルの製作』の表4・表5と同様に、UPOS/LAS/MLASで評価してみた。現時点での結果を以下に示す。
Idle.srad.jpは、あなたの人生において完全な時間の浪費です。見るなよ、見るなよ。
6月16日・18日・19日の日記で公開した国語研長単位係り受け解析用DeBERTaモデルに対し、『Transformersと国語研長単位による日本語係り受け解析モデルの製作』の表4・表5と同様に、UPOS/LAS/MLASで評価してみた。現時点での結果を以下に示す。
WindowsUpdateでウクライナの現状を表示するモジュールでも配ったらいいんじゃないの。
Edgeのトップページとか。サインイン画面の背景とか。
一昨日・昨日の日記で書いた係り受け解析手法を、BertJapaneseTokenizerに適用するやり方で、deberta-base-japanese-unidic-ud-headとdeberta-large-japanese-unidic-ud-headを試作した。ただ、BertJapaneseTokenizerはコンマ
一昨日の日記の手法を拡張して、deberta-large-japanese-aozora-ud-headも試作してみた。ufal.chu-liu-edmondsを使って、Google Colaboratory上で係り受け解析を試してみよう。
!pip install transformers ufal.chu-liu-edmonds deplacy
昨日の日記で試作したdeberta-base-japanese-aozora-ud-headに対し、ufal.chu-liu-edmondsを使って係り受け解析木を解くプログラムを書いてみた。ちょっと長くなってしまったのだが、Google Colaboratoryで動かしてみよう。
!pip install transformers ufal.chu-liu-edmonds deplacy
一昨日の日記の手法を、もう少しtransformers向けに改造して、国語研長単位向けdeberta-base-japanese-aozora-ud-headを試作してみた。ただ、QuestionAnsweringPipelineにはバグがあるらしく、日本語がうまく通らない。仕方ないので、torch.argmaxを手で叩く方法にしてみた。最新のtransformersをインストールしつつ、Question Answeringによる係り受け解析を試してみよう。
Leilei Gan, Yuxian Meng, Kun Kuang, Xiaofei Sun, Chun Fan, Fei Wu, Jiwei Li『Dependency Parsing as MRC-based Span-Span Prediction』(60th Annual Meeting of the ACM (May 2022), Vol.1: Long Papers, pp.2427-2437)を、私(安岡孝一)なりに検討してみた。単語間に区切りの無い言語においては、この論文のtokenやspanをそのまま当てはめるのは難しく、あえて単語(word)と構成鎖(catena)を使うべきではないか、というのが現時点での結論だ。ただ、全ての構成鎖を使うと大変なことになってしまうので、各単語を起点とする最大の構成鎖だけを、とりあえず見てみよう。たとえば「世界中が刮目している」の国語研長単位Universal Dependencies係り受け解析木
一昨日の日記の手法を拡張して、トークナイザをBertJapaneseTokenizerに置き換えた日本語DeBERTa(V2)モデルdeberta-large-japanese-unidicも作ってみた。24層・隠れサイズ1024・16ヘッド・トークン幅512とした上で、7772556文3億字(青空文庫元データ2.37億字+異体字増量分0.64億字)をNVIDIA A100-SXM4-40GBで1457355ステップ(32バッチ)学習させたところ、50時間53分かかってしまった。JG
一昨日の日記で、私(安岡孝一)は以下のように書いた。
でも、JGLUEのタスクのうち、JSQuADはDebertaV2TokenizerFastを受け付けてくれないようだ。
アレゲはアレゲを呼ぶ -- ある傍観者