パスワードを忘れた? アカウント作成

Idle.srad.jpは、あなたの人生において完全な時間の浪費です。見るなよ、見るなよ。

15710069 journal
人工知能

yasuokaの日記: Question Answeringによる国語研長単位係り受け解析モデルのUPOS/LAS/MLAS評価

日記 by yasuoka

6月16日18日19日の日記で公開した国語研長単位係り受け解析用DeBERTaモデルに対し、『Transformersと国語研長単位による日本語係り受け解析モデルの製作』の表4・表5と同様に、UPOS/LAS/MLASで評価してみた。現時点での結果を以下に示す。

15705100 journal
人工知能

yasuokaの日記: Question Answeringによる国語研長単位係り受け解析用DeBERTaモデル(BertJapaneseTokenizer版)を公開

日記 by yasuoka

一昨日昨日の日記で書いた係り受け解析手法を、BertJapaneseTokenizerに適用するやり方で、deberta-base-japanese-unidic-ud-headdeberta-large-japanese-unidic-ud-headを試作した。ただ、BertJapaneseTokenizerはコンマ

15703479 journal
人工知能

yasuokaの日記: deberta-large-japanese-aozora-ud-headとufal.chu-liu-edmondsによる国語研長単位係り受け解析

日記 by yasuoka

一昨日の日記の手法を拡張して、deberta-large-japanese-aozora-ud-headも試作してみた。ufal.chu-liu-edmondsを使って、Google Colaboratory上で係り受け解析を試してみよう。

!pip install transformers ufal.chu-liu-edmonds deplacy

15701900 journal
人工知能

yasuokaの日記: deberta-base-japanese-aozora-ud-headとufal.chu-liu-edmondsによる国語研長単位係り受け解析

日記 by yasuoka

昨日の日記で試作したdeberta-base-japanese-aozora-ud-headに対し、ufal.chu-liu-edmondsを使って係り受け解析木を解くプログラムを書いてみた。ちょっと長くなってしまったのだが、Google Colaboratoryで動かしてみよう。

!pip install transformers ufal.chu-liu-edmonds deplacy

15700763 journal
人工知能

yasuokaの日記: Re: Question Answeringを係り受け解析に応用するには

日記 by yasuoka

一昨日の日記の手法を、もう少しtransformers向けに改造して、国語研長単位向けdeberta-base-japanese-aozora-ud-headを試作してみた。ただ、QuestionAnsweringPipelineにはバグがあるらしく、日本語がうまく通らない。仕方ないので、torch.argmaxを手で叩く方法にしてみた。最新のtransformersをインストールしつつ、Question Answeringによる係り受け解析を試してみよう。

15698641 journal
人工知能

yasuokaの日記: Question Answeringを係り受け解析に応用するには

日記 by yasuoka

Leilei Gan, Yuxian Meng, Kun Kuang, Xiaofei Sun, Chun Fan, Fei Wu, Jiwei Li『Dependency Parsing as MRC-based Span-Span Prediction』(60th Annual Meeting of the ACM (May 2022), Vol.1: Long Papers, pp.2427-2437)を、私(安岡孝一)なりに検討してみた。単語間に区切りの無い言語においては、この論文のtokenやspanをそのまま当てはめるのは難しく、あえて単語(word)と構成鎖(catena)を使うべきではないか、というのが現時点での結論だ。ただ、全ての構成鎖を使うと大変なことになってしまうので、各単語を起点とする最大の構成鎖だけを、とりあえず見てみよう。たとえば「世界中が刮目している」の国語研長単位Universal Dependencies係り受け解析木

15697261 journal
人工知能

yasuokaの日記: esupar向け国語研長単位係り受け解析用DeBERTaモデル(BertJapaneseTokenizer使用)を公開

日記 by yasuoka

一昨昨日昨日の日記で作成した日本語DeBERTa(V2)モデル(青空文庫元データ2.37億字+異体字増量分0.64億字、BertJapaneseTokenizer使用)を、5月29日の日記と同様の手法でファインチューニングしてみた。とりあえずUPOS/LAS/MLASで評価した結果を以下に示す。

15696147 journal
人工知能

yasuokaの日記: 青空文庫DeBERTaモデルdeberta-large-japanese-unidicリリース

日記 by yasuoka

一昨日の日記の手法を拡張して、トークナイザをBertJapaneseTokenizerに置き換えた日本語DeBERTa(V2)モデルdeberta-large-japanese-unidicも作ってみた。24層・隠れサイズ1024・16ヘッド・トークン幅512とした上で、7772556文3億字(青空文庫元データ2.37億字+異体字増量分0.64億字)をNVIDIA A100-SXM4-40GBで1457355ステップ(32バッチ)学習させたところ、50時間53分かかってしまった。JG

15694822 journal
人工知能

yasuokaの日記: JGLUEのJSQuADをtransformers 4.19.2のDebertaV2TokenizerFastでムリヤリ動かすには

日記 by yasuoka

一昨日の日記で、私(安岡孝一)は以下のように書いた。

でも、JGLUEのタスクのうち、JSQuADはDebertaV2TokenizerFastを受け付けてくれないようだ。

typodupeerror

アレゲはアレゲを呼ぶ -- ある傍観者

読み込み中...