パスワードを忘れた? アカウント作成

こちらは、yasuokaさんのユーザページですよ。 アカウントを作成して、スラドのモデレーションと日記の輪に参加しよう。

15547771 journal
日本

yasuokaの日記: 国語研長単位において「はありません」は1語なのか

日記 by yasuoka

1月18日1月19日の日記のカラミで、国語研長単位コーパスUD_Japanese-GSDLUWをざっとチェックし直したのだが、「はありません」の扱いがイマイチ分からなかった。私(安岡孝一)なりに、4つほど例文を並べてみよう。

まずはsent_id = test-s78の「筋ではありません」。

15547030 journal
人工知能

yasuokaの日記: アイヌ語Universal Dependenciesで書く「ohaw pirkano ukopoye wa, itanki or o yan.」

日記 by yasuoka

佐藤知己『アイヌ語学の諸問題 : 近年の議論と関連して』(北海道大学文学研究院紀要, 第165号(2021年12月), pp.1-29)を読んでいたところ、p.4に出てくる

ohaw pirkano ukopoye wa, itanki or o yan.

が、果たしてアイヌ語Universal Dependenciesで書けるのかどうか、気になった。とりあえず、私(安岡孝一)の知識の範囲内で書くと、以下のようになる。

15544630 journal
教育

yasuokaの日記: 国語研長単位Universal Dependenciesで読む『食べるとはどういうことか』

日記 by yasuoka

昨日の日記に加えて、大学入学共通テスト「国語」第1問【文章Ⅱ】も、国語研長単位Universal Dependenciesで書いてみることにした。

15544253 journal
教育

yasuokaの日記: 国語研長単位Universal Dependenciesで読む『食べることの哲学』

日記 by yasuoka

一昨昨日の日記の続きだが、大学入学共通テスト「国語」第1問【文章Ⅰ】を、国語研長単位Universal Dependenciesで書いてみることにした。

15541764 journal
教育

yasuokaの日記: Universal Dependenciesで読む共通テストの『揅経室集』

日記 by yasuoka

大学入学共通テスト初日の「国語」第4問(漢文)は、『揅経室集』から蝶夢園が出題された。Universal Dependenciesで見てみよう。

15536103 journal
人工知能

yasuokaの日記: cl-tohoku/roberta-base-japaneseのトークナイザをBertJapaneseTokenizerで置き換えるには

日記 by yasuoka

昨日の日記で紹介したcl-tohoku/roberta-base-japaneseだが、RobertaJapaneseTokenizerをあきらめてBertJapaneseTokenizerで置き換えることを考えてみた。端的にはSentencePieceからWordPieceへの乗り換えになるので、精度が下がるのは致し方ないのだが、to_zenkaku=Trueをエミュレートするためにvocab_fileそのものを入れ替えることにしたので、かなりヤヤコシクなった。Google Colaboratoryでやってみよう。

15535522 journal
人工知能

yasuokaの日記: cl-tohoku/roberta-base-japaneseのトークナイザRobertaJapaneseTokenizerの謎

日記 by yasuoka

日本語BERT/RoBERTa/ALBERTモデルのトークナイザ比較cl-tohoku/roberta-base-japaneseも扱いたかったのだが、RobertaJapaneseTokenizerという謎のトークナイザを使っているらしく、どうもうまくいかなかった。それで私(安岡孝一)なりにアレコレ悩んで、XLMRobertaTokenizerとBertJapaneseTokenizerの組み合わせで、それらしいトークナイザをデッチ上げてみた。Google Colaboratoryで試してみよう。

15531515 journal
人工知能

yasuokaの日記: Transformersにおける日本語トークナイザBertJapaneseTokenizerFastの改良

日記 by yasuoka

昨日の日記でデッチ上げたBertJapaneseTokenizerFastだが、テキストペアのlistを受け取れるようにすると同時に、[UNK]の処理を多少改善してみた。Google Colaboratoryで動かしてみよう。

15531059 journal
人工知能

yasuokaの日記: Transformersにおける日本語トークナイザBertJapaneseTokenizerFastの試作

日記 by yasuoka

昨年12月26日の日記で、私(安岡孝一)は以下のように書いた。

一方で、fugashi(というかBertJapaneseTokenizer)をトークナイザに使うと、オプションにreturn_offsets_mapping=Trueが効かないため、11月26日の日記で書いたような手法が適用できない。うーん、国語研短単位をサポートするようなPreTrainedTokenizerFastを、何とかデッチ上げるしかないかな。

15529526 journal
人工知能

yasuokaの日記: 青空文庫RoBERTaモデル6種類の係り受け精度比較

日記 by yasuoka

年末にかけて作成した青空文庫RoBERTaモデル6種類(これこれこれこれこれこれ)を比較すべく、

typodupeerror

未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー

読み込み中...