


yasuokaの日記: ku-nlp/deberta-v2-base-japaneseのトークナイザをDebertaV2TokenizerFastのままでJuman++に繋ぐには
私(安岡孝一)の1月13日の日記に対し、ku-nlp/deberta-v2-base-japaneseのトークナイザをBertJapaneseTokenizerに置き換えるとreturn_offsets_mapping=Trueが使えなくなってしまう、との御指摘をいただいた。確かにそのとおりだ。BertJapaneseTokenizerFastもどきで行こうかとも思ったが、ここはあえてPreTokenizer.customにJumanppTokenizerを突っ込んでみることにした。Google Colaboratoryだと、こんな感じ。

yasuokaの日記: ku-nlp/deberta-v2-base-japaneseのトークナイザをmecab-jumandic-utf8に切り替えるには
Google Colaboratoryの起動のたびにJuman++をインストールするのは、さすがに飽きてきたので、ku-nlp/deberta-v2-base-japaneseのトークナイザをmecab-jumandic-utf8に切り替えてみた。

yasuokaの日記: Universal Dependenciesで読む共通テストの『白氏文集』
大学入学共通テスト初日の「国語」第4問(漢文)は『白氏文集』が出題された。【予想問題】と【模擬答案】をUniversal Dependenciesで見てみよう。
# 【予想問題】
# text = 問
1 問 問 VERB v,動詞,行為,伝達 _ 0 root _ Gloss=ask|SpaceAfter=No

yasuokaの日記: ku-nlp/deberta-v2-base-japaneseのトークナイザをBertJapaneseTokenizerに置き換える
1月5日の日記で紹介したku-nlp/deberta-v2-base-japaneseのトークナイザを、BertJapaneseTokenizerのjumanppで置き換えてみた。ただし、内部で使用しているpyknpがrhoknpに変更予定なこともあって、かなり汚い手法になってしまった。Google Colaboratoryだと、こんな感じ。
yasuokaのコメント: Re:補足 (スコア 1) 3
!pip install transformers fugashi ipadic
import os
url="https://sociocom.jp/~data/2018-manbyo/data/MANBYO_201907_Dic-utf8.dic"
f=os.path.basename(url)
!test -f {f} || curl -LO {url}
from transformers import AutoTokenizer,pipeline
fmp=pipeline(task="fill-mask",model="alabnii/jmedroberta-base-manbyo-wordpiece",tokenizer=AutoTokenizer.from_pretrained("alabnii/jmedroberta-base-manbyo-wordpiece",mecab_kwargs={"mecab_option":"-u "+f}))
print(fmp("夜の底が[MASK]なった。"))
で、カレントディレクトリにも置けることを確認しました。どうもありがとうございます。

yasuokaの日記: アイヌ語係り受け解析モデルroberta-base-ainu-ud-goeswith仮リリース
思うところあって、アイヌ語係り受け解析モデルroberta-base-ainu-ud-goeswithを試作してみた。カタカナでもローマ字でも動くようにしたつもりなのだが、解析精度がなかなか上がらない。とりあえず、Google Colaboratoryで動かしてみよう。

yasuokaの日記: ku-nlp/deberta-v2-base-japaneseは「夜の底が[MASK]なった。」の[MASK]に何を埋めてくるのか
京都大学の黒橋・褚・村脇研究室からku-nlp/deberta-v2-base-japaneseがリリースされたので、早速、使ってみたのだが、Juman++がトークナイザに必要だった。Google Colaboratoryだと、こんな感じ。

yasuokaの日記: 二郎神DeBERTa(V2)モデルによる現代中国語係り受け解析モデルとその解析精度

yasuokaの日記: deberta-base-chinese-ud-goeswithとStanzaとTrankitの精度比較
現代中国語係り受けモデルdeberta-base-chinese-ud-goeswithを試作したので、zh_gsdsimp-ud-test.conlluを使ってLAS/MLAS/BLEXを見てみた。Google Colaboratoryだとこんな感じ。