パスワードを忘れた? アカウント作成

こちらは、yasuokaさんのユーザページですよ。 みんなの日記はここから一覧を見ることができます。

16488827 journal
人工知能

yasuokaの日記: 「エチコプンテㇰ」の「エチ」は主語なのか目的語なのか

日記 by yasuoka

一昨昨日の日記で引用したアイヌ語の挨拶文を、何とかUniversal Dependenciesにしたいのだが、私(安岡孝一)の力不足もあって色々と悩ましい。たとえば「エチコプンテㇰ」や「エチエカノㇰ」の「エチ」(eci=)は、1人称(複数)の主語であると同時に、2人称(複数)の目的語なのだが、ならば、動詞からのリンクはnsubjとobjのどちらが適切なのか。nsubj:objという恐ろしいリンクもあるにはあるらしいのだ

16476387 journal
人工知能

yasuokaの日記: ku-nlp/deberta-v2-base-japaneseのトークナイザをDebertaV2TokenizerFastのままでJuman++に繋ぐには

日記 by yasuoka

私(安岡孝一)の1月13日の日記に対し、ku-nlp/deberta-v2-base-japaneseのトークナイザをBertJapaneseTokenizerに置き換えるとreturn_offsets_mapping=Trueが使えなくなってしまう、との御指摘をいただいた。確かにそのとおりだ。BertJapaneseTokenizerFastもどきで行こうかとも思ったが、ここはあえてPreTokenizer.customにJumanppTokenizerを突っ込んでみることにした。Google Colaboratoryだと、こんな感じ。

16470558 journal
人工知能

yasuokaの日記: ku-nlp/deberta-v2-base-japaneseのトークナイザをmecab-jumandic-utf8に切り替えるには

日記 by yasuoka

Google Colaboratoryの起動のたびにJuman++をインストールするのは、さすがに飽きてきたので、ku-nlp/deberta-v2-base-japaneseのトークナイザをmecab-jumandic-utf8に切り替えてみた。

16469899 journal
教育

yasuokaの日記: Universal Dependenciesで読む共通テストの『白氏文集』

日記 by yasuoka

大学入学共通テスト初日の「国語」第4問(漢文)は『白氏文集』が出題された。【予想問題】と【模擬答案】をUniversal Dependenciesで見てみよう。

# 【予想問題】
# text = 問
1    問    問    VERB    v,動詞,行為,伝達    _    0    root    _    Gloss=ask|SpaceAfter=No

16468542 journal
人工知能

yasuokaの日記: ku-nlp/deberta-v2-base-japaneseのトークナイザをBertJapaneseTokenizerに置き換える

日記 by yasuoka

1月5日の日記で紹介したku-nlp/deberta-v2-base-japaneseのトークナイザを、BertJapaneseTokenizerのjumanppで置き換えてみた。ただし、内部で使用しているpyknpがrhoknpに変更予定なこともあって、かなり汚い手法になってしまった。Google Colaboratoryだと、こんな感じ。

16441622 comment

yasuokaのコメント: Re:補足 (スコア 1) 3

!pip install transformers fugashi ipadic
import os
url="https://sociocom.jp/~data/2018-manbyo/data/MANBYO_201907_Dic-utf8.dic"
f=os.path.basename(url)
!test -f {f} || curl -LO {url}
from transformers import AutoTokenizer,pipeline
fmp=pipeline(task="fill-mask",model="alabnii/jmedroberta-base-manbyo-wordpiece",tokenizer=AutoTokenizer.from_pretrained("alabnii/jmedroberta-base-manbyo-wordpiece",mecab_kwargs={"mecab_option":"-u "+f}))
print(fmp("夜の底が[MASK]なった。"))

で、カレントディレクトリにも置けることを確認しました。どうもありがとうございます。

16433683 journal
人工知能

yasuokaの日記: アイヌ語係り受け解析モデルroberta-base-ainu-ud-goeswith仮リリース

日記 by yasuoka

思うところあって、アイヌ語係り受け解析モデルroberta-base-ainu-ud-goeswithを試作してみた。カタカナでもローマ字でも動くようにしたつもりなのだが、解析精度がなかなか上がらない。とりあえず、Google Colaboratoryで動かしてみよう。

16406243 journal
人工知能

yasuokaの日記: ku-nlp/deberta-v2-base-japaneseは「夜の底が[MASK]なった。」の[MASK]に何を埋めてくるのか

日記 by yasuoka

京都大学の黒橋・褚・村脇研究室からku-nlp/deberta-v2-base-japaneseがリリースされたので、早速、使ってみたのだが、Juman++がトークナイザに必要だった。Google Colaboratoryだと、こんな感じ。

16402092 journal
中国

yasuokaの日記: 二郎神DeBERTa(V2)モデルによる現代中国語係り受け解析モデルとその解析精度

日記 by yasuoka

年末年始に、二郎神DeBERTa(V2)モデル3種類(97M320M710M)をもとに、現代中国語係り受け解析モデルを3つ(base

16397423 journal
中国

yasuokaの日記: deberta-base-chinese-ud-goeswithとStanzaとTrankitの精度比較

日記 by yasuoka

現代中国語係り受けモデルdeberta-base-chinese-ud-goeswithを試作したので、zh_gsdsimp-ud-test.conlluを使ってLAS/MLAS/BLEXを見てみた。Google Colaboratoryだとこんな感じ。

typodupeerror

「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」

読み込み中...