パスワードを忘れた? アカウント作成

アカウントを作成して、スラドのモデレーションと日記の輪に参加しよう。

15449480 journal
教育

yasuokaの日記: CaboChaのpythonバインドにおける「バグ」と「構文解説」 1

日記 by yasuoka

ネットサーフィンしていたところ、Tech Teacher Blogで「Pythonで自然言語処理を行うには?具体的な手順を解説!」(2021年10月2日)という記事を見つけた。pythonで自然言語処理をおこないたいらしいのだが、どういうわけかTransformersGiNZAも出てこない。CaboChaに至っては、こんな感じ。

15427359 journal
日本

yasuokaの日記: 子の名づけにおける平仮名又は片仮名と三代戸籍禁止の原則 1

日記 by yasuoka

ネットサーフィンしていたところ、ダ・ヴィンチニュースで『自分と同じ漢字でも読み方が違えば子どもの名前にできる?』(2021年9月7日)という問題を見つけた。

【問い】日本では、親と同じ名前を子どもにつけることは原則認められていないが、母が「幸子(さちこ)」、子どもが「幸子(ゆきこ)」のように、読み方が違えば認められる。

もちろん答は「×」(cf.名古屋高等裁判所[昭和38年(ラ)第128号]昭和38年11月9日決定、『高等裁判所民事判例集』第16巻第8号664~669頁)だが、解説に妙なことが書かれていた。

15426680 journal
人工知能

yasuokaの日記: 「実験を行っています」をUniDic2UDはどう解析するのか

日記 by yasuoka

「実験を行っています」という文を、UniDic2UDがどう解析するのか、ちょっと確かめてみた。まずは、最新版にアップデート。

$ pip3 install -U unidic2ud

アップデートできたら、コマンドラインでダイレクトに解析してみよう。

15425383 journal
人工知能

yasuokaの日記: rinna/japanese-roberta-baseのトークナイザをRemBertTokenizerFastで置き換えるには

日記 by yasuoka

思うところあって、rinna/japanese-roberta-baseのトークナイザを、TransformersのRemBertTokenizerFastで置き換えてみた。T5Tokenizerはdo_lower_case=Trueを嫌っているし、まして[CLS]を付与したりしてくれないからだ。とりあえずGoogle Colaboratoryで、やってみよう。

15423437 journal
人工知能

yasuokaの日記: 日本語・中国語・タイ語の係り受け解析モジュールesuparリリース(仮)

日記 by yasuoka

9月14日一昨日昨日の日記の手法を一まとめにして、esuparというpython3モジュールとしてリリース(仮)した。日本語と中国語(簡化字・繁体字および文言文/漢文)とタイ語の係り受け解析がおこなえる。Linux系OSなら

$ pip3 install esupar --user

一発でインストール可能なはずだ。インストールがうまくいったら、まずは「太郎は花子が読んでいる本を次郎に渡した」を係り受け解析してみよう。

15422438 journal
中国

yasuokaの日記: chinese-bert-wwm-ext-uposによる現代中国語の係り受け解析

日記 by yasuoka

昨日の日記の手法をchinese-bert-wwm-ext-uposに適用して、現代中国語の係り受け解析モデルを試作してみた。Google Colaboratoryで動かしてみよう。

15421517 journal
人工知能

yasuokaの日記: roberta-base-thai-syllable-uposによるタイ語の係り受け解析

日記 by yasuoka

9月11日一昨日の日記の手法を合わせた上に、SuParの助けを借りて、タイ語の係り受け解析モデルを試作してみた。Google Colaboratoryで動かしてみよう。

15418219 journal
人工知能

yasuokaの日記: bert-base-japanese-uposとTokenClassificationPipelineでおこなう日本語形態素解析

日記 by yasuoka

昨日の日記の手法を使って、bert-base-japanese-uposのトークナイザもBertTokenizerFastに入れ換えてみたところ、TokenClassificationPipelineの結果が改善された。Transformersを最新版に更新しつつ、ちょっとやってみよう。

15416907 journal
人工知能

yasuokaの日記: Re: bert-large-japanese-charのトークナイザをBertTokenizerFastで置き換えるには

日記 by yasuoka

昨日の日記の読者から、tokenizers.pre_tokenizers.Split()を御教示いただいた。BertPreTokenizerの代わりに、このSplitをぶち込むことで、未知語も含めてバラバラに文字切りしてしまおう、という算段だ。昨日のmy.char.modelを、Google Colaboratoryで作り直してみよう。

15416427 comment

yasuokaのコメント: 未知語に対する動作 (スコア 1) 2

残念ながら、未知語に対する動作が異なっているようです。たとえば

print(tokenizer.tokenize("スペードは♠と♤がある"))

の結果が

['[UNK]']

1つだけになってしまってイマイチです。さて、どう改良したものか…。

15416077 journal
人工知能

yasuokaの日記: bert-large-japanese-charのトークナイザをBertTokenizerFastで置き換えるには 2

日記 by yasuoka

とあるイキサツで、cl-tohoku/bert-large-japanese-charのトークナイザを、TransformersのBertTokenizerFastで置き換えてみた。bert-large-japanese-charのトークナイザは文字切りをおこなうのだが、なぜかfugashiを要求していて、正直ちょっと辛いのだ。とりあえずGoogle Colaboratoryで、やってみよう。

15415417 journal
人工知能

yasuokaの日記: roberta-base-thai-syllable-uposによるタイ語の形態素解析

日記 by yasuoka

ネットサーフィンしていたところ、VISTEC-depaのサイトで「WangchanBERTa: Pre-trained Thai Language Model」というページを見つけた。タイ語の事前学習モデルを、色々と作成しているらしい。単語切りに際し4種類のアルゴリズムを試しているのだが、私(安岡孝一)が見た感じではsyllable(音節)を元にする手法が良さげである。ただ、wangchanberta-ba

15408305 journal
人工知能

yasuokaの日記: huggingface_hubのInferenceApiでUPOS品詞付与できる各言語モデル

日記 by yasuoka

8月31日の日記で書いたhuggingface_hubのInferenceApiだが、これを使ってUPOS品詞付与できるモデルを、ざっと一覧にしてみた。

typodupeerror

人生の大半の問題はスルー力で解決する -- スルー力研究専門家

読み込み中...