パスワードを忘れた? アカウント作成

15505120 journal
人工知能

yasuokaの日記: 「諸國地頭令抑留年貢所當事」の「令」は動詞マーカーなのか

日記 by yasuoka

永澤済『日本中世和化漢文における非使役「令」の機能』(言語研究、第159号(2021年3月)、pp.37-68)にもとづいて、「諸國地頭令抑留年貢所當事」をUniversal Dependenciesで私(安岡孝一)なりに書いてみた。

15503915 journal
中国

yasuokaの日記: 古典中国語標点モデルethanyt/guwen-puncをGoogle Colaboratoryで動かすには

日記 by yasuoka

思うところあって、ethanyt/guwen-puncをGoogle Colaboratoryで試してみた。

15498302 journal
データベース

yasuokaの日記: tatoebaデータセットにおけるアイヌ語ain日本語jaパラレルコーパス

日記 by yasuoka

私(安岡孝一)の11月6日の日記の読者から、datasetsが1.16.1にバージョンアップされて、最新のtatoeba使えるようになった、との連絡をいただいた。これで、アイヌ語と日本語のペアもダウンロードできるようになったので、さっそく試してみよう。

15496770 journal
人工知能

yasuokaの日記: Transformersによる品詞付与をdeplacyで可視化するには

日記 by yasuoka

とあるイキサツで、Transformersによる品詞付与をTokenClassificationPipelineではなく、Google Colaboratory上のdeplacyでやる羽目になった。

15495573 journal
数学

yasuokaの日記: 横浜地方検察庁検事正の考える「尤度比」

日記 by yasuoka

東京地方検察庁検事の考える「尤度比」の読者から、横浜地方検察庁検事正の北村篤が書いた『DNA鑑定の確率計算』(島大法學、第64巻、第1・2合併号(2021年3月)、pp.33-71)という論文を教えてもらった。確率計算をおこなう論文のはずなのに、統計学的な考え方が見事に欠落しており、読んでいて痛々しかった。

アレルの有無の情報だけに基づく確率計算の考え方は,例えば『DNA鑑定とタイピング』( J.M.Butler著,福島弘文ほか監訳,「Butler」と略記する。)などで紹介されているが,具体的な計算方法(計算式)は十分には説明されていない。

15488423 journal
日本

yasuokaの日記: XNUMXつの言語、XNUMXつの翻訳者 2

日記 by yasuoka

GTranslateの「9ステップのウェブサイト翻訳プロセスとその費用」というページの9ステップ目で、以下の文にブチ当たった。

2. XNUMXつの言語、XNUMXつの翻訳者

まあ、XNUMXを何か数字に読み替えればいいのだけど、こういうところの翻訳サービスを信用する人たちって、どの程度いるのかしら?

15486954 journal
交通

yasuokaの日記: 宮交シティ→高千穂神社→SAKURA MACHI Kumamoto路線バスの旅

日記 by yasuoka

とある事情で、宮交シティからSAKURA MACHI Kumamotoまで、途中で高千穂神社に参拝しつつ、路線バスで移動することを考えてみた。この日記の読者の中に、そういう情報が役立つ人がいるとは思えないのだが、とりあえず公表する。

15479449 journal
人工知能

yasuokaの日記: Universal Dependencies 2.9がリリース

日記 by yasuoka

Universal Dependencies 2.9が無事にリリースされたとの御連絡をいただいた。11月15日にリリース予定だったので、5日ほど前倒しだが「もしバグがあったら直す」らしいので、使う際には注意してほしい。

15477031 journal
人工知能

yasuokaの日記: アイヌ語Universal Dependenciesで書く「モルラン ワ エㇰ 大学生 クネ。」

日記 by yasuoka

昨日の日記の「モルラン ワ エㇰ 大学生 クネ。」を、『Universal Dependenciesによるアイヌ語テキストコーパス』(情報処理学会研究報告, 2021-CH-127, No.5, 2021年8月28日)に基づいて書いてみた。

15476505 journal
教育

yasuokaの日記: 「タパンペ クコル カッコ ネ。」「大学生 クネ。」とSTVアイヌ語ラジオ講座

日記 by yasuoka

昨日の日記の「タパンペ クコル カッコ ネ。」という文を探していたところ、STVアイヌ語ラジオ講座テキスト平成18年度レッスン11(2006年6月11日放送)で、それらしい練習問題「単語を並び換えてアイヌ語の文章を作って下さい」を見つけた。

15475880 journal
データベース

yasuokaの日記: tatoebaデータセットにおけるアイヌ語ain英語enパラレルコーパス

日記 by yasuoka

私(安岡孝一)の11月3日の日記の読者から、tatoebaの359言語にはアイヌ語が含まれている、との情報をいただいた。ちょっと試してみよう。

$ pip3 install -U datasets --user
$ python3
>>> from datasets import load_dataset
>>> d=load_dataset("tatoeba",lang1="ain",lang2="ja")
FileNotFoundError: Couldn't find file at https://object.pouta.csc.fi/OPUS-Tatoeba/v2020-11-09/moses/ain-ja.txt.zip

15475000 journal
人工知能

yasuokaの日記: roberta-small-japanese-luw-uposは「四半期連結会計期間末日満期手形」を1語とみなすのか

日記 by yasuoka

私(安岡孝一)の昨日の日記でリリースしたroberta-small-japanese-aozoraを、UD_Japanese-GSDLUWでファインチューニングして、日本語「長単位」UPOS品詞付与モデルroberta-small-japanese-luw-upos

15473185 journal
人工知能

yasuokaの日記: 青空文庫RoBERTaモデルroberta-small-japanese-aozoraリリース

日記 by yasuoka

青空文庫(2.37億字)とJapanese-LUW-Tokenizerをもとに、日本語RoBERTaモデルroberta-small-japanese-aozora作ってみた。12層・隠れサイズ256・4ヘッド・トークン幅128としたものの、7772556文3億字(元データ2.37億字+異

15472593 journal
中国

yasuokaの日記: tatoebaデータセットにおける日本語ja古典中国語lzhパラレルコーパス

日記 by yasuoka

HuggingFaceデータセットのtatoebaは、359の言語に関するパラレルコーパスとなっており、日本語と古典中国語のペアも含まれているらしい。ちょっと試してみよう。

15471586 journal
中国

yasuokaの日記: WiLI-2018データセットのlzhは古典中国語なのか 1

日記 by yasuoka

ネットサーフィンしていたところ、HuggingFaceのデータセットにWiLI-2018というのを見つけた。何でも、235種類の言語に対して、それぞれ1000段落ずつ集めてきたデータセットらしく、日本語や古典中国語も含まれているらしい。最新のdatasetsをインストールしつつ、ちょっと見てみよう。

typodupeerror

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

読み込み中...