パスワードを忘れた? アカウント作成

HODAさんのトモダチの日記。 アナウンス:スラドとOSDNは受け入れ先を募集中です。

21632233 journal
日記

yasuokaの日記: スラドからQiitaに移動 1

日記 by yasuoka

スラドの日記が思うように書けなくなって久しいので、最近はQiitaに退避中。また戻ってきたいけどなぁ。

21620774 journal
日記

r5の日記: 日記作れた

日記 by r5

特に日記にするようなお話もないのですが(笑)
ほんのりリアクション貰える貴重な空間だったんで、復活して欲しいのですが…

ブログ、ついった、5ch、はてな系、どっかのコメント欄とも違うんですよね。

19755608 journal
人工知能

yasuokaの日記: NDL古典籍OCR用RoBERTa-small ver.2は「いと小さく[MASK]ゆるはいとをかし」の[MASK]に何を埋めてくるのか

日記 by yasuoka

2021年12月23日の日記の読者から、NDL古典籍OCR用RoBERTa-small ver.2という単文字日本語モデルをお教えいただいた。以前、私(安岡孝一)が作ったroberta-small-japanese-aozora-charを再トレーニングして、TrOCRのデコーダーに使っているらしい。とりあえず、当該モデルをGoogle Colaboratoryで動かしてみよう。

!pip install transformers
!test -f model-ver2.zip || curl -LO https://lab.ndl.go.jp/dataset/ndlkotensekiocr/trocr/model-ver2.zip
!test -d model-ver2 || unzip model-ver2.zip
from transformers import pipeline
fmp=pipeline("fill-mask","model-ver2/decoder-roberta-v3")
print(fmp("いと小さく[MASK]ゆるはいとをかし"))

「いと小さく[MASK]ゆるはいとをかし」を穴埋めさせてみたところ、私の手元では以下の結果になった。

[{'score': 0.16102387011051178, 'token': 95, 'token_str': 'み', 'sequence': 'いと小さくみゆるはいとをかし'}, {'score': 0.05442138388752937, 'token': 51, 'token_str': 'こ', 'sequence': 'いと小さくこゆるはいとをかし'}, {'score': 0.050991836935281754, 'token': 45, 'token_str': 'き', 'sequence': 'いと小さくきゆるはいとをかし'}, {'score': 0.04673411697149277, 'token': 75, 'token_str': 'に', 'sequence': 'いと小さくにゆるはいとをかし'}, {'score': 0.0423908531665802, 'token': 108, 'token_str': 'れ', 'sequence': 'いと小さくれゆるはいとをかし'}]

漢字の「見」ではなく、ひらがなの「み」を埋めてきているが、それでも素晴らしい。だとすると、たとえば拓本文字データベースと絡めて再トレーニングすれば、さて、何かできるかなぁ。

19000471 journal
日記

hrokoの日記: モデレート権が6ポイントが回ってきました (11月01回目)

日記 by hroko

モデレート権の周期メモです。

2023年
11月 18日
10月 03日
09月 17日、29日
08月 11日
07月 14日、30日
06月 01日、15日、27日
05月 09日、16日、20日
04月 04日、08日、26日
03月 02日、06日、11日、24日
02月 14日、22日、27日
01月 11日、14日、28日

2022年
12月 02日、20日、30日
11月 08日、23日、26日
10月 01日、15日
09月 05日、09日、19日
08月 05日、17日
07月 02日、15日、19日
06月 07日、11日、24日
05月 01日、18日、23日、30日
04月 05日、15日
03月 12日
02月 21日
01月 06日 、17日、27日

2021年
12月 10日
11月 09日
10月 20日
09月 02日
08月 02日、09日、14日、24日
07月 02日、17日、22日、27日
06月 07日、11日
05月 14日、19日、27日
04月 29日
03月 03日、26日
02月 05日、19日
01月 15日

2020年
12月 22日,31日
11月 20日、30日
10月 12日
09月 04日、09日、20日、25日
08月 01日、08日、13日、19日、23日、29日
07月 07日、24日
06月 03日、17日、22日、26日
05月 14日、19日、29日
04月 02日、13日、17日、21日、27日
03月 12日、26日
02月 09日、24日
01月 01日、07日、11日、23日、29日

2019年
12月 05日、20日
11月 11日、17日
10月 16日、31日
09月 09日、20日
08月 22日、29日
07月 02日、09日、18日、31日
06月 12日
05月 20日、26日
04月 09日、17日、26日
03月 04日、15日、28日
02月 05日、22日
01月 01日、28日

2018年
12月 14日
11月 05日、13日
10月 03日、21日
09月 07日、12日、25日
08月 19日、26日
07月 15日、22日
06月 10日
05月 29日
04月 16日
03月 11日
02月 09日、15日
01月 11日、21日、29日

2017年
11月 27日
10月 05日
09月 23日
08月 02日、24日、30日
07月 19日
06月 16日、25日
05月 05日、10日、16日、27日
04月 02日、18日、28日
03月 11日、24日
02月 12日、20日
01月 11日、17日、26日

2016年
12月 08日、13日、23日、29日
11月 05日、16日、29日
10月 05日、13日、21日、29日

18782217 journal
日本

yasuokaの日記: アイヌ語の「イワイサルㇱペ」は「虎」なのか「オオカミ」なのか「六尾獣」なのか

日記 by yasuoka

一昨昨日の日記に関連して、アイヌ語の「イワイサルㇱペ」を調べていたところ、B・ピウスツキ『樺太アイヌの言語と民話についての研究資料<26>病弱な者でも有能な憑き神によって開運する由来話』(創造の世界, 第77号 (1991年2月), pp.138-145)に、以下の文章を見つけた(p.140)。

ネヤイケヘ         そうしたら(ちょうど、そこへ)
アンポニウネ       ぼくの年下の
ホㇱキラムフ       兄さんが
キラアニエㇸマヌ   逃げてやってきた。
オーポニ           (よく見ると)その後を
イワイサルㇱカムイ 六尾をもつ神(という魔性のオオカミ)が
アンホㇱキラムフ   ぼくの兄さんを
ノㇱパ             追いかけていた。
アノㇱキラムフ     ぼくの兄さんを
アネソㇹキ         ぼくは(わきに手早く)よけ(てやり過ごし)た。(夢中に兄さんを追いかける性悪のオオカミにぼくは目をすえて)
アヌッソロマレペ   ぼくが(かねて)内ふところにしのばせていたものを
アヌイナマヌ       ぼくは取り出した。
トイキエムシアニ   (鞘を払い)トイキ(という名)刀で
イワイサルㇱペ     六尾をもつ(というオオカミの)奴を
アンタウケ         ぼくはたたき斬った。
アルパㇵノㇱキケタ (みごと)ちょうど、ど真中を
アントゥイテㇸテ   ぼくは斬(ってしま)った。

「虎」ではなく「オオカミ」らしい。Bronisław Piłsudski『Materials for the Study of the Ainu Language and Folklore』(Cracow: Imperical Academy of Sciences, 1912)の原文にあたってみよう(pp.239-240 [in Nr.27. Dictated (December 1903) by Nita aged 28 of village of Aj.])。

Nejàjḱehé am-ponínue hóśki rámhu kira ani éx manu, opóni ivaj-saruś kamúi an-hóśki rámhu nośpa. Anóśki rámhu anesóxki. An-usòmarepé anújna manu. Tóiki emuś-ani ivaj-saruśpe antáwḱe, arúpax nóśḱe-ḱeta antújtexte.

Meanwhile the younger of my elder brothers came running; following (and) pursuing my brother, (there came) a beast with six tails. I made way for my elder brother. I seized the thing in my bosom: with (my) earthen sword, I struck the six-tailed beast; just in the middle did I cut it in two.

原文は「虎」とも「オオカミ」とも書いていないようだ。日本語訳をおこなった藤村久和は「H・Y媼によれば、この動物はオオカミであって」としているものの、それを裏付ける他の文献が引用されているわけでもない。また、Piłsudski自身は、アイヌ語の「horoḱéu」を「wolf」と訳している(『Materials for the Study of the Ainu Language and Folklore』pp.199-213)。さて、どうしたものかな。

18548046 journal
人工知能

yasuokaの日記: Universal Dependencies 2.13がリリース

日記 by yasuoka

Universal Dependencies 2.13がリリースされた、との連絡をもらった。半年前のUniversal Dependencies 2.12と較べて、Classical Armenian、Georgian、Haitian Creole、Highland Puebla Nahuatl、Macedonian、Middle French、Vepsが増えており、148の言語にまたがるツリーバンクとなっている。私(安岡孝一)個人としては、deplacyМакедонскиを扱う際に精度が上がらず苦労したので、UD_Macedonian-MTBによるマケドニア語サポートはうれしい限りである。また、現代中国語(簡化字)はUD_Chinese-BeginnerUD_Chinese-PatentCharが、イタリア語はUD_Italian-Oldが追加されるなど、どんどん拡大が続いている。とりあえず、先月時点での係り受け解析ツールの状況を『Universal DependenciesとBERT/RoBERTa/DeBERTaモデルによる多言語情報処理』(2023年10月版)にざっとまとめておいたので、参考にしてほしい。

18219623 journal
日本

yasuokaの日記: アイヌ語に「虎」は無いのか

日記 by yasuoka

思うところあって、アイヌ語で「虎」をどう言うのか調べていたところ、Михаил Михайлович Добротворский『Аинско-русскій словарь』(Казань: Университецкая типография, 1875)の語彙番号1519に「虎」を見つけた。

Ивайсаруспѐ. С. тигръ (въ древности были на Сахалинѣ).

この記述を信じるなら、昔、樺太(サハリン)には「虎」がいたらしい。ただ、これ「イワイサルㇱペ」(iwaysaruspe)だとして、iway-sar-us-peなのかしら?

typodupeerror

UNIXはただ死んだだけでなく、本当にひどい臭いを放ち始めている -- あるソフトウェアエンジニア

読み込み中...