スラド Firehose: Filtered to '"authorfriend:Ryo.F" journal'
https://srad.jp/
アレゲなニュースと雑談サイト
ja-jp
Copyright (C) スラド, OSDN Corporation
2024-03-28T14:18:12+00:00
スラド
slashmaster@srad.jp
Technology
1970-01-01T00:00+00:00
2
hourly
スラド Firehose: Filtered to '"authorfriend:Ryo.F" journal'
https://srad.jp/static/srad_logo01.png
https://srad.jp/
-
書けた?
https://srad.jp/~patagon/journal/665324/
書けたよ。20224/2/23 午前4時
patagon
2024-02-22T19:03:57+00:00
-
[]
https://srad.jp/~patagon/journal/665309/
[]
patagon
2023-11-24T12:28:22+00:00
-
NDL古典籍OCR用RoBERTa-small ver.2は「いと小さく[MASK]ゆるはいとをかし」の[MASK]に何を埋めてくるのか
https://srad.jp/~yasuoka/journal/665267/
2021年12月23日の日記の読者から、NDL古典籍OCR用RoBERTa-small ver.2という単文字日本語モデルをお教えいただいた。以前、私(安岡孝一)が作ったroberta-small-japanese-aozora-charを再トレーニングして、TrOCRのデコーダーに使っているらしい。とりあえず、当該モデルをGoogle Colaboratoryで動かしてみよう。 !pip install transformers!test -f model-ver2.zip || curl -LO https://lab.ndl.go.jp/dataset/ndlkotensekiocr/trocr/model-ver2.zip!test -d model-ver2 || unzip model-ver2.zipfrom transformers import pipelinefmp=pipeline("fill-mask","model-ver2/decoder-roberta-v3")print(fmp("いと小さく[MASK]ゆるはいとをかし")) 「いと小さく[MASK]ゆるはいとをかし」を穴埋めさせてみたところ、私の手元では以下の結果になった。 [{'score': 0.16102387011051178, 'token': 95, 'token_str': 'み', 'sequence': 'いと小さくみゆるはいとをかし'}, {'score': 0.05442138388752937, 'token': 51, 'token_str': 'こ', 'sequence': 'いと小さくこゆるはいとをかし'}, {'score': 0.050991836935281754, 'token': 45, 'token_str': 'き', 'sequence': 'いと小さくきゆるはいとをかし'}, {'score': 0.04673411697149277, 'token': 75, 'token_str': 'に', 'sequence': 'いと小さくにゆるはいとをかし'}, {'score': 0.0423908531665802, 'token': 108, 'token_str': 'れ', 'sequence': 'いと小さくれゆるはいとをかし'}] 漢字の「見」ではなく、ひらがなの「み」を埋めてきているが、それでも素晴らしい。だとすると、たとえば拓本文字データベースと絡めて再トレーニングすれば、さて、何かできるかなぁ。
yasuoka
2023-11-21T03:12:02+00:00
-
[]
https://srad.jp/~patagon/journal/665261/
[]
patagon
2023-11-20T13:25:31+00:00
-
アイヌ語の「イワイサルㇱペ」は「虎」なのか「オオカミ」なのか「六尾獣」なのか
https://srad.jp/~yasuoka/journal/665205/
一昨昨日の日記に関連して、アイヌ語の「イワイサルㇱペ」を調べていたところ、B・ピウスツキ『樺太アイヌの言語と民話についての研究資料<26>病弱な者でも有能な憑き神によって開運する由来話』(創造の世界, 第77号 (1991年2月), pp.138-145)に、以下の文章を見つけた(p.140)。 ネヤイケヘ そうしたら(ちょうど、そこへ)アンポニウネ ぼくの年下のホㇱキラムフ 兄さんがキラアニエㇸマヌ 逃げてやってきた。オーポニ (よく見ると)その後をイワイサルㇱカムイ 六尾をもつ神(という魔性のオオカミ)がアンホㇱキラムフ ぼくの兄さんをノㇱパ 追いかけていた。アノㇱキラムフ ぼくの兄さんをアネソㇹキ ぼくは(わきに手早く)よけ(てやり過ごし)た。(夢中に兄さんを追いかける性悪のオオカミにぼくは目をすえて)アヌッソロマレペ ぼくが(かねて)内ふところにしのばせていたものをアヌイナマヌ ぼくは取り出した。トイキエムシアニ (鞘を払い)トイキ(という名)刀でイワイサルㇱペ 六尾をもつ(というオオカミの)奴をアンタウケ ぼくはたたき斬った。アルパㇵノㇱキケタ (みごと)ちょうど、ど真中をアントゥイテㇸテ ぼくは斬(ってしま)った。 「虎」ではなく「オオカミ」らしい。Bronisław Piłsudski『Materials for the Study of the Ainu Language and Folklore』(Cracow: Imperical Academy of Sciences, 1912)の原文にあたってみよう(pp.239-240 [in Nr.27. Dictated (December 1903) by Nita aged 28 of village of Aj.])。Nejàjḱehé am-ponínue hóśki rámhu kira ani éx manu, opóni ivaj-saruś kamúi an-hóśki rámhu nośpa. Anóśki rámhu anesóxki. An-usòmarepé anújna manu. Tóiki emuś-ani ivaj-saruśpe antáwḱe, arúpax nóśḱe-ḱeta antújtexte.
Meanwhile the younger of my elder brothers came
running; following (and) pursuing my brother, (there came)
a beast with six tails. I made way for my elder brother.
I seized the thing in my bosom: with (my) earthen sword,
I struck the six-tailed beast; just in the middle did I cut it
in two.
原文は「虎」とも「オオカミ」とも書いていないようだ。日本語訳をおこなった藤村久和は「H・Y媼によれば、この動物はオオカミであって」としているものの、それを裏付ける他の文献が引用されているわけでもない。また、Piłsudski自身は、アイヌ語の「horoḱéu」を「wolf」と訳している(『Materials for the Study of the Ainu Language and Folklore』pp.199-213)。さて、どうしたものかな。
yasuoka
2023-11-17T08:51:55+00:00
-
[徒然]午後7時20分
https://srad.jp/~patagon/journal/665193/
午後7時20分まで仕事。
patagon
2023-11-16T13:48:16+00:00
-
Universal Dependencies 2.13がリリース
https://srad.jp/~yasuoka/journal/665185/
Universal Dependencies 2.13がリリースされた、との連絡をもらった。半年前のUniversal Dependencies 2.12と較べて、Classical Armenian、Georgian、Haitian Creole、Highland Puebla Nahuatl、Macedonian、Middle French、Vepsが増えており、148の言語にまたがるツリーバンクとなっている。私(安岡孝一)個人としては、deplacyでМакедонскиを扱う際に精度が上がらず苦労したので、UD_Macedonian-MTBによるマケドニア語サポートはうれしい限りである。また、現代中国語(簡化字)はUD_Chinese-BeginnerとUD_Chinese-PatentCharが、イタリア語はUD_Italian-Oldが追加されるなど、どんどん拡大が続いている。とりあえず、先月時点での係り受け解析ツールの状況を『Universal DependenciesとBERT/RoBERTa/DeBERTaモデルによる多言語情報処理』(2023年10月版)にざっとまとめておいたので、参考にしてほしい。
yasuoka
2023-11-16T06:35:58+00:00
-
[徒然]午後6時20分
https://srad.jp/~patagon/journal/665181/
午後6時20分まで仕事。
patagon
2023-11-15T13:35:44+00:00
-
[徒然]午後6時05分
https://srad.jp/~patagon/journal/665158/
午後6時05分まで仕事。
patagon
2023-11-14T13:37:49+00:00
-
アイヌ語に「虎」は無いのか
https://srad.jp/~yasuoka/journal/665146/
思うところあって、アイヌ語で「虎」をどう言うのか調べていたところ、Михаил Михайлович Добротворский『Аинско-русскій словарь』(Казань: Университецкая типография, 1875)の語彙番号1519に「虎」を見つけた。 Ивайсаруспѐ. С. тигръ (въ древности были на Сахалинѣ).
この記述を信じるなら、昔、樺太(サハリン)には「虎」がいたらしい。ただ、これ「イワイサルㇱペ」(iwaysaruspe)だとして、iway-sar-us-peなのかしら?
yasuoka
2023-11-14T03:35:07+00:00