kitakitsuneさんのトモダチの日記。 アナウンス:スラドとOSDNは受け入れ先を募集中です。
yasuokaの日記: NDL古典籍OCR用RoBERTa-small ver.2は「いと小さく[MASK]ゆるはいとをかし」の[MASK]に何を埋めてくるのか
2021年12月23日の日記の読者から、NDL古典籍OCR用RoBERTa-small ver.2という単文字日本語モデルをお教えいただいた。以前、私(安岡孝一)が作ったroberta-small-japanese-aozora-charを再トレーニングして、TrOCRのデコーダーに使っているらしい。とりあえず、当該モデルをGoogle Colaboratoryで動かしてみよう。
!pip install transformers
!test -f model-ver2.zip || curl -LO https://lab.ndl.go.jp/dataset/ndlkotensekiocr/trocr/model-ver2.zip
!test -d model-ver2 || unzip model-ver2.zip
from transformers import pipeline
fmp=pipeline("fill-mask","model-ver2/decoder-roberta-v3")
print(fmp("いと小さく[MASK]ゆるはいとをかし"))
「いと小さく[MASK]ゆるはいとをかし」を穴埋めさせてみたところ、私の手元では以下の結果になった。
[{'score': 0.16102387011051178, 'token': 95, 'token_str': 'み', 'sequence': 'いと小さくみゆるはいとをかし'}, {'score': 0.05442138388752937, 'token': 51, 'token_str': 'こ', 'sequence': 'いと小さくこゆるはいとをかし'}, {'score': 0.050991836935281754, 'token': 45, 'token_str': 'き', 'sequence': 'いと小さくきゆるはいとをかし'}, {'score': 0.04673411697149277, 'token': 75, 'token_str': 'に', 'sequence': 'いと小さくにゆるはいとをかし'}, {'score': 0.0423908531665802, 'token': 108, 'token_str': 'れ', 'sequence': 'いと小さくれゆるはいとをかし'}]
漢字の「見」ではなく、ひらがなの「み」を埋めてきているが、それでも素晴らしい。だとすると、たとえば拓本文字データベースと絡めて再トレーニングすれば、さて、何かできるかなぁ。
yasuokaの日記: アイヌ語の「イワイサルㇱペ」は「虎」なのか「オオカミ」なのか「六尾獣」なのか
一昨昨日の日記に関連して、アイヌ語の「イワイサルㇱペ」を調べていたところ、B・ピウスツキ『樺太アイヌの言語と民話についての研究資料<26>病弱な者でも有能な憑き神によって開運する由来話』(創造の世界, 第77号 (1991年2月), pp.138-145)に、以下の文章を見つけた(p.140)。
ネヤイケヘ そうしたら(ちょうど、そこへ)
アンポニウネ ぼくの年下の
ホㇱキラムフ 兄さんが
キラアニエㇸマヌ 逃げてやってきた。
オーポニ (よく見ると)その後を
イワイサルㇱカムイ 六尾をもつ神(という魔性のオオカミ)が
アンホㇱキラムフ ぼくの兄さんを
ノㇱパ 追いかけていた。
アノㇱキラムフ ぼくの兄さんを
アネソㇹキ ぼくは(わきに手早く)よけ(てやり過ごし)た。(夢中に兄さんを追いかける性悪のオオカミにぼくは目をすえて)
アヌッソロマレペ ぼくが(かねて)内ふところにしのばせていたものを
アヌイナマヌ ぼくは取り出した。
トイキエムシアニ (鞘を払い)トイキ(という名)刀で
イワイサルㇱペ 六尾をもつ(というオオカミの)奴を
アンタウケ ぼくはたたき斬った。
アルパㇵノㇱキケタ (みごと)ちょうど、ど真中を
アントゥイテㇸテ ぼくは斬(ってしま)った。
「虎」ではなく「オオカミ」らしい。Bronisław Piłsudski『Materials for the Study of the Ainu Language and Folklore』(Cracow: Imperical Academy of Sciences, 1912)の原文にあたってみよう(pp.239-240 [in Nr.27. Dictated (December 1903) by Nita aged 28 of village of Aj.])。
Nejàjḱehé am-ponínue hóśki rámhu kira ani éx manu, opóni ivaj-saruś kamúi an-hóśki rámhu nośpa. Anóśki rámhu anesóxki. An-usòmarepé anújna manu. Tóiki emuś-ani ivaj-saruśpe antáwḱe, arúpax nóśḱe-ḱeta antújtexte.
Meanwhile the younger of my elder brothers came running; following (and) pursuing my brother, (there came) a beast with six tails. I made way for my elder brother. I seized the thing in my bosom: with (my) earthen sword, I struck the six-tailed beast; just in the middle did I cut it in two.
原文は「虎」とも「オオカミ」とも書いていないようだ。日本語訳をおこなった藤村久和は「H・Y媼によれば、この動物はオオカミであって」としているものの、それを裏付ける他の文献が引用されているわけでもない。また、Piłsudski自身は、アイヌ語の「horoḱéu」を「wolf」と訳している(『Materials for the Study of the Ainu Language and Folklore』pp.199-213)。さて、どうしたものかな。
yasuokaの日記: Universal Dependencies 2.13がリリース
Universal Dependencies 2.13がリリースされた、との連絡をもらった。半年前のUniversal Dependencies 2.12と較べて、Classical Armenian、Georgian、Haitian Creole、Highland Puebla Nahuatl、Macedonian、Middle French、Vepsが増えており、148の言語にまたがるツリーバンクとなっている。私(安岡孝一)個人としては、deplacyでМакедонскиを扱う際に精度が上がらず苦労したので、UD_Macedonian-MTBによるマケドニア語サポートはうれしい限りである。また、現代中国語(簡化字)はUD_Chinese-BeginnerとUD_Chinese-PatentCharが、イタリア語はUD_Italian-Oldが追加されるなど、どんどん拡大が続いている。とりあえず、先月時点での係り受け解析ツールの状況を『Universal DependenciesとBERT/RoBERTa/DeBERTaモデルによる多言語情報処理』(2023年10月版)にざっとまとめておいたので、参考にしてほしい。
yasuokaの日記: アイヌ語に「虎」は無いのか
思うところあって、アイヌ語で「虎」をどう言うのか調べていたところ、Михаил Михайлович Добротворский『Аинско-русскій словарь』(Казань: Университецкая типография, 1875)の語彙番号1519に「虎」を見つけた。
Ивайсаруспѐ. С. тигръ (въ древности были на Сахалинѣ).
この記述を信じるなら、昔、樺太(サハリン)には「虎」がいたらしい。ただ、これ「イワイサルㇱペ」(iwaysaruspe)だとして、iway-sar-us-peなのかしら?
TarZの日記: ローリングシャッター歪みで懐古ネタ(雑記)
フォーカルプレーンシャッターの仕組み上、メカニカルシャッターだろうと歪みはあり得る。
にもかかわらず、「電子シャッターだと動く被写体は歪みが出る。メカシャッターなら歪みが出ない」という印象が広まったのは、イメージセンサーがCCDからCMOSに切替わり始めた頃だったっけかな。一般的なフォーカルプレーンシャッターの幕速に比べて、当時のCMOSセンサーの読み出しが遅すぎたせいですかね?(よく知らない)
歪みの作例だと横方向に移動する列車が定番だけど、明るい野外で高速で回転するもの撮影しても歪みは出るし、暗い室内でへんにモードいじってマニュアル撮影にして、ストロボ同調に失敗した写真(歪みとしては現れないが、写真の下の一部分だけ暗い)なんてのも銀塩時代あるあるです。
類似した原理で歪みをむしろ積極的に活用するというのも昔はよくありました。コピー機でスキャン中にコピー元の紙を動かして歪んだコピーにするアートとか、(撮影じゃなくて表示の方で)古いコンピュータゲームなどにおけるラスタスクロールなんてのも。
ラスタスクロールは、決まった画像パターンのタイルを組みあわせることが表示方法のメインだった8~16ビット時代、画面の広い範囲で画像を変化させることのできる貴重な表現手段でございました。
古くはレースゲームでの道路の表示でも使われてましたが、度肝を抜かれたのはマグマックスかなあ。うーん、懐かしい。
TarZの日記: スペースハリアーの精神的(?)続編 Air Twister 本日発売 2
プレイ動画見てみたけど、主人公とか敵キャラの見た目(弾とか正多面体とか骨の竜とか)はスぺハリだけど、複数ターゲットにロックオンしたホーミング弾が軌跡を描きつつ飛んでいくのはアフターバーナーとかギャラクシーフォース(家庭用ゲームならパンツァードラグーン)な感じ?
どう考えても現代的なゲームじゃないんだけど、とりあえず買うよね、こんなの出たら。
それはそれとして、巨大なガチョウっぽい鳥に跨るのは「ニルスのふしぎな旅」的な良さがあるけど、ダンボ的な動物に乗馬(象?)して空戦するという世界感はどういうことなのか。
(註:↑プレイ動画によると、なんかいろいろな動物に乗って戦うこともあるみたいです)
yasuokaの日記: 『蝦夷見聞記』の「ニヲシケボイ〱 チブカルハ トツブ ウヱクシハ ヲシケ カモイ ヲマレハ モムアンベ タンコタン シレバヤッカイ」をUDで読む
10月21日の日記の続きだが、秦檍磨(村上島之允)『蝦夷見聞記』(北海道大学附属図書館 旧記/0061)の5枚目画像には「ニヲシケボイ〱 チブカルハ トツブ ウヱクシハ ヲシケ カモイ ヲマレハ モムアンベ タンコタン シレバヤッカイ」というカタカナ書きのアイヌ語が含まれている。私(安岡孝一)が読む限り「ni uske epoypoye cip karpa tup u-e-kuspa uske kamuy omarepa mom an pe tan kotan sir epa yakka」のようなので、ざっとUniversal Dependenciesで書いてみた。
# text = ニヲシケボイ〱 チブカルハ トツブ ウヱクシハ ヲシケ カモイ ヲマレハ モムアンベ タンコタン シレバヤッカイ
1 ニ ni NOUN 名詞 _ 2 nmod _ SpaceAfter=No
2 ヲシケ uske NOUN 名詞 _ 3 obj _ SpaceAfter=No
3 ボイ〱 epoypoye VERB 他動詞 _ 4 acl _ _
4 チブ cip NOUN 名詞 _ 5 obj _ SpaceAfter=No
5 カルハ karpa VERB 他動詞 _ 10 advcl _ _
6 トツブ tup NUM 数詞 _ 7 obj _ _
7 ウヱクシハ u-e-kuspa VERB 他動詞 _ 8 acl _ _
8 ヲシケ uske NOUN 形式名詞 _ 10 iobj _ _
9 カモイ kamuy NOUN 名詞 _ 10 obj _ _
10 ヲマレハ omarepa VERB 他動詞 _ 17 advcl _ _
11 モム mom VERB 自動詞 _ 13 acl _ SpaceAfter=No
12 アン an AUX 助動詞 _ 11 aux _ SpaceAfter=No
13 ベ pe NOUN 形式名詞 _ 17 nsubj _ _
14 タン tan DET 連体詞 _ 15 det _ SpaceAfter=No
15 コタン kotan NOUN 名詞 _ 16 nmod _ _
16-17 シレバ _ _ _ _ _ _ _ _ SpaceAfter=No
16 シㇼ sir NOUN 名詞 _ 17 obj _ SpaceAfter=No
17 エパ epa VERB 他動詞 _ 0 root _ SpaceAfter=No
18 ヤッカイ yakka SCONJ 接続助詞 _ 17 mark _ _
アイヌ語UDエディターで可視化すると、こんな感じ。動詞の複数形がやたらと出てきて、複数のkamuyが絡んでるのが良く分かる文だ。ただ、この文は『蝦夷見聞記』には出てくるが、なぜか『蝦夷島奇觀』には現れない。どうなってるんだろ。
yasuokaの日記: Carpenters『Touch Me When We're Dancing』の間奏でTom Scottは何を吹いているのか
思うところあって、Carpenters『Touch Me When We're Dancing』のブッ飛んだ間奏のコード進行を耳コピし直してみた。ただ、この部分がト長調の中でいかにブッ飛んでるかを示すために、全体のコード進行をざっと見てみることにする。
Gmaj7 Em7 Cmaj7 Am7 Am7onD
Gmaj7 Em7 Cmaj7 Am7 Am7onD
Gmaj7 Em7 Cmaj7 Gmaj7
Gmaj7 Em7 Cmaj7 Gmaj7
Am7 G6 Cmaj7 Am7 Am7onD
Cmaj7 Am7 D9 Cmaj7 Bm7 Gmaj7
Cmaj7 Am7 D9 Em7 A7 Am7 Am7onD
Gmaj7 Em7 Cmaj7 Am7 Am7onD
Gmaj7 Em7 Cmaj7 Gmaj7
Gmaj7 Em7 Cmaj7 Gmaj7
Am7 G6 Cmaj7 Am7 Am7onD
Cmaj7 Am7 D9 Cmaj7 Bm7 Gmaj7
Cmaj7 Am7 D9 Cmaj7 Am7onD
G7onF F#m7b5 B7 DonE Em Em Em7onD
Cmaj7 Em7onB A7sus4 A7 Am7 D9 C#dim Am7onD
Cmaj7 Am7 D9 Cmaj7 Bm7 Gmaj7
Cmaj7 Am7 D9 Cmaj7 Am7onD
Cmaj7 Am7 D9 Cmaj7 Bm7 Gmaj7
Cmaj7 Am7 D9 Cmaj7 Am7onD
なぜそこで突然G7onFがブチ込まれて、Tom ScottがBの音を吹いているのか、ワケがわからない。わからないがカッコいい。でも結果として、ト長調へ戻るのにかなり苦労していて、C#dimなんていう荒技を繰り出すことになっている。これ、サックスソロとるの大変だったろうなあ。
yasuokaの日記: 象潟版『蝦夷方言藻汐草』の「ヱナウ」と別海版『蝦夷方言藻汐草』の「イナウ」
本田優子「象潟に伝存する『蝦夷方言藻汐草』について」(雄波郷, 第7号(2013年3月), pp.1-8)が指摘するとおり、象潟郷土資料館蔵『蝦夷方言藻汐草』は他の版とは大きく異なっている。運よく象潟版『蝦夷方言藻汐草』の「ヱナウ」のページを見ることができたので、アイヌ語の項目をざっと書き写した。
ヱカユプ プシ
ヱナウ
シトヱナウ
ヱナウキケ
キケパラセ
キケツノヱ
ヱナウシヤン
カムイタグシヤ
ルイシヤン
マキリ イヒラ
ケマコルシントコ ホツカイ
シヨロ ホケカ子
これに対し、加賀家文書館(別海町)蔵の『蝦夷方言藻汐草』(整理番号K3-49)は、以下のような並びである。
マキリ〇イヒラ
ケマコルシントコ〇ホツカイ
イナウ
シヨロ〇ホケカ子
テウナ
キシヤカニ
ヲフ〇クマム〇ハナレ〇マレフ
トシ〇ムニンベ〇レバトシ
キテ〇キラム
ムナムゲツフ〇テツクブ
キナヤツトイ
カシユブ〇ウケブ
シヤクシ
イクバシ
ニブ〇イマニツ
別海版は、後半に補遺らしき部分があるのだが、そこには「イナウ」関係のアイヌ語は現れないようだ。ただ、これらの比較をやろうとするなら、文書画像が公開されている方が楽だったりする。それぞれ館ごとの事情はあるのだろうが、さて、何とかならないかなあ。