パスワードを忘れた? アカウント作成
19755608 journal
人工知能

yasuokaの日記: NDL古典籍OCR用RoBERTa-small ver.2は「いと小さく[MASK]ゆるはいとをかし」の[MASK]に何を埋めてくるのか

日記 by yasuoka

2021年12月23日の日記の読者から、NDL古典籍OCR用RoBERTa-small ver.2という単文字日本語モデルをお教えいただいた。以前、私(安岡孝一)が作ったroberta-small-japanese-aozora-charを再トレーニングして、TrOCRのデコーダーに使っているらしい。とりあえず、当該モデルをGoogle Colaboratoryで動かしてみよう。

!pip install transformers
!test -f model-ver2.zip || curl -LO https://lab.ndl.go.jp/dataset/ndlkotensekiocr/trocr/model-ver2.zip
!test -d model-ver2 || unzip model-ver2.zip
from transformers import pipeline
fmp=pipeline("fill-mask","model-ver2/decoder-roberta-v3")
print(fmp("いと小さく[MASK]ゆるはいとをかし"))

「いと小さく[MASK]ゆるはいとをかし」を穴埋めさせてみたところ、私の手元では以下の結果になった。

[{'score': 0.16102387011051178, 'token': 95, 'token_str': 'み', 'sequence': 'いと小さくみゆるはいとをかし'}, {'score': 0.05442138388752937, 'token': 51, 'token_str': 'こ', 'sequence': 'いと小さくこゆるはいとをかし'}, {'score': 0.050991836935281754, 'token': 45, 'token_str': 'き', 'sequence': 'いと小さくきゆるはいとをかし'}, {'score': 0.04673411697149277, 'token': 75, 'token_str': 'に', 'sequence': 'いと小さくにゆるはいとをかし'}, {'score': 0.0423908531665802, 'token': 108, 'token_str': 'れ', 'sequence': 'いと小さくれゆるはいとをかし'}]

漢字の「見」ではなく、ひらがなの「み」を埋めてきているが、それでも素晴らしい。だとすると、たとえば拓本文字データベースと絡めて再トレーニングすれば、さて、何かできるかなぁ。

18782217 journal
日本

yasuokaの日記: アイヌ語の「イワイサルㇱペ」は「虎」なのか「オオカミ」なのか「六尾獣」なのか

日記 by yasuoka

一昨昨日の日記に関連して、アイヌ語の「イワイサルㇱペ」を調べていたところ、B・ピウスツキ『樺太アイヌの言語と民話についての研究資料<26>病弱な者でも有能な憑き神によって開運する由来話』(創造の世界, 第77号 (1991年2月), pp.138-145)に、以下の文章を見つけた(p.140)。

ネヤイケヘ         そうしたら(ちょうど、そこへ)
アンポニウネ       ぼくの年下の
ホㇱキラムフ       兄さんが
キラアニエㇸマヌ   逃げてやってきた。
オーポニ           (よく見ると)その後を
イワイサルㇱカムイ 六尾をもつ神(という魔性のオオカミ)が
アンホㇱキラムフ   ぼくの兄さんを
ノㇱパ             追いかけていた。
アノㇱキラムフ     ぼくの兄さんを
アネソㇹキ         ぼくは(わきに手早く)よけ(てやり過ごし)た。(夢中に兄さんを追いかける性悪のオオカミにぼくは目をすえて)
アヌッソロマレペ   ぼくが(かねて)内ふところにしのばせていたものを
アヌイナマヌ       ぼくは取り出した。
トイキエムシアニ   (鞘を払い)トイキ(という名)刀で
イワイサルㇱペ     六尾をもつ(というオオカミの)奴を
アンタウケ         ぼくはたたき斬った。
アルパㇵノㇱキケタ (みごと)ちょうど、ど真中を
アントゥイテㇸテ   ぼくは斬(ってしま)った。

「虎」ではなく「オオカミ」らしい。Bronisław Piłsudski『Materials for the Study of the Ainu Language and Folklore』(Cracow: Imperical Academy of Sciences, 1912)の原文にあたってみよう(pp.239-240 [in Nr.27. Dictated (December 1903) by Nita aged 28 of village of Aj.])。

Nejàjḱehé am-ponínue hóśki rámhu kira ani éx manu, opóni ivaj-saruś kamúi an-hóśki rámhu nośpa. Anóśki rámhu anesóxki. An-usòmarepé anújna manu. Tóiki emuś-ani ivaj-saruśpe antáwḱe, arúpax nóśḱe-ḱeta antújtexte.

Meanwhile the younger of my elder brothers came running; following (and) pursuing my brother, (there came) a beast with six tails. I made way for my elder brother. I seized the thing in my bosom: with (my) earthen sword, I struck the six-tailed beast; just in the middle did I cut it in two.

原文は「虎」とも「オオカミ」とも書いていないようだ。日本語訳をおこなった藤村久和は「H・Y媼によれば、この動物はオオカミであって」としているものの、それを裏付ける他の文献が引用されているわけでもない。また、Piłsudski自身は、アイヌ語の「horoḱéu」を「wolf」と訳している(『Materials for the Study of the Ainu Language and Folklore』pp.199-213)。さて、どうしたものかな。

18548046 journal
人工知能

yasuokaの日記: Universal Dependencies 2.13がリリース

日記 by yasuoka

Universal Dependencies 2.13がリリースされた、との連絡をもらった。半年前のUniversal Dependencies 2.12と較べて、Classical Armenian、Georgian、Haitian Creole、Highland Puebla Nahuatl、Macedonian、Middle French、Vepsが増えており、148の言語にまたがるツリーバンクとなっている。私(安岡孝一)個人としては、deplacyМакедонскиを扱う際に精度が上がらず苦労したので、UD_Macedonian-MTBによるマケドニア語サポートはうれしい限りである。また、現代中国語(簡化字)はUD_Chinese-BeginnerUD_Chinese-PatentCharが、イタリア語はUD_Italian-Oldが追加されるなど、どんどん拡大が続いている。とりあえず、先月時点での係り受け解析ツールの状況を『Universal DependenciesとBERT/RoBERTa/DeBERTaモデルによる多言語情報処理』(2023年10月版)にざっとまとめておいたので、参考にしてほしい。

18219623 journal
日本

yasuokaの日記: アイヌ語に「虎」は無いのか

日記 by yasuoka

思うところあって、アイヌ語で「虎」をどう言うのか調べていたところ、Михаил Михайлович Добротворский『Аинско-русскій словарь』(Казань: Университецкая типография, 1875)の語彙番号1519に「虎」を見つけた。

Ивайсаруспѐ. С. тигръ (въ древности были на Сахалинѣ).

この記述を信じるなら、昔、樺太(サハリン)には「虎」がいたらしい。ただ、これ「イワイサルㇱペ」(iwaysaruspe)だとして、iway-sar-us-peなのかしら?

17454601 journal
日本

yasuokaの日記: 『蝦夷見聞記』の「ニヲシケボイ〱 チブカルハ トツブ ウヱクシハ ヲシケ カモイ ヲマレハ モムアンベ タンコタン シレバヤッカイ」をUDで読む

日記 by yasuoka

10月21日の日記の続きだが、秦檍磨(村上島之允)『蝦夷見聞記』(北海道大学附属図書館 旧記/0061)の5枚目画像には「ニヲシケボイ〱 チブカルハ トツブ ウヱクシハ ヲシケ カモイ ヲマレハ モムアンベ タンコタン シレバヤッカイ」というカタカナ書きのアイヌ語が含まれている。私(安岡孝一)が読む限り「ni uske epoypoye cip karpa tup u-e-kuspa uske kamuy omarepa mom an pe tan kotan sir epa yakka」のようなので、ざっとUniversal Dependenciesで書いてみた。

# text = ニヲシケボイ〱 チブカルハ トツブ ウヱクシハ ヲシケ カモイ ヲマレハ モムアンベ タンコタン シレバヤッカイ
1    ニ    ni    NOUN    名詞    _    2    nmod    _    SpaceAfter=No
2    ヲシケ    uske    NOUN    名詞    _    3    obj    _    SpaceAfter=No
3    ボイ〱    epoypoye    VERB    他動詞    _    4    acl    _    _
4    チブ    cip    NOUN    名詞    _    5    obj    _    SpaceAfter=No
5    カルハ    karpa    VERB    他動詞    _    10    advcl    _    _
6    トツブ    tup    NUM    数詞    _    7    obj    _    _
7    ウヱクシハ    u-e-kuspa    VERB    他動詞    _    8    acl    _    _
8    ヲシケ    uske    NOUN    形式名詞    _    10    iobj    _    _
9    カモイ    kamuy    NOUN    名詞    _    10    obj    _    _
10    ヲマレハ    omarepa    VERB    他動詞    _    17    advcl    _    _
11    モム    mom    VERB    自動詞    _    13    acl    _    SpaceAfter=No
12    アン    an    AUX    助動詞    _    11    aux    _    SpaceAfter=No
13    ベ    pe    NOUN    形式名詞    _    17    nsubj    _    _
14    タン    tan    DET    連体詞    _    15    det    _    SpaceAfter=No
15    コタン    kotan    NOUN    名詞    _    16    nmod    _    _
16-17    シレバ    _    _    _    _    _    _    _    _    SpaceAfter=No
16    シㇼ    sir    NOUN    名詞    _    17    obj    _    SpaceAfter=No
17    エパ    epa    VERB    他動詞    _    0    root    _    SpaceAfter=No
18    ヤッカイ    yakka    SCONJ    接続助詞    _    17    mark    _    _

アイヌ語UDエディターで可視化すると、こんな感じ。動詞の複数形がやたらと出てきて、複数のkamuyが絡んでるのが良く分かる文だ。ただ、この文は『蝦夷見聞記』には出てくるが、なぜか『蝦夷島奇觀』には現れない。どうなってるんだろ。

17448572 journal
日記

yasuokaの日記: Carpenters『Touch Me When We're Dancing』の間奏でTom Scottは何を吹いているのか

日記 by yasuoka

思うところあって、Carpenters『Touch Me When We're Dancing』のブッ飛んだ間奏のコード進行を耳コピし直してみた。ただ、この部分がト長調の中でいかにブッ飛んでるかを示すために、全体のコード進行をざっと見てみることにする。

Gmaj7           Em7             Cmaj7           Am7     Am7onD
Gmaj7           Em7             Cmaj7           Am7     Am7onD

Gmaj7           Em7             Cmaj7           Gmaj7
Gmaj7           Em7             Cmaj7           Gmaj7
Am7             G6              Cmaj7           Am7     Am7onD
Cmaj7           Am7     D9      Cmaj7           Bm7     Gmaj7
Cmaj7           Am7     D9      Em7     A7      Am7     Am7onD

Gmaj7           Em7             Cmaj7           Am7     Am7onD

Gmaj7           Em7             Cmaj7           Gmaj7
Gmaj7           Em7             Cmaj7           Gmaj7
Am7             G6              Cmaj7           Am7     Am7onD
Cmaj7           Am7     D9      Cmaj7           Bm7     Gmaj7
Cmaj7           Am7     D9      Cmaj7           Am7onD

G7onF           F#m7b5  B7      DonE    Em      Em      Em7onD
Cmaj7   Em7onB  A7sus4  A7      Am7     D9      C#dim   Am7onD

Cmaj7           Am7     D9      Cmaj7           Bm7     Gmaj7
Cmaj7           Am7     D9      Cmaj7           Am7onD
Cmaj7           Am7     D9      Cmaj7           Bm7     Gmaj7
Cmaj7           Am7     D9      Cmaj7           Am7onD

なぜそこで突然G7onFがブチ込まれて、Tom ScottがBの音を吹いているのか、ワケがわからない。わからないがカッコいい。でも結果として、ト長調へ戻るのにかなり苦労していて、C#dimなんていう荒技を繰り出すことになっている。これ、サックスソロとるの大変だったろうなあ。

17447067 journal
日本

yasuokaの日記: 象潟版『蝦夷方言藻汐草』の「ヱナウ」と別海版『蝦夷方言藻汐草』の「イナウ」

日記 by yasuoka

本田優子「象潟に伝存する『蝦夷方言藻汐草』について」(雄波郷, 第7号(2013年3月), pp.1-8)が指摘するとおり、象潟郷土資料館蔵『蝦夷方言藻汐草』は他の版とは大きく異なっている。運よく象潟版『蝦夷方言藻汐草』の「ヱナウ」のページを見ることができたので、アイヌ語の項目をざっと書き写した。

ヱカユプ プシ
ヱナウ
シトヱナウ
ヱナウキケ
キケパラセ
キケツノヱ
ヱナウシヤン
カムイタグシヤ
ルイシヤン
マキリ イヒラ
ケマコルシントコ ホツカイ
シヨロ ホケカ子

これに対し、加賀家文書館(別海町)蔵の『蝦夷方言藻汐草』(整理番号K3-49)は、以下のような並びである。

マキリ〇イヒラ
ケマコルシントコ〇ホツカイ
イナウ
シヨロ〇ホケカ子
テウナ
キシヤカニ
ヲフ〇クマム〇ハナレ〇マレフ
トシ〇ムニンベ〇レバトシ
キテ〇キラム
ムナムゲツフ〇テツクブ
キナヤツトイ
カシユブ〇ウケブ
シヤクシ
イクバシ
ニブ〇イマニツ

別海版は、後半に補遺らしき部分があるのだが、そこには「イナウ」関係のアイヌ語は現れないようだ。ただ、これらの比較をやろうとするなら、文書画像が公開されている方が楽だったりする。それぞれ館ごとの事情はあるのだろうが、さて、何とかならないかなあ。

17429890 journal
日本

yasuokaの日記: 蝦夷方言『藻汐草』チヤーラケのアイヌ語に付与された漢字の傍訓

日記 by yasuoka

上原熊次郎・阿部長三郎『藻汐草』(白虹斉[最上徳内]、文化元年)の「チヤーラケ」には、カタカナでアイヌ語が書かれており、右横に漢字で傍訓が付与されている。最初の「イカラク子クル」には「姪人」という傍訓があるので「e=karku ne kur」だろうというのが分かるし、次の「子フイタウン」には「何云」という傍訓があるので「nep itak un」だろうと想像がつく。「トノトシリカ」には「宴中」という傍訓があるので「tónoto sir ka」だと思われるのだが、さてその次の「ワイヌンヌ」に「慮」って何だろう。そのまた次の「クケナンコラ」に「為焉」は、たぶん「ku=ki nankor a」あたりだと思う。

悩みつつ過去の論文を探してみたところ、佐藤知己『彰考館旧蔵アイヌ語テキスト「蝦夷チヤランケ並浄瑠理言」について』(北海道大学文学研究科紀要, 第109号(2003年2月), pp.31-58)に行き当たった。「ワイヌンヌ」は「ueinonno」(祈り)らしい。とすると、全体としては「e=karku ne kur nep itak un. tónoto sir ka ueinonno ku=ki nankor a.」というアイヌ語に「姪人何云宴中慮為焉」という傍訓が付与されていることになる。うーん、その傍訓は、漢文としては語順がメチャクチャで、少なくとも私(安岡孝一)には読みきれない。さて、どうしたもんだろ。

17426162 journal
日本

yasuokaの日記: 『蝦夷見聞記』の「夷人三ヶ月を見て月の初を知る」をUniversal Dependenciesで読む

日記 by yasuoka

9月25日の日記の続きだが、秦檍磨(村上島之允)『蝦夷見聞記』(北海道大学附属図書館 旧記/0061)を読んでいたところ、6枚目画像に「夷人三ヶ月を見て月の初を知る」を見つけた。アイヌ語と和文が並行して書かれている部分を、Universal Dependenciesで見てみよう。

# text = ニシハ タンベヌカラ タンドヲロワノ アシリチユフ ヌカル
1    ニシハ    nispa    NOUN    名詞    _    4    nsubj    _    _
2    タン    tan    DET    連体詞    _    3    det    _    SpaceAfter=No
3    ベ    pe    NOUN    形式名詞    _    4    obj    _    SpaceAfter=No
4    ヌカラ    nukar    VERB    他動詞    _    11    advcl    _    _
5    タン    tan    DET    連体詞    _    6    det    _    SpaceAfter=No
6    ド    to    NOUN    名詞    _    7    nmod    _    SpaceAfter=No
7    ヲロ    or    NOUN    位置名詞    _    11    obl    _    SpaceAfter=No
8    ワノ    wano    ADP    格助詞    _    7    case    _    _
9    アシリ    asir    VERB    自動詞    _    10    amod    _    SpaceAfter=No
10    チユフ    cup    NOUN    名詞    _    11    obj    _    _
11    ヌカル    nukar    VERB    他動詞    _    0    root    _    _

# text = 主此見て今日から新月見る
1    主    主    NOUN    名詞-普通名詞-一般    _    3    nsubj    _    SpaceAfter=No
2    此    此れ    PRON    代名詞    _    3    obj    _    SpaceAfter=No
3    見    見る    VERB    動詞-非自立可能    _    8    advcl    _    SpaceAfter=No
4    て    て    SCONJ    助詞-接続助詞    _    3    mark    _    SpaceAfter=No
5    今日    今日    NOUN    名詞-普通名詞-副詞可能    _    8    obl    _    SpaceAfter=No
6    から    から    ADP    助詞-格助詞    _    5    case    _    SpaceAfter=No
7    新月    新月    NOUN    名詞-普通名詞-一般    _    8    obj    _    SpaceAfter=No
8    見る    見る    VERB    動詞-非自立可能    _    0    root    _    SpaceAfter=No

SVGで可視化すると、こんな感じ。『蝦夷島奇觀』(東京国立博物館QB-10015)の「三日月を見て月の初を知る」の元ネタらしいが、アイヌ語は後半の語順が異なっている。私(安岡孝一)個人の感覚としては、文末のnukarはa=nukarの方が適切な気がする。さて、どうすべきかな。

17421195 journal
日本

yasuokaの日記: 李志恒『漂舟録』に出てくる「악기」はアイヌ語なのか

日記 by yasuoka

一昨日昨日の日記の読者から、中村和之「李志恒『漂舟録』にみえるアイヌ語について」(北海道民族学, 第3号(2007年3月), pp.22-28)を読んでみてほしい、との御連絡をいただいた。何でも1696年頃のアイヌ語が、ハングルで書かれているらしい。

七月初一日發船。一時歸現於松前太守前。余在船中日、與書示探識其言語物情而不盡詳知。問蝦夷通事者曰、蝦夷等마즈마이云者何言耶。曰謂松前稱也。又問앙그랍애何耶。曰平安也。빌기의何也。美也。악기何也。水也。아비何也。火也。憑以倭語則大相不同。
[中略]
まず、火とされている아비(a-bi)ないし阿比(a-bi)は、アイヌ語のapeのことで、意味は「火」である。この比定は確実なものといえよう。つぎに、水とされている악기(ak-gi)ないし臥可(wa-ga)は、アイヌ語のwakkaのことで、意味は「水」である。wa-gaは発音が近いが、ak-giではやや遠い。この発音の差が何に起因するものなのか、現段階では明らかにできない。はっきりした比定ができないのは、残る2語である。筆者は、平安とされている앙그랍애(ang-geu-rab-e)は、アイヌ語のirankarapteあるいはiyankarapteで「こんにちは」の意味ではないかと考えた。ang-geu-rab-eとirankarapteとでは、音がかけ離れているとも考えられるが、金田一京助によれば、irankarapteはヤンガラフテと訛った形で使われていたことがあったという。このようなことを考えあわせると、ang-geu-rab-eがirankarapteないしiyankarapteである可能性は否定できないと思う。最も判断が難しいのが、暖かい(優しい)とされている빌기의(bil-gi-ui)である。思いつくアイヌ語として、「きれいだね」という意味のpirka waをあげることができるが、あくまで推定である。特に説明がつかないのは、pirka waのwaがuiと表記されていることである。水のak-giでもいえることだが、語尾のaがiで表記されている。このことにどのような理由があるのかは、今後の検討課題である。

うーん、ちょっと議論に無理がある気がする。そもそも「아비」が「火」で、「악기」が「水」なら、それはアイヌ語ではなくて、たとえば北ハルマヘラ語族だったりしないんだろうか。とりあえず「마즈마이」が「まつまえ」(松前)だという条件の下で、それ以外のハングルがアイヌ語だという仮定を立てた上で、私(安岡孝一)なりに読んでみることにしよう。

「앙그랍애」は「an=kor ape」(私たちが持つ火)に読める。「빌기의」は「pirke hi」(白く磨いたもの)に読める。「악기」は「a=ki」(不特定の人が行う)に読める。「아비」は「ape」(火)に読める。つまり私の解釈は、「아비」以外は中村和之と異なるようなのだ。また

李志恒がアイヌから教えてもらった、堯老和那(yo-ro-hwa-na)という植物について考えてみよう。李志恒は、この草の根で粥を作って食べたこと、草の葉は芭蕉によく似ており、根は大根によく似ていたことをのべている。これらのことから、堯老和那はオオウバユリとみて良いであろう。

とも書かれているのだが、「堯老和那」が「요노화나」だとすると、それは「orowano」(それから)に読めるので、植物名じゃないと思えるのだ。さて、どうしたらいいんだろ。

typodupeerror

クラックを法規制強化で止められると思ってる奴は頭がおかしい -- あるアレゲ人

読み込み中...