パスワードを忘れた? アカウント作成

d_swordさんのトモダチの日記。 今週も投票をしましたか?

16634230 journal
政府

yasuokaの日記: 在外邦人にマイナンバーを付与する法律改正案が国会で成立

日記 by yasuoka

『行政手続における特定の個人を識別するための番号の利用等に関する法律等の一部を改正する法律案』が、本日(6/2)の参議院本会議で可決・成立した(NHKニュース)。改正は多岐に渡るのだが、私(安岡孝一)なりに勘所をまとめておこう。

マイナンバー法改正の目玉は、在外邦人(日本国民で海外在住のため住民票が無い人)に対しても、個人番号および個人番号カードが作成・交付できる、という点である。第十七条(改正後)の当該条文を見てみよう。

第十七条 市町村長は、政令で定めるところにより、当該市町村が備える住民基本台帳に記録されている者又は当該市町村が備える戸籍の附票に記録されている者(国外転出者である者に限る。)に対し、前条第四項又は第五項の規定による送付又はその作成についての通知を受けたその者に係る個人番号カードを直接に又は同条第三項の申出に係る領事官若しくは市町村長を経由して交付するものとする。

これに伴い、住民基本台帳法第十七条は、以下のように改正される。

第十七条 戸籍の附票には、次に掲げる事項について記載(前条第二項の規定により磁気ディスクをもつて調製する戸籍の附票にあつては、記録。以下同じ。)をする。
 一 戸籍の表示
 二 氏名
 二の二 氏名の振り仮名
 三 住所(国外に転出をする旨の第二十四条の規定による届出(次号及び第七号において「国外転出届」という。)をしたことによりいずれの市町村においても住民基本台帳に記録されていない者(以下「国外転出者」という。)にあつては、国外転出者である旨)
 四 住所を定めた年月日(国外転出者にあつては、その国外転出届に記載された転出の予定年月日)
 五 出生の年月日
 六 男女の別
 七 住民票に記載された住民票コード(国外転出者にあつては、その国外転出届をしたことにより消除された住民票に記載されていた住民票コード。第三十条の三十七及び第三十条の三十八において同じ。)
 八 前各号に掲げる事項のほか、政令で定める事項

実は2019年5月31日改正で、このあたりの筋道は準備されていたのだが、今回の改正で細かい点(特に領事官まわり)が詰められた。ただ、微妙なのは、戸籍法における「氏名の振り仮名」と抱き合わせ改正になっている点である。改正後の戸籍法第十三条を見てみよう。

第十三条 戸籍には、本籍のほか、戸籍内の各人について、次に掲げる事項を記載しなければならない。
 一 氏名
 二 氏名の振り仮名(氏に用いられる文字の読み方を示す文字( 以下「氏の振り仮名」という。)及び名に用いられる文字の読み方を示す文字(以下「名の振り仮名」という。)をいう。以下同じ。)
 三 出生の年月日
 四 戸籍に入つた原因及び年月日
 五 実父母の氏名及び実父母との続柄
 六 養子であるときは、養親の氏名及び養親との続柄
 七 夫婦については、夫又は妻である旨
 八 他の戸籍から入つた者については、その戸籍の表示
 九 その他法務省令で定める事項
② 前項第二号の読み方は、氏名として用いられる文字の読み方として一般に認められているものでなければならない。
③ 氏名の振り仮名に用いることができる仮名及び記号の範囲は、法務省令で定める。

しかし「氏名の振り仮名」については、アイヌ語表記用カタカナに関する議論が決着しておらず、まだ問題を引き起こしそうなのだ。今後、政令で定める事項を、キッチリと詰めていく作業が必要である。

16614162 journal
日本

yasuokaの日記: 国立アイヌ民族博物館「ケンル アカㇻ イッケウェ」のアイヌ語Universal Dependencies

日記 by yasuoka

思うところあって、国立アイヌ民族博物館の「ケンル アカㇻ イッケウェ」を、アイヌ語Universal Dependenciesで書いてみることにした。

# text = ケンル アカㇻ イッケウェ
1    ケンル    kenru    NOUN    名詞    _    3    obj    _    _
2    ア    a=    PART    人称接辞    _    3    nsubj    _    SpaceAfter=No
3    カㇻ    kar    VERB    他動詞    _    4    acl    _    _
4    イッケウェ    ikkewe    NOUN    名詞    _    0    root    _    _

# text = タパン ケンル アナㇰ アイヌ ウタㇻ アアイヌコㇿ クニ アパセレ クニ アイヌ ウパㇱクマ アイヌ プリ インネウタㇻ アエコウパㇱクマ コㇿ サスイシㇼ パㇰノ アピラサ クス アカㇻ ルウェ ネ.
1    タパン    tapan    DET    連体詞    _    2    det    _    _
2    ケンル    kenru    NOUN    名詞    _    28    obj    _    _
3    アナㇰ    anak    ADP    副助詞    _    2    case    _    _
4    アイヌ    aynu    NOUN    名詞    _    5    compound    _    _
5    ウタㇻ    utar    NOUN    名詞    _    7    obj    _    _
6    ア    a=    NOUN    名詞    _    7    nsubj    _    SpaceAfter=No
7    アイヌコㇿ    aynukor    VERB    他動詞    _    10    advcl    _    _
8    クニ    kuni    SCONJ    接続助詞    _    7    mark    _    _
9    ア    a=    PART    人称接辞    _    10    nsubj    _    SpaceAfter=No
10    パセレ    pasere    VERB    他動詞    _    20    advcl    _    _
11    クニ    kuni    SCONJ    接続助詞    _    10    mark    _    _
12    アイヌ    aynu    NOUN    名詞    _    13    nmod    _    _
13    ウパㇱクマ    upaskuma    NOUN    名詞    _    20    obj    _    _
14    アイヌ    aynu    NOUN    名詞    _    15    nmod    _    _
15    プリ    puri    NOUN    名詞    _    13    conj    _    _
16    インネ    inne    VERB    自動詞    _    17    amod    _    SpaceAfter=No
17    ウタㇻ    utar    NOUN    名詞    _    20    iobj    _    _
18    ア    a=    PART    人称接辞    _    20    nsubj    _    SpaceAfter=No
19    エ    e=    PART    人称接辞    _    20    expl    _    SpaceAfter=No
20    コウパㇱクマ    ko-upaskuma    VERB    他動詞    _    28    advcl    _    _
21    コㇿ    kor    SCONJ    接続助詞    _    20    mark    _    _
22    サスイシㇼ    sasuysir    NOUN    名詞    _    25    obl    _    _
23    パㇰノ    pakno    SCONJ    後置副詞    _    22    case    _    _
24    ア    a=    PART    人称接辞    _    25    nsubj    _    SpaceAfter=No
25    ピラサ    pirasa    VERB    他動詞    _    28    advcl    _    _
26    クス    kusu    SCONJ    接続助詞    _    25    mark    _    _
27    ア    a=    PART    人称接辞    _    28    nsubj    _    SpaceAfter=No
28    カㇻ    kar    VERB    他動詞    _    29    acl    _    _
29    ルウェ    ruwe    NOUN    形式名詞    _    0    root    _    _
30    ネ    ne    AUX    デアル動詞    _    29    cop    _    SpaceAfter=No
31    .    .    PUNCT    記号    _    29    punct    _    _

SVGで可視化すると、こんな感じ。私(安岡孝一)なりに頑張ったつもりだが、そもそもアイヌ語でこのテの文章を書くのは難しい気がする。いわゆる漢語のたぐいを、もう少し語彙に溶け込ませるべきなのかなあ。

16611593 journal
人工知能

yasuokaの日記: Kanbun-LMで読む共通テスト2021の『欧陽文忠公集』

日記 by yasuoka

漢文訓読モジュールKanbun-LMがリリースされた、との御連絡をいただいた。王昊・清水博文・河原大輔『言語モデルを用いた漢文の返り点付与と書き下し文生成』(言語処理学会 第29回年次大会 発表論文集(2023年3月), pp.3031-3036)のグループが、さらなるブラッシュアップをおこなった上で、デモサイトやAPIまで準備してくれた。とりあえず、Google Colaboratoryで試してみよう。

!pip install gradio_client
import gradio_client
client=gradio_client.Client("https://nlp-waseda-kanbun-lm.hf.space/")
text="""
吾有千里馬
毛骨何蕭森
疾馳如奔風
白日無留陰
徐駆当大道
歩驟中五音
馬雖有四足
遅速在吾心
六轡応吾手
調和如瑟琴
東西与南北
高下山与林
惟意所欲適
九州可周尋
至哉人与馬
両楽不相侵
伯楽識其外
徒知価千金
王良得其性
此術固已深
良馬須善馭
吾言可為箴
"""
for t in text.split():
  if t.strip()>"":
    print(t,client.predict(t,api_name="/predict"))

共通テスト2021『国語』第4問【問題文I】を訓読させてみたところ、私(安岡孝一)の手元では以下の結果になった。

吾有千里馬 吾に千里の馬有り
毛骨何蕭森 毛骨何ぞ蕭森たり
疾馳如奔風 疾馳奔風に如く
白日無留陰 白日留陰無く
徐駆当大道 徐駆大道に当り
歩驟中五音 歩驟中五音
馬雖有四足 馬に雖も四足有りと雖も
遅速在吾心 遅速吾心に在り
六轡応吾手 六轡応に吾の手
調和如瑟琴 調和は瑟琴の如し
東西与南北 東西南北と与う
高下山与林 高下山与の林と
惟意所欲適 惟意所欲する適う所
九州可周尋 九州周尋可し
至哉人与馬 至哉人馬の人と馬
両楽不相侵 両楽相侵さず
伯楽識其外 伯楽識る其の外
徒知価千金 徒らに知る価千金の価値を
王良得其性 王良其の性を得し
此術固已深 此の術固から已に深くして
良馬須善馭 良馬須らく善馭すべし
吾言可為箴 吾言う可く箴を為し

GuwenCOMBOやUD-Kundokuに較べて、かなり自然な書き下し文が生成されている。素晴らしい。私も、もっともっと頑張んなきゃ。

16590131 journal
人工知能

yasuokaの日記: Universal Dependencies 2.12がリリース

日記 by yasuoka

Universal Dependencies 2.12がリリースされた、との連絡をいただいた。半年前のUniversal Dependencies 2.11と較べて、Algerian Arabic、Borôro、Kirghiz、Old Irishが追加されたものの、Hindi Englishが削除されたため、141の言語にまたがるツリーバンクとなっている。私(安岡孝一)のグループが製作している古典中国語(漢文)ツリーバンクUD_Classical_Chinese-Kyotoでは『戦国策』を追加したので、ぜひ使ってみてほしい。ただ、日本語ツリーバンクから、とうとうUD_Japanese-Modernが削除されて、旧仮名の日本語に関しては手薄になってしまった。私のグループとしては、古典中国語から近代日本語への接続を狙っているので、このあたりは手痛いところだが、今後はUD_Old_Japanese-LMJ周辺に期待したい。

16586429 journal
人工知能

yasuokaの日記: 古典中国語(漢文)C-CLUEの固有表現抽出にRoBERTa-Classical-Chineseで挑戦

日記 by yasuoka

Zhongqing JIANG, Zengqing WU, Chuan XIAOの『Token-Free Cross-Lingual Named Entity Recognition for Classical Chinese』(第15回データ工学と情報マネジメントに関するフォーラム, 1b-6-2, 2023年3月6日)を読みつつ、RoBERTa-Classical-Chineseを使えば、もう少し精度が上がるんじゃないか、という気がした。そこで、Transformersのrun_ner.pyroberta-classical-chinese-base-charを使って、古典中国語(漢文)C-CLUEの固有表現抽出に挑戦してみることにした。Google Colaboratory (GPU版)だと、こんな感じ。

!pip install transformers datasets evaluate seqeval accelerate
!test -d C-CLUE || git clone --depth=1 https://github.com/jizijing/C-CLUE
s='$1=="transformers"{printf("-b v%s",$2)}'
!test -d transformers || git clone `pip list | awk '{s}'` https://github.com/huggingface/transformers
def makejson(token_file,tag_file,json_file):
  with open(token_file,"r",encoding="utf-8") as r1, open(tag_file,"r",encoding="utf-8") as r2, open(json_file,"w",encoding="utf-8") as w:
    for s,t in zip(r1,r2):
      print('{"tokens":["'+s.rstrip().replace(' ','","')+'"],"tags":["'+t.rstrip().replace(' ','","')+'"]}',file=w)
makejson("C-CLUE/data_ner/source.txt","C-CLUE/data_ner/target.txt","train.json")
makejson("C-CLUE/data_ner/dev.txt","C-CLUE/data_ner/dev-label.txt","dev.json")
makejson("C-CLUE/data_ner/test1.txt","C-CLUE/data_ner/test_tgt.txt","test.json")
!python transformers/examples/pytorch/token-classification/run_ner.py --model_name_or_path KoichiYasuoka/roberta-classical-chinese-base-char --train_file train.json --validation_file dev.json --test_file test.json --output_dir ./roberta-classical-chinese-base-ner --do_train --do_eval --do_predict

私(安岡孝一)の手元では、5分程度でroberta-classical-chinese-base-nerが出来上がり、以下のmetricsとなった。

***** train metrics *****
  epoch                    =        3.0
  train_loss               =     0.2081
  train_runtime            = 0:02:18.68
  train_samples            =       1902
  train_samples_per_second =     41.145
  train_steps_per_second   =      5.149

***** eval metrics *****
  epoch                   =        3.0
  eval_accuracy           =     0.9087
  eval_f1                 =      0.626
  eval_loss               =     0.3011
  eval_precision          =     0.5595
  eval_recall             =     0.7103
  eval_runtime            = 0:00:02.10
  eval_samples            =        238
  eval_samples_per_second =    113.254

***** predict metrics *****
  predict_accuracy           =     0.9124
  predict_f1                 =     0.6612
  predict_loss               =     0.2924
  predict_precision          =     0.5743
  predict_recall             =     0.7792
  predict_runtime            = 0:00:02.06
  predict_samples_per_second =    115.185
  predict_steps_per_second   =     14.519

F1-scoreが66.12、Precisionが57.43、Recallが77.92なので、まだPrecisionが不十分な気がする。ただ、このC-CLUEって誰も使ってないしメンテもされてないので、わざわざこれに特化してチューニングするのは、正直あまり気が乗らないなあ。

16584057 journal
人工知能

yasuokaの日記: hiroshi-matsuda-rit/electra-base-japanese-discriminator-v2をJCommonSenseQAでチューニング

日記 by yasuoka

hiroshi-matsuda-rit/electra-base-japanese-discriminator-v2がリリースされていたので、JGLUEのJCommonSenseQAでファインチューニングしてみた。Google Colaboratory (GPU版)だと、こんな感じ。

trf="transformers-4.28.1"
!test -d {trf} || git clone -b {trf.replace("transformers-","v")} --depth=1 https://github.com/huggingface/transformers {trf}
!test -d JGLUE || ( git clone --depth=1 https://github.com/yahoojapan/JGLUE && cat JGLUE/fine-tuning/patch/transformers-4.9.2_jglue-1.1.0.patch | ( cd {trf} && patch -p1 ) )
!cd {trf} && pip install .
!pip install -r {trf}/examples/pytorch/text-classification/requirements.txt
!pip install protobuf==3.20.3 tensorboard sudachitra
f=trf+"/examples/pytorch/multiple-choice/run_swag.py"
!fgrep trust_remote_code {f} || ( echo '%s/use_fast=.*,/& trust_remote_code=True,/' ; echo wq ) | ex -s {f}
!python {f} --model_name_or_path hiroshi-matsuda-rit/electra-base-japanese-discriminator-v2 --do_train --do_eval --do_predict --max_seq_length 64 --per_device_train_batch_size 16 --learning_rate 5e-05 --num_train_epochs 4 --output_dir ./electra-base-japanese-discriminator-v2-jcommonsenseqa --overwrite_output_dir --train_file JGLUE/datasets/jcommonsenseqa-*/train-*.json --validation_file JGLUE/datasets/jcommonsenseqa-*/valid-*.json --test_file JGLUE/datasets/jcommonsenseqa-*/valid-*.json --use_fast_tokenizer False --evaluation_strategy epoch --warmup_ratio 0.1

trust_remote_code=Trueがトリッキーだが、GPU版なら20分ほどでelectra-base-japanese-discriminator-v2-jcommonsenseqaが出来上がる。私(安岡孝一)の手元では、以下の「eval metrics」が出力された。

***** eval metrics *****
  epoch                   =        4.0
  eval_accuracy           =     0.8338
  eval_loss               =     0.6194
  eval_runtime            = 0:00:08.82
  eval_samples            =       1119
  eval_samples_per_second =    126.832
  eval_steps_per_second   =     15.868

JCommonSenseQAが0.8338なので、ku-nlp/deberta-v2-base-japaneseにあと一息だ。electraでここまで出るって、すごいなあ。

16582541 journal
日本

yasuokaの日記: アイヌ語訳『五倫名義解』の「夫婦有別」末尾部と「長幼有序」冒頭部

日記 by yasuoka

私(安岡孝一)が先月22日に加賀家文書館を訪ねた際、アイヌ語訳『五倫名義解』(別海町郷土資料館, K3-21)は、「夫婦有別」末尾部から「長幼有序」冒頭部が展示されていた一昨昨日一昨日昨日の日記と同様、ざっと翻刻してみよう。

然る故に聖人夫婦の間においては別の一字を
ヱ子ヱキワクシユアワシノヱカシウタレウムレツクルウトソカイシンナイアリアンシ子カンビ

不易の法と定め給ふ 所謂夫婦に別ありと
子イバツクノイタツカシソモキビワカムイ子アヌウコアンテアンルヱタハン バクアンウムレツクルチシケシンナイ

いふ一句は長く夫婦の掟たるべし
アリアンシ子イタク子イタハツクノウムレツコロタシウチヤコツ子ナンコロルヱタシアン子

長幼有序

父母ありて子を生すれば先に生れたるを長とし
ミチハボアンクシユヘトクルヱ子クシユホシケセベンケクルキアン子クル

後に生れたるを幼とす 兄弟といふも同事なるべし
ヨラシセヘンケヘウレクル子ナ ヱリヘ子クニアンコロカイナアウコラツ子ルヱタハンナ

アイヌ語の方は、私の読む限りでは「ene e=ki wa kusu awa sino ekasi utar umurekkur utus okay sinna-i ari an sine kanpi ney pakno itak kasi somo ki pe wa kamuy ne anu uko-ante an ruwe tapan」「pak an umurekkur ci=sike sinna-i ari an sine itak ney ta pakno umurek kor tasi ocakot ne nankor ruwe tasi an ne」「mici hapo an kusu hetuku ruwe ne kusu hoski-se penke kur ki an ne kor horasi-se panke pewre kur ne na」「irpe ne kuni an kor okay na a=ukoraci ne ruwe tapan na」に見える。なお、ヱリワク(irwak)をわざわざ消してヱリヘ(irpe)に直しているので、兄弟から親類に話が広がっているようだ。一方でベンケとヘンケをpenkeとpankeに読むのは、さすがに無理がある気もする。さて、どうしたらいいかなあ。

16581298 journal
日本

yasuokaの日記: アイヌ語訳『五倫名義解』の「君臣有義」冒頭部

日記 by yasuoka

「標津町の文化財 第8回 幕末会津藩北辺防衛の物語③」(広報しべつ, Vol.611, 2018年1月, pp.8-9)には、アイヌ語訳『五倫名義解』(別海町郷土資料館, K3-21)の「君臣有義」冒頭部写真が掲載されている。一昨日昨日の日記と同様、ざっと翻刻してみよう。

君臣有義

君臣上下の道は天の上に位し地の下に位する
アレシカカモイ子ワヱチコテ子クルバセコシ子クニアンヘアナキ子ニソロタレクトコカモイアンクシユケラヱシリカ子モシリカシタ

道理より起れり 人の分なければ人道も立ず 故
子フヱ子ヤツカイキシコブルヱ子クシユウンマアレシカシリ子ルヱタハン シシヤモレコロベシヤバ子クルカアンアシクルカアンソモキワ子ヤキ子シシヤモブリランベテク アニコラツ

アイヌ語の方は、私(安岡孝一)の読む限りでは「a=reska kamuy ne wa eci=kote ne kur páse kosine kuni an pe anakne nisor ta rekut kor kamuy an kusu k=erawe sirka ne mosir kasi ta ne p ene yakkayki siko p ruwe ne kusu un ma a=reska sir ne ruwe tapan」「sisam rekor pe sapanekur ka an as kur ka an somo ki wa ne ya ki ne sisam puri erampewtek」「ani koraci」のようなのだが、ところどころ文法的に通らない。うーん、私がカタカナを読み間違ってるのかなあ。

16580641 journal
日本

yasuokaの日記: アイヌ語訳『五倫名義解』の「父子有親」冒頭部

日記 by yasuoka

別海町郷土資料館だよりNo.173(2013年12月)には、アイヌ語訳『五倫名義解』(別海町郷土資料館, K3-21)の冒頭部写真が掲載されている。昨日の日記と同様、ざっと翻刻してみよう。

五倫名義解 父子有親

天下にあらゆる人の品を分て五つにして五倫と
ベケレモシリクルカタアルシヤナシシヤモヱキリコロ子トバケタヲロウシテクンベアシキ子ヱキン子ウヱメキワ五倫アリバアセヱラマワコロレクニルヱタハンナ

いふ 其上に教をつけて五教ともいふ也 其内父母の
子アビアシケタウバカシカトナアウコラツアシキ子ヱキリ子アワ 子ワノトモケタミツハホ子クルアンテ

ただ、アイヌ語の方は書き直しが多く、特に「バアセヱラマワ」(páse eraman wa)のすぐ左に書かれている「ヱワケワク」(ewakewak)らしき単語は、どこに入れていいのか、私(安岡孝一)にはわからなかった。やっぱり難しい、難しすぎる。

16580274 journal
日本

yasuokaの日記: アイヌ語訳『五倫名義解』の「朋友有信」冒頭部

日記 by yasuoka

「メナシの地で、会津藩士が灯した産業の光」(Hokkaido Magazine KAI, Vol.44, 2019年8月7日)には、アイヌ語訳『五倫名義解』(別海町郷土資料館, K3-21)の写真が掲載されている。ざっと翻刻してみよう。

朋友有信

天下の人は同じく天地の氣をうけて生す
ニソロクロボキタバクアンシサモアイヌ子ウコラツカント子ワシリカタマヲイコロクシユヘトク

れば相友として交るべき道理あり 是に
ルヱ子アワウヱシコフカ子ウヱキン子アンクニラムシコロアン タンヘ

よりて朋友の倫を立置て仁をたすけ
クシユウヱシコフカタウカトアノコアンテワウヱカタヨロツアリヤンベシヨモキヱラクニ

善をせむるを朋友の道とす 仁とはおのれが
ビリカコロシベキタツケレクンアナキ子ウヱシコフクルウヱレンカ子ルヱタバン カタヨロツケアリアンヘアナキ子アニ子トバクタ

行に私なき事なり 仁をたすくるとは
ヤヱコツバイサマニケウトモノイキロキ子イキカトタバン カタヨロツケキシツチウレアナキ子

うーん、私(安岡孝一)の力では、アイヌ語の方が読み切れない。最初の行は「nisor kurpok ta pak an sisam aynu ne ukoraci kanto ne wa sirka ta mawehe kor kusu hetok」のような気がするが、マヲイがmaweheでいいのか自信がない。難しいなぁ。

typodupeerror

コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell

読み込み中...