パスワードを忘れた? アカウント作成

yasuokaさんのトモダチの日記みんなの日記も見てね。 Idle.srad.jpは、あなたの人生において完全な時間の浪費です。見るなよ、見るなよ。

13868825 journal
政府

yasuokaの日記: 番号利用法第二十六条による条例事務関係情報照会者・条例事務関係情報提供者への準用

日記 by yasuoka

昨日の日記

やはり、条例事務関係情報照会者と条例事務関係情報提供者を、あえて外す方向で法改正しようとしているように見える。

と書いたのだが、これは私(安岡孝一)の読みが足りなかった。ごめんなさい。番号利用法の第二十六条が

第二十六条 第二十一条(第一項を除く。)から前条までの規定は、第十九条第八号の規定による条例事務関係情報照会者による特定個人情報の提供の求め及び条例事務関係情報提供者による特定個人情報の提供について準用する。この場合において、第二十一条第二項第一号中「別表第二に掲げる」とあるのは「第十九条第八号の個人情報保護委員会規則で定める」と、第二十二条第一項中「ならない」とあるのは「ならない。ただし、第十九条第八号の規定により提供することができる特定個人情報の範囲が条例により限定されている地方公共団体の長その他の執行機関が、個人情報保護委員会規則で定めるところによりあらかじめその旨を委員会に申し出た場合において、当該提供の求めに係る特定個人情報が当該限定された特定個人情報の範囲に含まれないときは、この限りでない」と、同条第二項中「法令」とあるのは「条例」と、第二十四条中「情報提供等事務(第十九条第七号」とあるのは「条例事務関係情報提供等事務(第十九条第八号」と、「情報提供等事務に」とあるのは「条例事務関係情報提供等事務に」と、前条中「情報提供等事務」とあるのは「条例事務関係情報提供等事務」と読み替えるものとする。

となっているので、新設される第二十一条の二は、この準用の範囲に含まれるのだ。つまり、条例事務関係情報照会者も条例事務関係情報提供者も、情報提供用個人識別符号を取得できる。ただし、情報提供用個人識別符号の取得の方法は、現在は個人番号(マイナンバー)から得られるのに対し、改正案(第二十一条の二第二項)では「取得番号」とかいう、何か別なものになっている。

 前項の規定による情報提供用個人識別符号の取得は、政令で定めるところにより、情報照会者等が取得番号(当該取得に関し割り当てられた番号であって、当該情報提供用個人識別符号により識別しようとする特定の個人ごとに異なるものとなるように割り当てられることにより、当該特定の個人を識別できるもののうち、個人番号又は住民票コードでないものとして総務省令で定めるものをいう。以下この条において同じ。)を、機構を通じて総務大臣に対して通知し、及び総務大臣が当該取得番号と共に当該情報提供用個人識別符号を、当該情報照会者等に対して通知する方法により行うものとする。

この「取得番号」というのは、あいかわらず私には理解できない。こんな「取得番号」なんて、法制審議会でも戸籍法部会でも議論された覚えがないのだが、どうして「戸籍法の一部を改正する法律案」に紛れ込んでるんだろう。あるいは、これも、私の読みが足りないせいなのだろうか?

13868350 journal
政府

yasuokaの日記: Re:「行政手続等における情報通信の技術の利用に関する法律等の一部を改正する法律案」と「戸籍法の一部を改正する法律案」による戸籍へのマイナンバー付与 2

日記 by yasuoka

法制審議会が2月14日に答申した「戸籍法の改正に関する要綱」のうち、注1の

(注1)法務大臣は,戸籍関係情報の作成及び提供に当たり,情報提供用個人識別符号(行政手続における特定の個人を識別するための番号の利用等に関する法律施行令第20条第1項。いわゆる機関別符号。)を利用し,番号利用法第2条第5項に規定する個人番号(12桁のマイナンバー)は利用しないこととし,そのために必要な法制上の措置(法務大臣が情報提供用個人識別符号を取得する手続等)については,番号利用法等の関係法令において所要の整備を行う。

の意味するところを、もう一度、考え直してみることにした。というのも、この文面は、法務省が3月15日に公開した「戸籍法の一部を改正する法律案要綱」には含まれていないからだ。何だか、おかしなことになっている気がする。とりあえず、現時点での番号利用法施行令の第二十条第一項を見てみよう。

第二十条 情報照会者若しくは情報提供者又は条例事務関係情報照会者若しくは条例事務関係情報提供者(以下この条において「情報照会者等」という。)は、法第十九条第七号又は第八号の規定による特定個人情報の提供を管理するために個人番号に代わって用いられる特定の個人を識別する符号(以下「情報提供用個人識別符号」という。)を、総務大臣から取得することができる。

これに対し、「戸籍法の一部を改正する法律案」で新設される番号利用法第二十一条の二第一項を見比べてみよう。

第二十一条の二 情報照会者又は情報提供者(以下この条において「情報照会者等」という。)は、情報提供用個人識別符号(第十九条第七号又は第八号の規定による特定個人情報の提供を管理し、及び当該特定個人情報を検索するために必要な限度で第二条第五項に規定する個人番号に代わって用いられる特定の個人を識別する符号であって、同条第八項に規定する個人番号であるものをいう。以下この条及び第四十五条の二第一項において同じ。)を総務大臣から取得することができる。

やはり、条例事務関係情報照会者と条例事務関係情報提供者を、あえて外す方向で法改正しようとしているように見える。ただし、第十九条第八号の方には改正の手は伸びていない。どういう意図なのか、私(安岡孝一)には判然としない。

続いて、第二項も見比べてみよう。現行の施行令は、以下の通り。

 情報照会者等は、情報提供用個人識別符号を取得しようとするときは、機構に対し、当該情報提供用個人識別符号により識別しようとする特定の個人の個人番号その他総務省令で定める事項(次項において「通知事項」という。)を通知するものとする。

これに対する改正案は、以下のようになっている。

 前項の規定による情報提供用個人識別符号の取得は、政令で定めるところにより、情報照会者等が取得番号(当該取得に関し割り当てられた番号であって、当該情報提供用個人識別符号により識別しようとする特定の個人ごとに異なるものとなるように割り当てられることにより、当該特定の個人を識別できるもののうち、個人番号又は住民票コードでないものとして総務省令で定めるものをいう。以下この条において同じ。)を、機構を通じて総務大臣に対して通知し、及び総務大臣が当該取得番号と共に当該情報提供用個人識別符号を、当該情報照会者等に対して通知する方法により行うものとする。

現時点での「情報提供用個人識別符号」が個人番号から得られるのに対し、改正案では「取得番号」とかいうアヤシゲなものになっている。何だろう、これ。こんな「取得番号」なんて、法制審議会でも戸籍法部会でも議論された覚えがないのだが、どうして「戸籍法の一部を改正する法律案」に紛れ込んでるんだろう。しかも、通知する相手が、機構(J-LIS)から総務大臣(コアシステム)に変わってるし。

第三項も見比べてみよう。現行の施行令は、以下の通り。

 前項の規定による通知は、次のいずれかの方法により行うものとする。
 総務省令で定めるところにより、情報照会者等の使用に係る電子計算機から電気通信回線を通じて機構の使用に係る電子計算機に通知事項を送信する方法
 総務省令で定めるところにより、情報照会者等から通知事項を記録した電磁的記録媒体(電子的方式、磁気的方式その他人の知覚によっては認識することができない方式で作られる記録であって電子計算機による情報処理の用に供されるものに係る記録媒体をいう。第三十条において同じ。)を機構に送付する方法

これに対する改正案は、以下のようになっている。

情報照会者等、総務大臣及び機構は、第一項の規定による情報提供用個人識別符号の取得に係る事務を行う目的の達成に必要な範囲を超えて、取得番号を保有してはならない。

まあ、通知相手が違うので、第三項から後は完全に違ってくる、ということだろう。

結局のところ、この「取得番号」というのが何なのか、私にはわからなかった。あちこち調べてまわったのだが、今までに議論された記録すら見つからない。上の「注1」では、主語は「法務大臣」だったはずなのに、法改正では、主語が「情報照会者等」になっていて、しかも条例事務はカヤの外である。これ、情報提供ネットワークにおける「情報提供用個人識別符号」(いわゆる機関別符号)の性質が、完全に変わってしまう法改正に見えるし、言い換えるなら、情報提供ネットワークの仕様変更である。こんなの、誰がどこで議論して、どうやって決めたものなんだろう?

13864920 journal
政府

yasuokaの日記: 「行政手続等における情報通信の技術の利用に関する法律等の一部を改正する法律案」と「戸籍法の一部を改正する法律案」による戸籍へのマイナンバー付与 1

日記 by yasuoka

3月15日に「情報通信技術の活用による行政手続等に係る関係者の利便性の向上並びに行政運営の簡素化及び効率化を図るための行政手続等における情報通信の技術の利用に関する法律等の一部を改正する法律案」と「戸籍法の一部を改正する法律案」が、無事に衆議院に提出された。現時点では、衆議院の議案情報サイトに、まだ法律案の本文が載せられていないのだが、私(安岡孝一)個人にとっては、戸籍へのマイナンバー付与という重要な課題が含まれている法律案なので、そのあたりをかいつまんで見ていこうと思う。

まずは、戸籍法第百十八条が、以下のように改正される(予定である)。

第百十八条 法務大臣の指定する市町村長は、法務省令で定めるところにより戸籍事務を電子情報処理組織(法務大臣の使用に係る電子計算機(磁気ディスク(これに準ずる方法により一定の事項を確実に記録することができる物を含む。以下同じ。)及び入出力装置を含む。以下同じ。)と市町村長の使用に係る電子計算機とを電気通信回線で接続した電子情報処理組織をいう。以下同じ。)によつて取り扱うものとする。ただし、電子情報処理組織によつて取り扱うことが相当でない戸籍又は除かれた戸籍として法務省令で定めるものに係る戸籍事務については、この限りでない。
 前項の規定による指定は、市町村長の申出に基づき、告示してしなければならない。

「取り扱うことができる」が「取り扱うものとする」に変わっただけだが、これと附則第三条の経過措置

第三条 この法律の施行の際現にこの法律による改正前の戸籍法(以下「旧法」という。)第百十八条第一項(旧法第四条において準用する場合を含む。)の規定による指定を受けている市町村長(特別区の区長を含むものとし、地方自治法第二百五十二条の十九第一項の指定都市にあっては、区長又は総合区長とする。)は、施行日に新法第百十八条第一項(新法第四条において準用する場合を含む。)の規定による指定を受けたものとみなす。

によって、もう、紙の戸籍には戻れなくなる。ただ、改製不適合戸籍の問題と、夕張市と加茂市と御蔵島村の問題は、まだ微妙な陰を残している。

上の改正と同時に、戸籍法第百十九条の二が新設される。

第百十九条の二 前条の規定により磁気ディスクをもつて調製された戸籍又は除かれた戸籍の副本は、第八条第二項の規定にかかわらず、法務大臣が保存する。

戸籍の副本は、これまでは「管轄法務局若しくは地方法務局又はその支局がこれを保存」していたが、デジタル戸籍の副本は法務大臣が一括保存する。まあ、一括保存するとは言っても、一ヶ所で保存してるわけではないのだが、法務大臣の手元にデジタル戸籍の副本は全て存在する、という形になる。

合わせて、住民基本台帳法第十七条が、以下のように改正される。

第十七条 戸籍の附票には、次に掲げる事項について記載(前条第二項の規定により磁気ディスクをもつて調製する戸籍の附票にあつては、記録。以下同じ。)をする。
 戸籍の表示
 氏名
 住所(国外に転出をする旨の第二十四条の規定による届出(次号及び第七号において「国外転出届」という。)をしたことによりいずれの市町村においても住民基本台帳に記録されていない者(以下「国外転出者」という。)にあつては、国外転出者である旨)
 住所を定めた年月日(国外転出者にあつては、その国外転出届に記載された転出の予定年月日)
 出生の年月日
 男女の別
 住民票に記載された住民票コード(国外転出者にあつては、その国外転出届をしたことにより消除された住民票に記載されていた住民票コード。第三十条の三十七及び第三十条の三十八において同じ。)

戸籍の附票は、そもそも住民票と戸籍をつなぐものなので、ここに個人番号(マイナンバー)も載せてしまえたらうれしかったのだが、そうすると戸籍の附票それ自体が特定個人情報になってしまって、法律的にかなりエグイことになりそうなので、住民票コードを送りつけている。また、国外転出者の情報も、今後は戸籍の附票を使って本籍地の市町村長に送りつける。これで、在外選挙権がない未成年者でも、本籍地で突合可能になるはずだ。

同時に、住民基本台帳法第二十一条が新設される。

第二十一条 市町村長は、戸籍の附票の全部を消除したとき、又は戸籍の附票を改製したときは、その消除した戸籍の附票又は改製前の戸籍の附票(以下「戸籍の附票の除票」と総称する。)をつづり、戸籍の附票の除票簿として保存しなければならない。
 第十六条第二項の規定により磁気ディスクをもつて戸籍の附票を調製している市町村にあつては、磁気ディスクをもつて調製した戸籍の附票の除票を蓄積して戸籍の附票の除票簿とすることができる。

この戸籍の附票の除票を、何年保存すべきか、というのは議論があるところだが、まあ、除籍簿の保存期間(150年)と同じ、というのが落とし所だろうとは思う。

これらに加えて、番号利用法には、とりあえず第二十一条の二が新設される。

第二十一条の二 情報照会者又は情報提供者(以下この条において「情報照会者等」という。)は、情報提供用個人識別符号(第十九条第七号又は第八号の規定による特定個人情報の提供を管理し、及び当該特定個人情報を検索するために必要な限度で第二条第五項に規定する個人番号に代わって用いられる特定の個人を識別する符号であって、同条第八項に規定する個人番号であるものをいう。以下この条及び第四十五条の二第一項において同じ。)を総務大臣から取得することができる。
 前項の規定による情報提供用個人識別符号の取得は、政令で定めるところにより、情報照会者等が取得番号(当該取得に関し割り当てられた番号であって、当該情報提供用個人識別符号により識別しようとする特定の個人ごとに異なるものとなるように割り当てられることにより、当該特定の個人を識別できるもののうち、個人番号又は住民票コードでないものとして総務省令で定めるものをいう。以下この条において同じ。)を、機構を通じて総務大臣に対して通知し、及び総務大臣が当該取得番号と共に当該情報提供用個人識別符号を、当該情報照会者等に対して通知する方法により行うものとする。
[以下略]

情報提供用個人識別符号それ自体は、現在は番号利用法施行令第二十条にあって、すでに情報提供ネットワークで使われているものだが、それを個人番号(マイナンバー)ではなく「取得番号」で取ってこようとする点が、現状と乖離していたりする。その上、対象が「情報照会者又は情報提供者」となっていて、条例事務関係情報照会者と条例事務関係情報提供者が抜けている。どう考えてもマズイ。

また、第四十五条の二も新設される。

第四十五条の二 法務大臣は、戸籍関係情報(戸籍又は除かれた戸籍(戸籍法(昭和二十二年法律第二百二十四号)第百十九条の規定により磁気ディスク(これに準ずる方法により一定の事項を確実に記録することができる物を含む。)をもって調製されたものに限る。以下この項において同じ。)の副本に記録されている情報の電子計算機処理等を行うことにより作成することができる戸籍又は除かれた戸籍の副本に記録されている者(以下この項において「戸籍等記録者」という。)についての他の戸籍等記録者との間の親子関係の存否その他の身分関係の存否に関する情報、婚姻その他の身分関係の形成に関する情報その他の情報のうち、第十九条第七号又は第八号の規定により提供するものとして法務省令で定めるものであって、情報提供用個人識別符号をその内容に含むものをいう。以下この項において同じ。)を作成するために戸籍又は除かれた戸籍の副本に記録されている情報の電子計算機処理等を行うことにより作成される情報(戸籍関係情報を除く。第三項において「戸籍関係情報作成用情報」という。)の作成に関する事務に関する秘密について、その漏えいの防止その他の適切な管理のために、当該事務に使用する電子計算機の安全性及び信頼性を確保することその他の必要な措置を講じなければならない。
[以下略]

ただし、これらの条文(の一部)は、さらに2回ほど改正を受けて、結局、番号利用法の第九条第三項に押し込まれる。

 法務大臣は、第十九条第七号又は第八号の規定による戸籍関係情報(戸籍又は除かれた戸籍(戸籍法(昭和二十二年法律第二百二十四号)第百十九条の規定により磁気ディスク(これに準ずる方法により一定の事項を確実に記録することができる物を含む。)をもって調製されたものに限る。以下この項及び第四十五条の二第一項において同じ。)の副本に記録されている情報の電子計算機処理等(電子計算機処理(電子計算機を使用して行われる情報の入力、蓄積、編集、加工、修正、更新、検索、消去、出力又はこれらに類する処理をいう。)その他これに伴う政令で定める措置をいう。以下同じ。)を行うことにより作成することができる戸籍又は除かれた戸籍の副本に記録されている者(以下この項において「戸籍等記録者」という。)についての他の戸籍等記録者との間の親子関係の存否その他の身分関係の存否に関する情報、婚姻その他の身分関係の形成に関する情報その他の情報のうち、第十九条第七号又は第八号の規定により提供するものとして法務省令で定めるものであって、情報提供用個人識別符号(同条第七号又は第八号の規定による特定個人情報の提供を管理し、及び当該特定個人情報を検索するために必要な限度で第二条第五項に規定する個人番号に代わって用いられる特定の個人を識別する符号であって、同条第八項に規定する個人番号であるものをいう。以下同じ。)をその内容に含むものをいう。以下同じ。)の提供に関する事務の処理に関して保有する特定個人情報ファイルにおいて個人情報を効率的に検索し、及び管理するために必要な限度で情報提供用個人識別符号を利用することができる。当該事務の全部又は一部の委託を受けた者も、同様とする。

この結果、第十三条と第十四条は、以下のように改正される。

第十三条 個人番号利用事務実施者(第九条第三項の規定により情報提供用個人識別符号を利用する者を除く。次条第二項及び第十九条第一号において同じ。)は、本人又はその代理人及び個人番号関係事務実施者の負担の軽減並びに行政運営の効率化を図るため、同一の内容の情報が記載された書面の提出を複数の個人番号関係事務において重ねて求めることのないよう、相互に連携して情報の共有及びその適切な活用を図るように努めなければならない。
第十四条 個人番号利用事務等実施者(第九条第三項の規定により情報提供用個人識別符号を利用する者を除く。以下この項及び第十六条において同じ。)は、個人番号利用事務等を処理するために必要があるときは、本人又は他の個人番号利用事務等実施者に対し個人番号の提供を求めることができる。
 個人番号利用事務実施者(政令で定めるものに限る。第十九条第四号において同じ。)は、個人番号利用事務を処理するために必要があるときは、住民基本台帳法第三十条の九から第三十条の十二までの規定により、機構に対し機構保存本人確認情報(同法第三十条の九に規定する機構保存本人確認情報をいう。第十九条第四号及び第四十八条において同じ。)の提供を求めることができる。

カッコ書きが眩しい。これらに呼応して、住民基本台帳法第十九条の三も新設される。

第十九条の三 本籍地の市町村長は、番号利用法第二十一条の二第二項(番号利用法第二十六条において準用する場合を含む。)の規定による通知(番号利用法第十九条第七号又は第八号に規定する情報提供者又は条例事務関係情報提供者が番号利用法第九条第三項の法務大臣である場合におけるものに限る。)を受けたときは、政令で定めるところにより、当該通知に係る者の戸籍の附票に記載をされている第十七条第二号、第三号、第五号及び第六号に掲げる事項を地方公共団体情報システム機構(以下「機構」という。)に提供するものとする。

このあたりが、戸籍における婚姻関係や親子関係を、情報提供ネットワーク経由で情報照会するための法律群ということになる。やはり、情報提供用個人識別符号を、マイナンバーでも住民票コードでもなく「取得番号」で取ってこようとする点が、どう考えても間違っている。マイナポータルでの「あなたの情報」とかの実装と矛盾してしまうし、運用中の番号利用法施行令とも矛盾してるし、戸籍の附票に住民票コードをわざわざ追加した点とも矛盾してる。こんなヤヤコシイ改正、どう考えても「デジタルワンストップ」から遠ざかってるんだけど、本当に国会を通るのかしら?

法制審議会としては、何としても戸籍にマイナンバーを近づけたくなかった(2月14日会議配布資料3)らしく、こういう無理難題とも言える法律案になったわけだ。情報提供側の法務大臣が情報提供用個人識別符号だけを使うのは、それはそれでかまわないと思うけど、どうして情報照会側がマイナンバーから(別の)個人識別符号を取得しちゃダメなんだろ? その要請は、法制審議会としては、どういう法論理で構成されたものなんだろ?

13862060 journal
人工知能

yasuokaの日記: 古典中国語(漢文)の係り受け解析と山下記念研究賞

日記 by yasuoka

本日、福岡大学で開催された情報処理学会第81回全国大会表彰式で、山下記念研究賞をいただいた。『古典中国語Universal Dependenciesへの挑戦』という、昨年の論文に対する表彰なのだが、素直にうれしい。古典中国語(漢文)という、いわば「古語」に属する書写言語に対して、係り受け解析をマジにおこなうための道筋を示した論文なので、「こんな研究、何の役に立つの」と言われても不思議じゃない。ただ、Мельчукの依存文法(Dependency Grammar)が、こういう「古語」に対しても有効に働いて、他の言語と同様に解析できるのを示せた、という点では、面白い論文だということだろう。さて、この研究ネタ、もう少し頑張ろうかな。

13859901 journal
日記

yasuokaの日記: 「襄」は子の名づけに使えるか

日記 by yasuoka

『判例時報』の最新号(No.2393・2394合併号)を読んでいたところ、pp.21-22に最高裁平29(許)11号(2017年9月21日棄却)が紹介されていた(執筆は小林宏司・浅野良児)。「襄」を子の名づけに使いたい母親が、名古屋市緑区長を相手どって闘った例で、名古屋家庭裁判所では「勝訴」したものの、名古屋高等裁判所では「逆転敗訴」となり、最高裁判所でも「敗訴」した事例である。

二九(許)一一([判決集未登載]一小、29・9・21、棄却。原審名古屋高決平29・3・31、原々審名古屋家審平29・1・17)
(1) 戸籍法施行規則六〇条に定める文字以外の文字を用いて子の名を記載したことを理由としてされた出生届の追完届の不受理処分に対する不服申立事件において、当該文字が社会通念上明らかに常用平易な文字と認められるか否かが問題となった事案である。
(2) X(母)は、子の名を未定とする出生届の提出後、子の名を「襄」とする出生届の追完届(本件追完届)を名古屋市緑区長に提出した。同区長は、「襄」の文字が戸籍法施行規則六〇条に定める文字でないことを理由に本件追完届を受理しなかった。そこで、Xは、戸籍法一二一条に基づく不服申立てをした。
原々審が本件追完届を受理するよう命じたのに対し、原審は、Xの申立てを却下すべきものと判断した。その理由の概要は次のとおりである。
戸籍法五〇条一項及び同法施行規則六〇条各号に該当しない文字であっても、家庭裁判所は、当該文字が社会通念上、明らかに常用平易な文字と認められるときは、当該市町村長に対し、当該文字を子の名に使用した出生届の受理を命ずることができる(最三小決平15・12・25民集五七巻一一号二五六二頁)が、「襄」の文字は、明らかに常用平易な文字であると認めることはできない。
(3) Xが、原決定には、戸籍法五〇条一項の解釈適用の誤りがあるなどと主張して、抗告の許可を申し立てた。
(4) 本決定は、「「襄」の字が、社会通念上明らかに常用平易な文字であるとはいえないとした原審の判断は、正当として是認することができる。論旨は採用することができない。」と判示して、抗告を棄却した。前記最三小決後に下級審裁判例が相当数出ており、本件は個別事案における認定又は評価の問題と思われ、抗告の許可には検討の余地がある。

「下級審裁判例が相当数出ており」とは言っても、『家庭裁判月報』なき今、それを国民が知るすべが無い。各裁判所にしても、他の裁判所の裁判例を知るのが難しい。最高裁判所の裁判例情報を検索しても、広島高裁平16(ラ)81号も、大阪高裁平19(ラ)252号も、大阪高裁平19(ラ)486号も、名古屋高裁平21(ラ)86号も、東京高裁平23(ラ)1012号も、大阪高裁平27(ラ)928号も、東京高裁平29(ラ)312号も見つからない。というか、この最高裁平29(許)11号すら、裁判例情報に掲載されていないのだ。「抗告の許可には検討の余地がある」と言うなら、本来的に検討の余地があるのは、そのような裁判例をどう国民に知らせていくか、の方だろう。

13857783 journal
中国

yasuokaの日記: 「我把这本书看完了」の「把」は使役助動詞なのか

日記 by yasuoka

一昨日昨日の日記での「我把这本书看完了」の係り受け解析に対し、「把」にaux:causが突き刺さっているのは変だ、との御意見をいただいた。確かに、フランス語のaux:caus(使役助動詞)に較べると、かなり無理がある気がする。UD_Chinese-CFLに従うなら、この「把」は、ごく普通に前置詞(ADP)とみなして、caseを突き刺すべきだろう。Universal Dependenciesで書くと、だいたい以下の通り。

1 我 我 PRON PRP Person=1 6 nsubj _ SpaceAfter=No
2 把 把 ADP BB _ 5 case _ SpaceAfter=No
3 这 这 DET DT _ 5 det _ SpaceAfter=No
4 本 本 NOUN NNB _ 3 clf _ SpaceAfter=No
5 书 书 NOUN NN _ 6 obl:patient _ SpaceAfter=No
6 看完 看完 VERB VV _ 0 root _ SpaceAfter=No
7 了 了 PART AS Aspect=Perf 6 discourse:sp _ SpaceAfter=No

SVGで可視化するとこんな感じ。しかしながら、StanfordNLPやUDPipeが中国語モデルに採用しているUD_Chinese-GSDは、あくまでaux:causに拘泥しているようだ。さて、こういうの、どうしたらいいかな。

13857271 journal
中国

yasuokaの日記: UDPipeによる現代中国語(簡化字)の係り受け解析

日記 by yasuoka

昨日の日記に書いた現代中国語(簡化字)の係り受け解析を、UDPipeでもやってみることにした。UDPipeの中国語モデルも繁體字なので、やはりmafanの助けを借りることにする。

% python3
>>> import urllib.parse,urllib.request,json,webbrowser
>>> from mafan import simplify,tradify
>>> h="http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kyodokenkyu/ud-kanbun/conllusvg/viewer.svg"
>>> zh="http://lindat.mff.cuni.cz/services/udpipe/api/process?model=chinese&tokenizer&tagger&parser"
>>> s=tradify("我把这本书看完了")
>>> with urllib.request.urlopen(zh+"&data="+urllib.parse.quote(s)) as r:
...   q=r.read()
...
>>> u=simplify(json.loads(q)["result"])
>>> webbrowser.open(h+"#"+urllib.parse.quote(u))
>>> print(u)

この結果、私(安岡孝一)の手元では、以下のUniversal Dependenciesが出力された。

# newdoc
# newpar
# sent_id = 1
# text = 我把这本书看完了
1 我 我 PRON PRP Person=1 6 nsubj _ SpaceAfter=No
2 把 把 VERB BB Voice=Cau 6 aux:caus _ SpaceAfter=No
3 这 这 DET DT _ 4 det _ SpaceAfter=No
4 本 本 NOUN NNB _ 5 clf _ SpaceAfter=No
5 书 书 NOUN NN _ 6 obj _ SpaceAfter=No
6 看完 看完 VERB VV _ 0 root _ SpaceAfter=No
7 了 了 PART AS Aspect=Perf 6 case:aspect _ SpaceAfter=No

SVGで可視化するとこんな感じ。昨日のStanfordNLPと、同じ結果だとみなしていいだろう。UDPipeはStanfordNLPと違って、とりあえずはモデルのダウンロードなしに使うことができる。もちろん、大量の処理となれば、元の繁體字コーパスをダウンロードしてきて、それを簡化字に変換した上で、自分の手元でモデルを再構築すべきなのだが、それは、まあ、手間と言えば手間かな。

13856953 journal
中国

yasuokaの日記: StanfordNLPによる現代中国語(簡化字)の係り受け解析

日記 by yasuoka

思うところあって、「我把这本书看完了」という現代中国語の文を、StanfordNLPで係り受け解析してみた。ただ、StanfordNLPの中国語モデルは繁體字なので、そこはmafanの助けを借りてみることにした。

% pip3 install mafan
% pip3 install stanfordnlp
% python3
>>> import stanfordnlp
>>> stanfordnlp.download("zh")
>>> zh=stanfordnlp.Pipeline(lang="zh")
>>> import urllib.parse,webbrowser
>>> from stanfordnlp.models.common import conll
>>> from mafan import simplify,tradify
>>> h="http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kyodokenkyu/ud-kanbun/conllusvg/viewer.svg"
>>> s=zh(tradify("我把这本书看完了"))
>>> u=simplify(s.conll_file.conll_as_string())
>>> print(u)
>>> webbrowser.open(h+"#"+urllib.parse.quote(u))

この結果、私(安岡孝一)の手元では、以下のUniversal Dependenciesが出力された。

1 我 我 PRON PRP Person=1 6 nsubj _ _
2 把 把 VERB BB Voice=Cau 6 aux:caus _ _
3 这 这 DET DT _ 4 det _ _
4 本 本 NOUN NNB _ 5 clf _ _
5 书 书 NOUN NN _ 6 obj _ _
6 看完 看完 VERB VV _ 0 root _ _
7 了 了 PART AS Aspect=Perf 6 case:aspect _ _

SVGで可視化するとこんな感じ。簡化字と繁體字は1対1対応ではないので、このやり方だとマズイ場合もあり得るのだが、とりあえず使ってみるだけなら、これでも十分だろう。stanfordnlp.download("zh")に時間がかかるが、2回目以降はダウンロード不要なので、ぜひ試してみてほしい。

13854613 journal
ニュース

yasuokaの日記: AIデータ活用コンソーシアム設立

日記 by yasuoka

AIデータ活用コンソーシアムを一般社団法人として設立する、とのプレスリリースが本日付けで発表された。私(安岡孝一)自身も発起人として加わっているので、とりあえずめでたい。ただ、まあ、私個人としては、何でもかんでもAI(というか機械学習)が適しているとは、もちろん思ってなくて、データベースだけで済むものはデータベースでやればいいし、サポートベクタマシンで十分なものはSVMでいいだろうし、どうしても必要な時にRNNとかの助けを借りるべきだと思うのだ。それに、古典中国語(漢文)の言語処理を必要とする分野なんて、たぶん、ほとんど無いだろうし。

13847713 journal
人工知能

yasuokaの日記: Universal Dependenciesにおけるcompound:prtと直接構成鎖解析

日記 by yasuoka

英語版のUniversal Dependenciesにはcompound:prtというアヤシイ係り受け関係があって、これが文法解析において結構ジャマだったりする。たとえば「They shut the station down」という英文だと、「shut」─compound:prt→「down」となる。このcompound:prtは、ざっくり言えばイディオムを表してるらしいので、文法解析の途中では、できるだけバラバラにしたくないのだ。

「They shut the station down」→「They」+「shut the station down」
「shut the station down」→「shut down」+「the station」
「the station」→「the」+「station」
「shut down」→「shut」+「down」

ただ、「shut down」は文中で不連続な要素なので、構成素(constituent)で解析するより、構成鎖(catena)で解析すべきだと考えられる。私(安岡孝一)の昨日の日記にも書いたが、こういうケースだと直接構成素解析(immediate constituent analysis)では苦しくて、直接構成鎖解析(immediate catena analysis)とでも呼ぶべき手法の出番になるのだろう。うーん、日本語Universal Dependenciesだと、こういう例あるのかな…。

typodupeerror

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

読み込み中...