yasuokaの日記: 「令和」の係り受け解析エンジン(仮)としてのUDPipe
一昨日・昨日の私(安岡孝一)の日記に対して、古典中国語(漢文)の自動解析の精度はどのくらいなのか、という質問をいただいた。京都大学人文科学研究所附属東アジア人文情報学研究センターでは、UDPipeベースの古典中国語係り受け解析APIを試験運用中なので、ちょっとだけ解析してみよう。
% python3
>>> import urllib.parse,urllib.request,json
>>> s="天平二年正月十三日萃于帥老之宅申宴會也于時初春令月氣淑風和梅披鏡前之粉蘭薰珮後之香加以曙嶺移雲松掛羅而傾盖夕岫結霧鳥封縠而迷林庭舞新蝶空歸故鴈於是盖天促膝飛觴忘言一室之裏開衿煙霞之外淡然自放快然自足若非翰苑何以攄情詩紀落梅之篇古今夫何異矣宜賦園梅聊成短詠"
>>> with urllib.request.urlopen("https://corpus.kanji.zinbun.kyoto-u.ac.jp/udpipe/process?tokenizer=joint_with_parsing&tagger&parser&data="+urllib.parse.quote(s)) as r:
... q=r.read()
...
>>> print(json.loads(q)["result"])
# newdoc
# newpar
1 天平 天平 PROPN n,名詞,固定物,地名 Case=Loc|NameType=Geo 3 nmod _ SpaceAfter=No
2 二 二 NUM n,数詞,数字,* _ 3 nummod _ SpaceAfter=No
3 年 年 NOUN n,名詞,時,* Case=Tem 0 root _ SpaceAfter=No
1 正 正 VERB v,動詞,描写,形質 Degree=Pos|VerbForm=Part 2 amod _ SpaceAfter=No
2 月 月 NOUN n,名詞,時,* Case=Tem 5 obl:tmod _ SpaceAfter=No
3 十三 十三 NUM n,数詞,数,* _ 4 nummod _ SpaceAfter=No
4 日 日 NOUN n,名詞,時,* Case=Tem 5 obl:tmod _ SpaceAfter=No
5 萃 萃 VERB v,動詞,行為,動作 _ 0 root _ SpaceAfter=No
6 于 于 ADP v,前置詞,基盤,* _ 10 case _ SpaceAfter=No
7 帥 帥 NOUN n,名詞,人,役割 _ 10 nmod _ SpaceAfter=No
8 老 老 NOUN n,名詞,人,人 _ 7 conj _ SpaceAfter=No
9 之 之 SCONJ p,助詞,接続,属格 _ 7 case _ SpaceAfter=No
10 宅 宅 NOUN n,名詞,固定物,建造物 Case=Loc 12 obl _ SpaceAfter=No
11 申 申 PROPN n,名詞,人,その他の人名 NameType=Prs 12 advmod _ SpaceAfter=No
12 宴 宴 VERB v,動詞,行為,交流 _ 5 conj _ SpaceAfter=No
13 會 會 VERB v,動詞,行為,交流 _ 12 obj _ SpaceAfter=No
14 也 也 PART p,助詞,提示,* _ 5 mark _ SpaceAfter=No
15 于 于 ADP v,前置詞,基盤,* _ 16 case _ SpaceAfter=No
16 時 時 NOUN n,名詞,時,* Case=Tem 5 obl _ SpaceAfter=No
1 初 初 NOUN n,名詞,時,* Case=Tem 2 nmod _ SpaceAfter=No
2 春 春 NOUN n,名詞,時,* Case=Tem 3 obl:tmod _ SpaceAfter=No
3 令 令 VERB v,動詞,行為,使役 _ 0 root _ SpaceAfter=No
4 月 月 NOUN n,名詞,天象,天文 _ 5 nmod _ SpaceAfter=No
5 氣 氣 NOUN n,名詞,描写,形質 _ 3 obj _ SpaceAfter=No
6 淑 淑 VERB v,動詞,描写,態度 Degree=Pos 3 xcomp _ SpaceAfter=No
1 風 風 NOUN n,名詞,天象,気象 _ 2 nsubj _ SpaceAfter=No
2 和 和 VERB v,動詞,描写,形質 Degree=Pos 0 root _ SpaceAfter=No
3 梅 梅 NOUN n,名詞,固定物,樹木 _ 4 nsubj _ SpaceAfter=No
4 披 披 VERB v,動詞,行為,動作 _ 2 conj _ SpaceAfter=No
1 鏡 鏡 NOUN n,名詞,可搬,道具 _ 2 compound _ SpaceAfter=No
2 前 前 NOUN n,名詞,固定物,関係 Case=Loc 4 nmod _ SpaceAfter=No
3 之 之 SCONJ p,助詞,接続,属格 _ 2 case _ SpaceAfter=No
4 粉 粉 NOUN n,名詞,可搬,糧食 _ 7 nmod _ SpaceAfter=No
5 蘭 蘭 NOUN n,名詞,固定物,樹木 _ 6 nmod _ SpaceAfter=No
6 薰 薰 NOUN n,名詞,固定物,樹木 _ 4 conj _ SpaceAfter=No
7 珮 珮 VERB v,動詞,行為,動作 _ 12 nsubj _ SpaceAfter=No
8 後 後 NOUN n,名詞,時,* Case=Tem 10 nmod _ SpaceAfter=No
9 之 之 SCONJ p,助詞,接続,属格 _ 8 case _ SpaceAfter=No
10 香 香 NOUN n,名詞,描写,形質 _ 12 nsubj _ SpaceAfter=No
11 加 加 VERB v,動詞,行為,得失 VerbForm=Part 12 amod _ SpaceAfter=No
12 以 以 VERB v,動詞,行為,動作 _ 0 root _ SpaceAfter=No
1 曙 曙 NOUN n,名詞,天象,気象 _ 3 nsubj _ SpaceAfter=No
2 嶺 嶺 NOUN n,名詞,固定物,地形 Case=Loc 1 conj _ SpaceAfter=No
3 移 移 VERB v,動詞,行為,移動 _ 0 root _ SpaceAfter=No
4 雲松 雲松 NOUN n,名詞,固定物,樹木 _ 3 obj _ SpaceAfter=No
5 掛 掛 VERB v,動詞,行為,動作 _ 3 conj _ SpaceAfter=No
6 羅 羅 NOUN n,名詞,可搬,道具 _ 5 obj _ SpaceAfter=No
7 而 而 CCONJ p,助詞,接続,並列 _ 8 cc _ SpaceAfter=No
8 傾 傾 VERB v,動詞,行為,動作 _ 3 conj _ SpaceAfter=No
9 盖 盖 VERB v,動詞,行為,動作 _ 8 obj _ SpaceAfter=No
1 夕 夕 NOUN n,名詞,時,* Case=Tem 4 nmod _ SpaceAfter=No
2 岫 岫 NOUN n,名詞,固定物,地形 Case=Loc 1 conj _ SpaceAfter=No
3 結 結 VERB v,動詞,行為,動作 VerbForm=Conv 4 amod _ SpaceAfter=No
4 霧 霧 NOUN n,名詞,天象,気象 _ 6 nsubj _ SpaceAfter=No
5 鳥 鳥 NOUN n,名詞,主体,動物 _ 4 conj _ SpaceAfter=No
6 封 封 VERB v,動詞,行為,役割 VerbForm=Part 0 root _ SpaceAfter=No
7 縠 縠 NOUN n,名詞,可搬,道具 _ 6 obj _ SpaceAfter=No
8 而 而 CCONJ p,助詞,接続,並列 _ 9 cc _ SpaceAfter=No
9 迷 迷 VERB v,動詞,行為,態度 _ 6 conj _ SpaceAfter=No
10 林 林 NOUN n,名詞,固定物,地形 Case=Loc 11 nmod _ SpaceAfter=No
11 庭 庭 NOUN n,名詞,固定物,建造物 Case=Loc 9 obj _ SpaceAfter=No
12 舞 舞 VERB v,動詞,行為,動作 _ 6 conj _ SpaceAfter=No
1 新 新 VERB v,動詞,描写,形質 Degree=Pos|VerbForm=Part 2 amod _ SpaceAfter=No
2 蝶 蝶 NOUN n,名詞,主体,動物 _ 3 nsubj _ SpaceAfter=No
3 空 空 VERB v,動詞,描写,形質 Degree=Pos 0 root _ SpaceAfter=No
1 歸 歸 VERB v,動詞,行為,移動 _ 0 root _ SpaceAfter=No
2 故 故 NOUN n,名詞,思考,* _ 3 nmod _ SpaceAfter=No
3 鴈 雁 NOUN n,名詞,主体,動物 _ 1 obj _ SpaceAfter=No
1 於 於 ADP v,前置詞,基盤,* _ 2 case _ SpaceAfter=No
2 是 是 PRON n,代名詞,指示,* PronType=Dem 3 obl _ SpaceAfter=No
3 盖 盖 VERB v,動詞,行為,動作 _ 11 csubj _ SpaceAfter=No
4 天 天 NOUN n,名詞,制度,場 Case=Loc 5 nmod _ SpaceAfter=No
5 坐 坐 NOUN n,名詞,可搬,道具 _ 7 nmod _ SpaceAfter=No
6 地 地 NOUN n,名詞,固定物,地形 Case=Loc 5 conj _ SpaceAfter=No
7 促 促 VERB v,動詞,行為,態度 _ 8 conj _ SpaceAfter=No
8 膝 膝 NOUN n,名詞,不可譲,身体 _ 3 obj _ SpaceAfter=No
9 飛 飛 VERB v,動詞,行為,動作 _ 3 conj _ SpaceAfter=No
10 觴 觴 NOUN n,名詞,可搬,道具 _ 9 obj _ SpaceAfter=No
11 忘 忘 VERB v,動詞,行為,動作 _ 0 root _ SpaceAfter=No
12 言 言 NOUN n,名詞,可搬,伝達 _ 11 obj _ SpaceAfter=No
1 一 一 NUM n,数詞,数字,* _ 2 nummod _ SpaceAfter=No
2 室 室 NOUN n,名詞,固定物,建造物 Case=Loc 4 nmod _ SpaceAfter=No
3 之 之 SCONJ p,助詞,接続,属格 _ 2 case _ SpaceAfter=No
4 裏 裡 NOUN n,名詞,固定物,関係 Case=Loc 5 nsubj _ SpaceAfter=No
5 開 開 VERB v,動詞,行為,動作 _ 0 root _ SpaceAfter=No
6 衿 衿 NOUN n,名詞,可搬,道具 _ 5 obj _ SpaceAfter=No
7 煙 煙 NOUN n,名詞,天象,気象 _ 6 conj _ SpaceAfter=No
1 霞 霞 NOUN n,名詞,天象,気象 _ 3 nmod _ SpaceAfter=No
2 之 之 SCONJ p,助詞,接続,属格 _ 1 case _ SpaceAfter=No
3 外 外 NOUN n,名詞,固定物,関係 Case=Loc 4 nsubj _ SpaceAfter=No
4 淡 淡 VERB v,動詞,描写,形質 Degree=Pos 0 root _ SpaceAfter=No
5 然 然 PART p,接尾辞,*,* _ 4 fixed _ SpaceAfter=No
6 自 自 PRON n,代名詞,人称,他 PronType=Prs|Reflex=Yes 7 nsubj _ SpaceAfter=No
7 放 放 VERB v,動詞,行為,動作 _ 4 parataxis _ SpaceAfter=No
1 快 快 VERB v,動詞,描写,態度 Degree=Pos 4 advcl _ SpaceAfter=No
2 然 然 PART p,接尾辞,*,* _ 1 fixed _ SpaceAfter=No
3 自 自 PRON n,代名詞,人称,他 PronType=Prs|Reflex=Yes 4 obj _ SpaceAfter=No
4 足 足 VERB v,動詞,描写,量 Degree=Pos 0 root _ SpaceAfter=No
5 若 若 VERB v,動詞,行為,分類 Degree=Equ 4 parataxis _ SpaceAfter=No
6 非 非 ADV v,副詞,否定,体言否定 Polarity=Neg 8 advmod _ SpaceAfter=No
7 翰 翰 NOUN n,名詞,人,役割 _ 8 nmod _ SpaceAfter=No
8 苑 宛 NOUN n,名詞,固定物,建造物 Case=Loc 5 obj _ SpaceAfter=No
1 何 何 PRON n,代名詞,疑問,* PronType=Int 2 obj _ SpaceAfter=No
2 以 以 VERB v,動詞,行為,動作 _ 3 advcl _ SpaceAfter=No
3 攄 攄 VERB v,動詞,行為,交流 _ 0 root _ SpaceAfter=No
4 情 情 NOUN n,名詞,描写,態度 _ 3 obj _ SpaceAfter=No
1 詩 詩 NOUN n,名詞,主体,書物 _ 2 nsubj _ SpaceAfter=No
2 紀 紀 VERB v,動詞,行為,動作 _ 11 csubj _ SpaceAfter=No
3 落 落 VERB v,動詞,行為,移動 VerbForm=Part 4 amod _ SpaceAfter=No
4 梅 梅 NOUN n,名詞,固定物,樹木 _ 6 nmod _ SpaceAfter=No
5 之 之 SCONJ p,助詞,接続,属格 _ 4 case _ SpaceAfter=No
6 篇 篇 NOUN n,名詞,可搬,伝達 _ 2 obj _ SpaceAfter=No
7 古 古 NOUN n,名詞,時,* Case=Tem 11 nmod _ SpaceAfter=No
8 今 今 NOUN n,名詞,時,* Case=Tem 11 obl:tmod _ SpaceAfter=No
9 夫 夫 NOUN n,名詞,人,人 _ 11 nsubj _ SpaceAfter=No
10 何 何 ADV v,副詞,疑問,原因 AdvType=Cau 11 advmod _ SpaceAfter=No
11 異 異 VERB v,動詞,描写,形質 Degree=Pos 0 root _ SpaceAfter=No
12 矣 矣 PART p,助詞,句末,* _ 11 discourse:sp _ SpaceAfter=No
1 宜 宜 AUX v,助動詞,必要,* Mood=Nec 2 aux _ SpaceAfter=No
2 賦 賦 VERB v,動詞,行為,伝達 _ 0 root _ SpaceAfter=No
3 園 園 NOUN n,名詞,固定物,建造物 Case=Loc 4 nmod _ SpaceAfter=No
4 梅 梅 NOUN n,名詞,固定物,樹木 _ 2 obj _ SpaceAfter=No
5 聊 聊 ADV v,副詞,程度,軽度 AdvType=Deg|Degree=Pos 8 advmod _ SpaceAfter=No
6 成 成 VERB v,動詞,行為,生産 _ 8 nsubj _ SpaceAfter=No
7 短 短 VERB v,動詞,描写,量 Degree=Pos 6 conj _ SpaceAfter=No
8 詠 詠 VERB v,動詞,行為,伝達 _ 2 parataxis _ SpaceAfter=No
『四書を学んだMeCab+UDPipeはセンター試験の漢文を読めるのか』でも述べたが、ウチのUDPipeは今のところ「文切り」がダメダメである。この結果、上に示した係り受け解析は、MLAS (Morphology-aware Labeled Attachment Score)が50点に達してない。半分も読めてないわけで、まだまだ使い物にならない感じである。さてさて、どうしたものやら。
「令和」の係り受け解析エンジン(仮)としてのUDPipe More ログイン