UDPipeによる現代中国語(簡化字)の係り受け解析 | yasuokaの日記

yasuokaの日記： UDPipeによる現代中国語(簡化字)の係り受け解析 0

日記 by yasuoka 2019年03月10日 11時16分

昨日の日記に書いた現代中国語(簡化字)の係り受け解析を、UDPipeでもやってみることにした。UDPipeの中国語モデルも繁體字なので、やはりmafanの助けを借りることにする。

% python3 >>> import urllib.parse,urllib.request,json,webbrowser >>> from mafan import simplify,tradify >>> h="http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kyodokenkyu/ud-kanbun/conllusvg/viewer.svg" >>> zh="http://lindat.mff.cuni.cz/services/udpipe/api/process?model=chinese&tokenizer&tagger&parser" >>> s=tradify("我把这本书看完了") >>> with urllib.request.urlopen(zh+"&data="+urllib.parse.quote(s)) as r: ... q=r.read() ... >>> u=simplify(json.loads(q)["result"]) >>> webbrowser.open(h+"#"+urllib.parse.quote(u)) >>> print(u)

この結果、私(安岡孝一)の手元では、以下のUniversal Dependenciesが出力された。

# newdoc # newpar # sent_id = 1 # text = 我把这本书看完了 1 我我 PRON PRP Person=1 6 nsubj _ SpaceAfter=No 2 把把 VERB BB Voice=Cau 6 aux:caus _ SpaceAfter=No 3 这这 DET DT _ 4 det _ SpaceAfter=No 4 本本 NOUN NNB _ 5 clf _ SpaceAfter=No 5 书书 NOUN NN _ 6 obj _ SpaceAfter=No 6 看完看完 VERB VV _ 0 root _ SpaceAfter=No 7 了了 PART AS Aspect=Perf 6 case:aspect _ SpaceAfter=No

SVGで可視化するとこんな感じ。昨日のStanfordNLPと、同じ結果だとみなしていいだろう。UDPipeはStanfordNLPと違って、とりあえずはモデルのダウンロードなしに使うことができる。もちろん、大量の処理となれば、元の繁體字コーパスをダウンロードしてきて、それを簡化字に変換した上で、自分の手元でモデルを再構築すべきなのだが、それは、まあ、手間と言えば手間かな。

yasuokaの日記： UDPipeによる現代中国語(簡化字)の係り受け解析 0

UDPipeによる現代中国語(簡化字)の係り受け解析 More ログイン

スラド