パスワードを忘れた? アカウント作成
13857271 journal
中国

yasuokaの日記: UDPipeによる現代中国語(簡化字)の係り受け解析

日記 by yasuoka

昨日の日記に書いた現代中国語(簡化字)の係り受け解析を、UDPipeでもやってみることにした。UDPipeの中国語モデルも繁體字なので、やはりmafanの助けを借りることにする。

% python3
>>> import urllib.parse,urllib.request,json,webbrowser
>>> from mafan import simplify,tradify
>>> h="http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kyodokenkyu/ud-kanbun/conllusvg/viewer.svg"
>>> zh="http://lindat.mff.cuni.cz/services/udpipe/api/process?model=chinese&tokenizer&tagger&parser"
>>> s=tradify("我把这本书看完了")
>>> with urllib.request.urlopen(zh+"&data="+urllib.parse.quote(s)) as r:
...   q=r.read()
...
>>> u=simplify(json.loads(q)["result"])
>>> webbrowser.open(h+"#"+urllib.parse.quote(u))
>>> print(u)

この結果、私(安岡孝一)の手元では、以下のUniversal Dependenciesが出力された。

# newdoc
# newpar
# sent_id = 1
# text = 我把这本书看完了
1 我 我 PRON PRP Person=1 6 nsubj _ SpaceAfter=No
2 把 把 VERB BB Voice=Cau 6 aux:caus _ SpaceAfter=No
3 这 这 DET DT _ 4 det _ SpaceAfter=No
4 本 本 NOUN NNB _ 5 clf _ SpaceAfter=No
5 书 书 NOUN NN _ 6 obj _ SpaceAfter=No
6 看完 看完 VERB VV _ 0 root _ SpaceAfter=No
7 了 了 PART AS Aspect=Perf 6 case:aspect _ SpaceAfter=No

SVGで可視化するとこんな感じ。昨日のStanfordNLPと、同じ結果だとみなしていいだろう。UDPipeはStanfordNLPと違って、とりあえずはモデルのダウンロードなしに使うことができる。もちろん、大量の処理となれば、元の繁體字コーパスをダウンロードしてきて、それを簡化字に変換した上で、自分の手元でモデルを再構築すべきなのだが、それは、まあ、手間と言えば手間かな。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

ソースを見ろ -- ある4桁UID

読み込み中...