パスワードを忘れた? アカウント作成
15719504 journal
人工知能

yasuokaの日記: 古典中国語(漢文)Universal DependenciesはCombinatory Categorial Grammarに変換できるのか

日記 by yasuoka

Tu-Anh Tran・Yusuke Miyao『Development of a Multilingual CCG Treebank via Universal Dependencies Conversion』(LREC 2022, pp.5220-5233)を読んでいて、古典中国語UD(Universal Dependencies)を本当にCCG(Combinatory Categorial Grammar)に変換できたのか、というところが気になった。というのも、この論文は、私(安岡孝一)のグループが製作中のUD_Classical_Chinese-Kyotoを扱っているが、その中身について全く言及が無いのだ。

『古典中国語(漢文)Universal Dependenciesとその応用』(情報処理学会論文誌, Vol.63, No.2 (2022年2月), pp.355-363)でも書いたが、UDを古典中国語に適用する場合、補語が節であるようなコピュラ文(約1.6%)が、記法上うまく書けない。たとえば「是民受之也」という文は、SuPar-Kanbun+deplacyだと、以下のように解析されてしまう。

>>> import suparkanbun
>>> nlp=suparkanbun.load()
>>> doc=nlp("是民受之也")
>>> import deplacy
>>> deplacy.render(doc)
是 PRON <════╗   nsubj
民 NOUN <══╗ ║   nsubj
受 VERB ═╗═╝═╝═╗ ROOT
之 PRON <╝     ║ obj
也 PART <══════╝ discourse:sp

「是X也」というコピュラ文の補語Xが「民受之」なのだが、UDはそれをうまく書けず、「受」からnsubjが2本出てしまう。このあたり、実はUDそのものの限界(の一つ)なのだが、さて、これをCCGにうまく変換できたのか、私個人としては非常に気になるところだ。

ただ、以前『Universal Dependenciesの拡張にもとづく古典中国語(漢文)の直接構成鎖解析の試み』(情報処理学会研究報告, Vol.2019-CH-120『人文科学とコンピュータ』, No.1 (2019年5月11日), pp.1-8)でも報告したとおり、この手の変換は、単語間あるいは構成鎖(catena)間に、何がしかの全順序関係(実は半順序関係でも何とかなる)を持ち込めば、かなりの部分がうまく行く。なので、『Development of a Multilingual CCG Treebank via Universal Dependencies Conversion』でも、何がしかの順序関係を持ち込んだのかと思ったのだが、どうもそうでもなさそうだ。うーん、本当にうまくいったのかしら。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

あと、僕は馬鹿なことをするのは嫌いですよ (わざとやるとき以外は)。-- Larry Wall

読み込み中...