パスワードを忘れた? アカウント作成
13791944 journal
人工知能

yasuokaの日記: 古典中国語Universal Dependenciesの構成素解析向け拡張(簡易版)

日記 by yasuoka

昨日の日記で示したUniversal Dependenciesの構成素解析向け拡張が、かなりヤヤコシイ結果になってしまったので、最小限の情報にまで削ぎ落とすことを考えてみた。端的には、multiword tokenを使わずに、MISCフィールド(第10フィールド)にConstituentという属性を追加するだけで、必要ギリギリの情報が表せそうだ。

1 置 置 VERB v,動詞,行為,設置 _ 0 root _ Constituent=1-8,1-5|Gloss=place|SpaceAfter=No
2 參 參 VERB v,動詞,行為,役割 _ 1 ccomp _ Constituent=2-5|Gloss=consult|SpaceAfter=No
3 知 知 VERB v,動詞,行為,動作 _ 2 ccomp _ Constituent=3-5|Gloss=know|SpaceAfter=No
4 政 政 NOUN n,名詞,制度,儀礼 _ 5 nmod _ Gloss=government|SpaceAfter=No
5 事 事 NOUN n,名詞,可搬,成果物 _ 3 obj _ Constituent=4-5|Gloss=affair|SpaceAfter=No
6 以 以 VERB v,動詞,行為,動作 _ 7 advmod _ Gloss=use|SpaceAfter=No
7 副 副 VERB v,動詞,行為,交流 _ 1 conj _ Constituent=6-8,7-8|Gloss=aid|SpaceAfter=No
8 普 普 PROPN n,名詞,人,名 _ 7 obj _ Gloss=Pu|SpaceAfter=No

どの構成素の情報をどの単語に書くかは、多少、悩ましい点もあったのだが、とりあえず、構成素のheadにあたる単語のMISCフィールドに書くことにした。そうすると、たとえば上の例での「副」は、「以副普」と「副普」という2つの構成素のheadにあたることから、ざっくりConstituent=6-8,7-8と表している。もちろん、この表記法は、あくまで簡易版なので、実際の構成素解析においては、もう少しヤヤコシイ表記法を使わざるを得ないと思う。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

あつくて寝られない時はhackしろ! 386BSD(98)はそうやってつくられましたよ? -- あるハッカー

読み込み中...