yasuokaの日記: Universal Dependenciesの拡張による「They shut the station down」の直接構成鎖解析
私(安岡孝一)の2月26日の日記で議論した「They shut the station down」だが、どうやらcompound:prt(あるいは全てのcompound)を特別扱いすることで、構成鎖不可分性を自動抽出できそうな気配になってきた。具体的には、以下のようなcatena_inseparability付きUniversal Dependenciesが、抽出できればいいということになる。
# text = They shut the station down
# catena_inseparability = 2<1<4<5<3
1 They they PRON PRP Case=Nom|Number=Plur|Person=3|PronType=Prs 2 nsubj _ _
2 shut shut VERB VBD Mood=Ind|Tense=Past|VerbForm=Fin 0 root _ _
3 the the DET DT Definite=Def|PronType=Art 4 det _ _
4 station station NOUN NN Number=Sing 2 obj _ _
5 down down ADP RP _ 2 compound:prt _ _
「UDPipe Visualizer with Immediate Catena Tree」で可視化してみると、こんな感じ。「shut down」と「the station」の間で、構成鎖解析木の枝が交差してしまうが、それは仕方ないだろう。UDPipeのenglish-gum-ud-2.4-190531モデルを使えば、現状でも何とか自動抽出できそうな気配だが、他のモデルや例文も、もう少し調べてみる必要がありそうだ。さて、どうなるかな。
Universal Dependenciesの拡張による「They shut the station down」の直接構成鎖解析 More ログイン