yasuokaの日記: 抱合語のUniversal Dependenciesにおける単語長はどう設定すべきか
一昨昨日の『第3回Universal Dependencies公開研究会』での韓国語UDの議論に関連して、抱合語のUDにおける単語長が気になった。UD 2.7でチュクチ語UDがリリースされていたのを思い出したので、とりあえず見てみた。
# text = Ныныпчеӈивйивӄин коԓё нымныма Медведевъым.
# text_en = All the village was asking Medvedev various questions.
1 Ныныпчеӈивйивӄин _ VERB _ _ 0 root _ Gloss=ST-TR-расспрашивать-CS-DISTR.O-ST.3SG
2 коԓё _ ADV _ _ 1 advmod _ Gloss=очень
3 нымныма _ NOUN _ _ 1 nsubj _ Gloss=посёлок-INS
4-5 Медведевъым _ _ _ _ _ _ _ Gloss=Медведев-NOM.SG-=EMPH|SpaceAfter=No
4 Медведев _ PROPN _ _ 1 obj _ Gloss=Медведев-NOM.SG
5 ъым _ PART _ _ 4 advmod:emph _ Gloss=EMPH
6 . _ PUNCT _ _ 1 punct _ _
チュクチ語UDでは、基本的に空白が単語の区切りであり、強調の「ъым」や「э」を除いては、それより細かい分解はおこなわれていない。私(安岡孝一)の見る限りでは、韓国語UDの考え方に近い。一方、UD 2.8でリリースされたユピック語UD(セントローレンス島)は、もう少し細かい分解が行われているものの、内部の単語に品詞が付与されておらず「X」となっている。
# text = Afsengaq neghtuq pagunghaghmeng.
# text_en = A mouse ate crowberries.
1 Afsengaq afsengaq NOUN _ Case=Abs|Number=Sing 2 nsubj _ Analysis=afsengagh*(N)^[Abs.Sg]|Gloss=a-vole
2-4 neghtuq _ _ _ _ _ _ _ Analysis=negh(V)^[Ind.Intr]^[3Sg]|Gloss=it-ate
2 negh negh VERB _ _ 0 root _ Analysis=negh(V)|Gloss=to-eat
3 tu tu X _ Mood=Ind|Subcat=Intr 2 dep:infl _ Analysis=[Ind.Intr]
4 q q X _ Number[subj]=Sing|Person[subj]=3 2 dep:infl _ Analysis=[3Sg]
5-6 pagunghaghmeng _ _ _ _ _ _ _ Analysis=pagunghagh*(N)^[Abl_Mod.Sg]|Gloss=by-the-means-of-crowberry|SpaceAfter=No
5 pagunghagh pagunghagh NOUN _ _ 2 obl:mod _ Analysis=pagunghagh*(N)|Gloss=crowberry
6 meng meng X _ Case=Abl|Number=Sing 5 dep:infl _ Analysis=[Abl_Mod.Sg]
7 . . PUNCT _ _ 2 punct _ Analysis=.
ならば、アイヌ語UDはどうだろう、と思ってアクセスしてみたのだが、URLが変わってしまったのか、私の手元ではうまく繋がらない。仕方ないので、瀬沼甫・相澤彰子『Universal Dependencies for Ainu』(LREC 2018, pp.2354-2358)を横目に、「Shineantota nishmuash kusu pishta sapash,」を再構成してみた。
# text = Shineantota nishmuash kusu pishta sapash,
# text_ja = 或日に退屈なので濱邊へ出て
1 Shineantota sine-an-to-ta ADV _ _ 2 advmod _ Gloss=one.day
2 nishmu nismu VERB _ Valency=1 7 advcl _ Gloss=be.bored|SpaceAfter=No
3 ash =as PART _ Number=Plur|Person=1|PronType=Prs|Valency=1 2 aux _ _
4 kusu kusu SCONJ _ _ 2 mark _ Gloss=because|SpaceAfter=No
5 pish pis NOUN _ Place=Yes 4 nmod _ Gloss=beach|SpaceAfter=No
6 ta ta ADP _ _ 5 case _ Gloss=at
7 sap san VERB _ Number=Pluract|Valency=1 0 root _ Gloss=go.downstream|SpaceAfter=No
8 ash =as PART _ Number=Plur|Person=1|PronType=Prs|Valency=1 7 aux _ SpaceAfter=No
9 , , PUNCT _ _ 7 punct _ _
アイヌ語UDは、チュクチ語UDより短い単位を単語とみなしており、ユピック語UDに考え方が近いようだ。アイヌ語には、そもそも正書法が無かったので、空白に頼れないのは当然だろう。ただ、今後もアイヌ語UDにアクセスできないのなら、これ以上、議論を進めるのは難しいかなぁ。
抱合語のUniversal Dependenciesにおける単語長はどう設定すべきか More ログイン