パスワードを忘れた? アカウント作成
15330333 journal
人工知能

yasuokaの日記: 抱合語のUniversal Dependenciesにおける単語長はどう設定すべきか

日記 by yasuoka

一昨昨日の『第3回Universal Dependencies公開研究会』での韓国語UDの議論に関連して、抱合語のUDにおける単語長が気になった。UD 2.7チュクチ語UDがリリースされていたのを思い出したので、とりあえず見てみた。

# text = Ныныпчеӈивйивӄин коԓё нымныма Медведевъым.
# text_en = All the village was asking Medvedev various questions.
1    Ныныпчеӈивйивӄин    _    VERB    _    _    0    root    _    Gloss=ST-TR-расспрашивать-CS-DISTR.O-ST.3SG
2    коԓё    _    ADV    _    _    1    advmod    _    Gloss=очень
3    нымныма    _    NOUN    _    _    1    nsubj    _    Gloss=посёлок-INS
4-5    Медведевъым    _    _    _    _    _    _    _    Gloss=Медведев-NOM.SG-=EMPH|SpaceAfter=No
4    Медведев    _    PROPN    _    _    1    obj    _    Gloss=Медведев-NOM.SG
5    ъым    _    PART    _    _    4    advmod:emph    _    Gloss=EMPH
6    .    _    PUNCT    _    _    1    punct    _    _

チュクチ語UDでは、基本的に空白が単語の区切りであり、強調の「ъым」や「э」を除いては、それより細かい分解はおこなわれていない。私(安岡孝一)の見る限りでは、韓国語UDの考え方に近い。一方、UD 2.8でリリースされたユピック語UD(セントローレンス島)は、もう少し細かい分解が行われているものの、内部の単語に品詞が付与されておらず「X」となっている。

# text = Afsengaq neghtuq pagunghaghmeng.
# text_en = A mouse ate crowberries.
1    Afsengaq    afsengaq    NOUN    _    Case=Abs|Number=Sing    2    nsubj    _    Analysis=afsengagh*(N)^[Abs.Sg]|Gloss=a-vole
2-4    neghtuq    _    _    _    _    _    _    _    Analysis=negh(V)^[Ind.Intr]^[3Sg]|Gloss=it-ate
2    negh    negh    VERB    _    _    0    root    _    Analysis=negh(V)|Gloss=to-eat
3    tu    tu    X    _    Mood=Ind|Subcat=Intr    2    dep:infl    _    Analysis=[Ind.Intr]
4    q    q    X    _    Number[subj]=Sing|Person[subj]=3    2    dep:infl    _    Analysis=[3Sg]
5-6    pagunghaghmeng    _    _    _    _    _    _    _    Analysis=pagunghagh*(N)^[Abl_Mod.Sg]|Gloss=by-the-means-of-crowberry|SpaceAfter=No
5    pagunghagh    pagunghagh    NOUN    _    _    2    obl:mod    _    Analysis=pagunghagh*(N)|Gloss=crowberry
6    meng    meng    X    _    Case=Abl|Number=Sing    5    dep:infl    _    Analysis=[Abl_Mod.Sg]
7    .    .    PUNCT    _    _    2    punct    _    Analysis=.

ならば、アイヌ語UDはどうだろう、と思ってアクセスしてみたのだが、URLが変わってしまったのか、私の手元ではうまく繋がらない。仕方ないので、瀬沼甫・相澤彰子『Universal Dependencies for Ainu』(LREC 2018, pp.2354-2358)を横目に、「Shineantota nishmuash kusu pishta sapash,」を再構成してみた。

# text = Shineantota nishmuash kusu pishta sapash,
# text_ja = 或日に退屈なので濱邊へ出て
1    Shineantota    sine-an-to-ta    ADV    _    _    2    advmod    _    Gloss=one.day
2    nishmu    nismu    VERB    _    Valency=1    7    advcl    _    Gloss=be.bored|SpaceAfter=No
3    ash    =as    PART    _    Number=Plur|Person=1|PronType=Prs|Valency=1    2    aux    _    _
4    kusu    kusu    SCONJ    _    _    2    mark    _    Gloss=because|SpaceAfter=No
5    pish    pis    NOUN    _    Place=Yes    4    nmod    _    Gloss=beach|SpaceAfter=No
6    ta    ta    ADP    _    _    5    case    _    Gloss=at
7    sap    san    VERB    _    Number=Pluract|Valency=1    0    root    _    Gloss=go.downstream|SpaceAfter=No
8    ash    =as    PART    _    Number=Plur|Person=1|PronType=Prs|Valency=1    7    aux    _    SpaceAfter=No
9    ,    ,    PUNCT    _    _    7    punct    _    _

アイヌ語UDは、チュクチ語UDより短い単位を単語とみなしており、ユピック語UDに考え方が近いようだ。アイヌ語には、そもそも正書法が無かったので、空白に頼れないのは当然だろう。ただ、今後もアイヌ語UDにアクセスできないのなら、これ以上、議論を進めるのは難しいかなぁ。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

犯人はmoriwaka -- Anonymous Coward

読み込み中...