yasuokaの日記: 「イタカㇱ アワ ポンルㇷ゚ネアイヌ エネ イタキ」をUniversal Dependenciesで書くには
昨日の『東洋学へのコンピュータ利用』でも議論になったのだが、カタカナ表記のアイヌ語をUniversal Dependenciesで記述するには、どうも縮約語っぽい記法の助けが必要となる。試しに「イタカㇱ アワ ポンルㇷ゚ネアイヌ エネ イタキ」を書いてみよう。
# text = イタカㇱ アワ ポンルㇷ゚ネアイヌ エネ イタキ
1-2 イタカㇱ _ _ _ _ _ _ _ _
1 イタㇰ itak VERB 自動詞 _ 0 root _ _
2 アㇱ =as PART 人称接辞 _ 1 nsubj _ _
3 アワ awa CCONJ 接続詞 _ 1 cc _ _
4 ポン pon VERB 自動詞 _ 6 amod _ SpaceAfter=No
5 ルㇷ゚ネ rupne VERB 自動詞 _ 6 amod _ SpaceAfter=No
6 アイヌ aynu NOUN 名詞 _ 8 nsubj _ _
7 エネ ene ADV 副詞 _ 8 advmod _ _
8-9 イタキ _ _ _ _ _ _ _ _
8 イタㇰ itak VERB 自動詞 _ 9 acl _ _
9 イ -i PART 接尾辞 _ 1 conj _ _
SVGで可視化すると、こんな感じ。「イタㇰ」が閉音節なので、直後に母音が来ると、カタカナ表記としてはくっついてしまう。つまり、文字の途中に語境界が来てしまうので、まあ、面倒くさいことこの上ない。でも、今後はカタカナ表記のアイヌ語も増えていくだろうし、扱い方をちゃんと決めておくしかないかなぁ。
「イタカㇱ アワ ポンルㇷ゚ネアイヌ エネ イタキ」をUniversal Dependenciesで書くには More ログイン