パスワードを忘れた? アカウント作成
13944375 journal
人工知能

yasuokaの日記: 「着たくない服は着ない」の「ない」はcliticかaffixか

日記 by yasuoka

村脇有吾の「On the Definition of Japanese Word」(arXiv、2019年6月24日)を読んでいたところ、ふっとCOTOHA APIに思い至った。COTOHA API構文解析v1は、いわゆる「超短単位」なので、そのままUniversal Dependenciesに変換すると、単語が短くなりすぎるのだ。以前、私(安岡孝一)が作ったCotoha2UD.pyで、「着たくない服は着ない」という文を解析してみよう。

% python3 -i Cotoha2UD.py
>>> ja=Cotoha2UD(accessToken="アクセストークン")
>>> s=ja("着たくない服は着ない")
>>> print(s)
1    着    着る    VERB    動詞語幹[A]    _    6    acl    _    SpaceAfter=No
2    た    たい    AUX    動詞接尾辞[形容詞語幹]    _    1    aux    _    SpaceAfter=No
3    く    く    AUX    形容詞接尾辞[連用]    _    1    aux    _    SpaceAfter=No
4    な    ない    AUX    形容詞語幹[アウオ段]    Polarity=Neg    1    aux    _    SpaceAfter=No
5    い    い    AUX    形容詞接尾辞[連体]    _    1    aux    _    SpaceAfter=No
6    服    服    NOUN    名詞    _    8    obj    _    SpaceAfter=No
7    は    は    ADP    連用助詞    _    6    case    _    SpaceAfter=No
8    着    着る    VERB    動詞語幹[A]    _    0    root    _    SpaceAfter=No
9    ない    ない    AUX    動詞接尾辞[終止]    Polarity=Neg    8    aux    _    SpaceAfter=No

SVGで可視化すると、こんな感じ。接尾辞がバラバラになっているので、Universal Dependenciesとしてはマズイことになっている。これを、上記論文のアイデアに従って、affix(接頭辞とか接尾辞)を周りの単語にくっつけると、たとえば以下のようになる。

1    着たく    着る    VERB    動詞語幹[A]+動詞接尾辞[形容詞語幹]+形容詞接尾辞[連用]    _    3    acl    _    SpaceAfter=No
2    ない    ない    AUX    形容詞語幹[アウオ段]+形容詞接尾辞[連体]    Polarity=Neg    1    aux    _    SpaceAfter=No
3    服    服    NOUN    名詞    _    5    obj    _    SpaceAfter=No
4    は    は    ADP    連用助詞    _    3    case    _    SpaceAfter=No
5    着ない    着る    VERB    動詞語幹[A]+動詞接尾辞[終止]    Polarity=Neg    0    root    _    SpaceAfter=No

「着たくない」の「ない」はclitic(接語)なので、「着たく」と「ない」で分ける。「服は」の「は」もcliticなので、「服」と「は」をくっつけない。一方、「着ない」の「ない」はaffixなので、くっつける。SVGで可視化すると、こんな感じ。ふーむ、接尾辞と活用語尾なら、うまく自動でくっつけられる気がするのだけど、さてそれは、ちゃんとcliticとaffixを見分け切れるかしら。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」

読み込み中...