パスワードを忘れた? アカウント作成
14188054 journal
人工知能

yasuokaの日記: 「近いとしても」と「親としても」では単語間の係り受け構造は異なるのか

日記 by yasuoka

一昨昨日の日記で、私(安岡孝一)はこう書いた。

また、日本語ツリーバンクUD_Japanese-GSDがUniDic準拠の品詞体系(および国語研短単位)となった。

なったのは事実なのだが、5月4日の日記で書いた係り受けの齟齬が、まだ残っているようだ。UD_Japanese-GSD中の「家から近いとしても、他を選んだ方が賢明です。」と「親としても、安心できました。」という2つの例文を、見比べてみよう。

# sent_id = train-s136
# text = 家から近いとしても、他を選んだ方が賢明です。
1    家    家    NOUN    名詞-普通名詞-一般    _    3    obl    _    BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UniDicLemma=家
2    から    から    ADP    助詞-格助詞    _    1    case    _    BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=から
3    近い    近い    ADJ    形容詞-一般    _    15    advcl    _    BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=形容詞-一般|SpaceAfter=No|UniDicLemma=近い
4    と    と    SCONJ    助詞-格助詞    _    3    mark    _    BunsetuPositionType=FUNC|LUWBILabel=B|LUWPOS=助詞-接続助詞|SpaceAfter=No|UniDicLemma=と
5    し    する    SCONJ    動詞-非自立可能    _    3    mark    _    BunsetuPositionType=CONT|LUWBILabel=I|LUWPOS=助詞-接続助詞|SpaceAfter=No|UniDicLemma=為る
6    て    て    SCONJ    助詞-接続助詞    _    3    mark    _    BunsetuPositionType=FUNC|LUWBILabel=I|LUWPOS=助詞-接続助詞|SpaceAfter=No|UniDicLemma=て
7    も    も    SCONJ    助詞-係助詞    _    3    mark    _    BunsetuPositionType=SYN_HEAD|LUWBILabel=I|LUWPOS=助詞-接続助詞|SpaceAfter=No|UniDicLemma=も
8    、    、    PUNCT    補助記号-読点    _    3    punct    _    BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=補助記号-読点|SpaceAfter=No|UniDicLemma=、
9    他    他    NOUN    名詞-普通名詞-副詞可能    _    11    obj    _    BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UniDicLemma=他
10    を    を    ADP    助詞-格助詞    _    9    case    _    BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=を
11    選ん    選ぶ    VERB    動詞-一般    _    13    acl    _    BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=動詞-一般|SpaceAfter=No|UniDicLemma=選ぶ
12    だ    だ    AUX    助動詞    _    11    aux    _    BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助動詞|SpaceAfter=No|UniDicLemma=た
13    方    方    NOUN    名詞-普通名詞-一般    _    15    nsubj    _    BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UniDicLemma=方
14    が    が    ADP    助詞-格助詞    _    13    case    _    BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=が
15    賢明    賢明    ADJ    名詞-普通名詞-形状詞可能    _    0    root    _    BunsetuPositionType=ROOT|LUWBILabel=B|LUWPOS=形状詞-一般|SpaceAfter=No|UniDicLemma=賢明
16    です    だ    AUX    助動詞    _    15    aux    _    BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助動詞|SpaceAfter=No|UniDicLemma=です
17    。    。    PUNCT    補助記号-句点    _    15    punct    _    BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=補助記号-句点|SpaceAfter=No|UniDicLemma=。

# sent_id = train-s4302
# text = 親としても、安心できました。
1    親    親    NOUN    名詞-普通名詞-一般    _    7    obl    _    BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UniDicLemma=親
2    と    と    ADP    助詞-格助詞    _    1    case    _    BunsetuPositionType=FUNC|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=と
3    し    する    AUX    動詞-非自立可能    _    2    fixed    _    BunsetuPositionType=CONT|LUWBILabel=I|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=為る
4    て    て    SCONJ    助詞-接続助詞    _    2    fixed    _    BunsetuPositionType=FUNC|LUWBILabel=I|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=て
5    も    も    ADP    助詞-係助詞    _    1    case    _    BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-係助詞|SpaceAfter=No|UniDicLemma=も
6    、    、    PUNCT    補助記号-読点    _    1    punct    _    BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=補助記号-読点|SpaceAfter=No|UniDicLemma=、
7    安心    安心    VERB    名詞-普通名詞-サ変形状詞可能    _    0    root    _    BunsetuPositionType=ROOT|LUWBILabel=B|LUWPOS=動詞-一般|SpaceAfter=No|UniDicLemma=安心
8    でき    できる    AUX    動詞-非自立可能    _    7    aux    _    BunsetuPositionType=CONT|LUWBILabel=I|LUWPOS=動詞-一般|SpaceAfter=No|UniDicLemma=出来る
9    まし    ます    AUX    助動詞    _    7    aux    _    BunsetuPositionType=FUNC|LUWBILabel=B|LUWPOS=助動詞|SpaceAfter=No|UniDicLemma=ます
10    た    た    AUX    助動詞    _    7    aux    _    BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助動詞|SpaceAfter=No|UniDicLemma=た
11    。    。    PUNCT    補助記号-句点    _    7    punct    _    BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=補助記号-句点|SpaceAfter=No|UniDicLemma=。

「近いとしても」では「と」「し」「て」「も」が全て「近い」にぶらさがっているのに対し、「親としても」では「と」と「も」が「親」にぶらさがっていて、「し」と「て」が「と」にぶらさがっている。deplacyで図示してみよう。

家   NOUN  ═╗<╗               obl
から ADP   <╝ ║               case
近い ADJ   ═══╝═╗═╗═╗═╗═╗<╗   advcl
と   SCONJ <════╝ ║ ║ ║ ║ ║   mark
し   SCONJ <══════╝ ║ ║ ║ ║   mark
て   SCONJ <════════╝ ║ ║ ║   mark
も   SCONJ <══════════╝ ║ ║   mark
、   PUNCT <════════════╝ ║   punct
他   NOUN  ═╗<╗           ║   obj
を   ADP   <╝ ║           ║   case
選ん VERB  ═╗═╝<╗         ║   acl
だ   AUX   <╝   ║         ║   aux
方   NOUN  ═╗═══╝<╗       ║   nsubj
が   ADP   <╝     ║       ║   case
賢明 ADJ   ═╗═════╝═══════╝═╗ root
です AUX   <╝               ║ aux
。   PUNCT <════════════════╝ punct

親   NOUN  ═════╗═╗═╗<╗   obl
と   ADP   ═╗═╗<╝ ║ ║ ║   case
し   AUX   <╝ ║   ║ ║ ║   fixed
て   SCONJ <══╝   ║ ║ ║   fixed
も   ADP   <══════╝ ║ ║   case
、   PUNCT <════════╝ ║   punct
安心 VERB  ═╗═╗═╗═════╝═╗ root
でき AUX   <╝ ║ ║       ║ aux
まし AUX   <══╝ ║       ║ aux
た   AUX   <════╝       ║ aux
。   PUNCT <════════════╝ punct

ごらんのとおり、「近いとしても」と「親としても」で、係り受け構造が異なっている。こういうのがアチコチ含まれているために、私の手元では、係り受けの機械学習精度が下がってしまって、非常に悩ましい。どちらかに統一すべきだと思うのだが、統一するなら「近いとしても」の構造(fixedを使わない)の方がいいかなぁ。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

クラックを法規制強化で止められると思ってる奴は頭がおかしい -- あるアレゲ人

読み込み中...