パスワードを忘れた? アカウント作成
14176705 journal
人工知能

yasuokaの日記: UD_Japanese-GSD (v2.6向けdev)プレリリースに関して

日記 by yasuoka

5月15日リリース予定のUniversal Dependencies 2.6に向けて、日本語向けUD_Japanese-GSDが改良されたとの御連絡をいただいた。ざっと見てみたところ、単語切りが国語研短単位になっている上にXPOSがUniDic互換になっていて、非常に良い。素晴らしい出来だ。ただ、改良に際して、どこかで無理があったのか、単語間係り受けや文節に関して、微妙に齟齬が生じている。「教団にとっては存続が厳しくなると思う。」という例文を見てみよう。

# sent_id = test-s9
# text = 教団にとっては存続が厳しくなると思う。
1    教団    教団    NOUN    名詞-普通名詞-一般    _    9    obl    _    BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UniDicLemma=教団
2    に    に    ADP    助詞-格助詞    _    1    case    _    BunsetuBILabel=I|BunsetuPositionType=FUNC|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=に
3    とっ    とる    VERB    動詞-一般    _    2    fixed    _    BunsetuBILabel=I|BunsetuPositionType=CONT|LUWBILabel=I|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=取る
4    て    て    SCONJ    助詞-接続助詞    _    2    fixed    _    BunsetuBILabel=I|BunsetuPositionType=FUNC|LUWBILabel=I|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=て
5    は    は    ADP    助詞-係助詞    _    1    case    _    BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-係助詞|SpaceAfter=No|UniDicLemma=は
6    存続    存続    NOUN    名詞-普通名詞-サ変可能    _    8    nsubj    _    BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UniDicLemma=存続
7    が    が    ADP    助詞-格助詞    _    6    case    _    BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=が
8    厳しく    厳しい    ADJ    形容詞-一般    _    9    advcl    _    BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=形容詞-一般|SpaceAfter=No|UniDicLemma=厳しい
9    なる    なる    VERB    動詞-非自立可能    _    11    ccomp    _    BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=動詞-一般|SpaceAfter=No|UniDicLemma=成る
10    と    と    ADP    助詞-格助詞    _    9    case    _    BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=と
11    思う    思う    VERB    動詞-一般    _    0    root    _    BunsetuBILabel=B|BunsetuPositionType=ROOT|LUWBILabel=B|LUWPOS=動詞-一般|SpaceAfter=No|UniDicLemma=思う
12    。    。    PUNCT    補助記号-句点    _    11    punct    _    BunsetuBILabel=I|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=補助記号-句点|SpaceAfter=No|UniDicLemma=。

SVGで可視化すると、こんな感じ。「にとっては」のあたりが、v2.5時代のGSDに引きずられていて、微妙にマズイ。というのも、この例文において「なると」が文節を構成するという立場を取るならば、同様に「とっては」も文節を構成するので、「とっ」はBunsetuBILabel=B|BunsetuPositionType=SEM_HEADとすべきなのだ。私(安岡孝一)が手で書き換えてみるなら、こんな風になる。

# sent_id = test-s9
# text = 教団にとっては存続が厳しくなると思う。
1    教団    教団    NOUN    名詞-普通名詞-一般    _    3    obl    _    BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UniDicLemma=教団
2    に    に    ADP    助詞-格助詞    _    1    case    _    BunsetuBILabel=I|BunsetuPositionType=FUNC|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=に
3    とっ    とる    VERB    動詞-一般    _    9    advcl    _    BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=I|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=取る
4    て    て    SCONJ    助詞-接続助詞    _    3    mark    _    BunsetuBILabel=I|BunsetuPositionType=FUNC|LUWBILabel=I|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=て
5    は    は    ADP    助詞-係助詞    _    3    case    _    BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-係助詞|SpaceAfter=No|UniDicLemma=は
6    存続    存続    NOUN    名詞-普通名詞-サ変可能    _    8    nsubj    _    BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UniDicLemma=存続
7    が    が    ADP    助詞-格助詞    _    6    case    _    BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=が
8    厳しく    厳しい    ADJ    形容詞-一般    _    9    advcl    _    BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=形容詞-一般|SpaceAfter=No|UniDicLemma=厳しい
9    なる    なる    VERB    動詞-非自立可能    _    11    ccomp    _    BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=動詞-一般|SpaceAfter=No|UniDicLemma=成る
10    と    と    ADP    助詞-格助詞    _    9    case    _    BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=と
11    思う    思う    VERB    動詞-一般    _    0    root    _    BunsetuBILabel=B|BunsetuPositionType=ROOT|LUWBILabel=B|LUWPOS=動詞-一般|SpaceAfter=No|UniDicLemma=思う
12    。    。    PUNCT    補助記号-句点    _    11    punct    _    BunsetuBILabel=I|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=補助記号-句点|SpaceAfter=No|UniDicLemma=。

ただ、こういう改良を自動でおこなうのは困難を極めるし、現在の情勢ではガマンするしかない、というのも、また現実だったりする。まあ、v2.7以降に期待かな。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

犯人はmoriwaka -- Anonymous Coward

読み込み中...