yasuokaの日記: UD_Japanese-GSD (v2.6向けdev)プレリリースに関して
5月15日リリース予定のUniversal Dependencies 2.6に向けて、日本語向けUD_Japanese-GSDが改良されたとの御連絡をいただいた。ざっと見てみたところ、単語切りが国語研短単位になっている上にXPOSがUniDic互換になっていて、非常に良い。素晴らしい出来だ。ただ、改良に際して、どこかで無理があったのか、単語間係り受けや文節に関して、微妙に齟齬が生じている。「教団にとっては存続が厳しくなると思う。」という例文を見てみよう。
# sent_id = test-s9
# text = 教団にとっては存続が厳しくなると思う。
1 教団 教団 NOUN 名詞-普通名詞-一般 _ 9 obl _ BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UniDicLemma=教団
2 に に ADP 助詞-格助詞 _ 1 case _ BunsetuBILabel=I|BunsetuPositionType=FUNC|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=に
3 とっ とる VERB 動詞-一般 _ 2 fixed _ BunsetuBILabel=I|BunsetuPositionType=CONT|LUWBILabel=I|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=取る
4 て て SCONJ 助詞-接続助詞 _ 2 fixed _ BunsetuBILabel=I|BunsetuPositionType=FUNC|LUWBILabel=I|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=て
5 は は ADP 助詞-係助詞 _ 1 case _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-係助詞|SpaceAfter=No|UniDicLemma=は
6 存続 存続 NOUN 名詞-普通名詞-サ変可能 _ 8 nsubj _ BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UniDicLemma=存続
7 が が ADP 助詞-格助詞 _ 6 case _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=が
8 厳しく 厳しい ADJ 形容詞-一般 _ 9 advcl _ BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=形容詞-一般|SpaceAfter=No|UniDicLemma=厳しい
9 なる なる VERB 動詞-非自立可能 _ 11 ccomp _ BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=動詞-一般|SpaceAfter=No|UniDicLemma=成る
10 と と ADP 助詞-格助詞 _ 9 case _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=と
11 思う 思う VERB 動詞-一般 _ 0 root _ BunsetuBILabel=B|BunsetuPositionType=ROOT|LUWBILabel=B|LUWPOS=動詞-一般|SpaceAfter=No|UniDicLemma=思う
12 。 。 PUNCT 補助記号-句点 _ 11 punct _ BunsetuBILabel=I|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=補助記号-句点|SpaceAfter=No|UniDicLemma=。
SVGで可視化すると、こんな感じ。「にとっては」のあたりが、v2.5時代のGSDに引きずられていて、微妙にマズイ。というのも、この例文において「なると」が文節を構成するという立場を取るならば、同様に「とっては」も文節を構成するので、「とっ」はBunsetuBILabel=B|BunsetuPositionType=SEM_HEADとすべきなのだ。私(安岡孝一)が手で書き換えてみるなら、こんな風になる。
# sent_id = test-s9
# text = 教団にとっては存続が厳しくなると思う。
1 教団 教団 NOUN 名詞-普通名詞-一般 _ 3 obl _ BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UniDicLemma=教団
2 に に ADP 助詞-格助詞 _ 1 case _ BunsetuBILabel=I|BunsetuPositionType=FUNC|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=に
3 とっ とる VERB 動詞-一般 _ 9 advcl _ BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=I|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=取る
4 て て SCONJ 助詞-接続助詞 _ 3 mark _ BunsetuBILabel=I|BunsetuPositionType=FUNC|LUWBILabel=I|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=て
5 は は ADP 助詞-係助詞 _ 3 case _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-係助詞|SpaceAfter=No|UniDicLemma=は
6 存続 存続 NOUN 名詞-普通名詞-サ変可能 _ 8 nsubj _ BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=名詞-普通名詞-一般|SpaceAfter=No|UniDicLemma=存続
7 が が ADP 助詞-格助詞 _ 6 case _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=が
8 厳しく 厳しい ADJ 形容詞-一般 _ 9 advcl _ BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=形容詞-一般|SpaceAfter=No|UniDicLemma=厳しい
9 なる なる VERB 動詞-非自立可能 _ 11 ccomp _ BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|LUWBILabel=B|LUWPOS=動詞-一般|SpaceAfter=No|UniDicLemma=成る
10 と と ADP 助詞-格助詞 _ 9 case _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|LUWBILabel=B|LUWPOS=助詞-格助詞|SpaceAfter=No|UniDicLemma=と
11 思う 思う VERB 動詞-一般 _ 0 root _ BunsetuBILabel=B|BunsetuPositionType=ROOT|LUWBILabel=B|LUWPOS=動詞-一般|SpaceAfter=No|UniDicLemma=思う
12 。 。 PUNCT 補助記号-句点 _ 11 punct _ BunsetuBILabel=I|BunsetuPositionType=CONT|LUWBILabel=B|LUWPOS=補助記号-句点|SpaceAfter=No|UniDicLemma=。
ただ、こういう改良を自動でおこなうのは困難を極めるし、現在の情勢ではガマンするしかない、というのも、また現実だったりする。まあ、v2.7以降に期待かな。
UD_Japanese-GSD (v2.6向けdev)プレリリースに関して More ログイン