yasuokaの日記: Re:「It values, instead, its good men.」のitsは、itとsに分かれるのか
私(安岡孝一)の昨日の日記で書いた「It values, instead, its good men.」だが、UDPipeにもenglish-ewt-ud-2.4モデルがあることを思い出したので、UniDic2UD経由で試して見た。
% python3
>>> import unidic2ud
>>> en=unidic2ud.load(UniDic=None,UDPipe="english-ewt")
>>> s=en("It values, instead, its good men.")
>>> print(s)
# sent_id = 1
# text = It values, instead, its good men.
1 It it PRON PRP Case=Nom|Gender=Neut|Number=Sing|Person=3|PronType=Prs 2 nsubj _ _
2 values value VERB VBZ Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 0 root _ SpaceAfter=No
3 , , PUNCT , _ 2 punct _ _
4 instead instead ADV RB _ 2 advmod _ SpaceAfter=No
5 , , PUNCT , _ 2 punct _ _
6 it it PRON PRP Case=Nom|Gender=Neut|Number=Sing|Person=3|PronType=Prs 9 nsubj _ SpaceAfter=No
7 s be AUX VBZ Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 9 cop _ _
8 good good ADJ JJ Degree=Pos 9 amod _ _
9 men man NOUN NNS Number=Plur 2 parataxis _ SpaceAfter=No
10 . . PUNCT . _ 2 punct _ SpaceAfter=No
「CoNLL-U SVG Editor」で可視化すると、こんな感じ。やはり「its」が「it」と「s」に分かれてしまっていて、かなり気持ち悪い。一方、UDPipeのenglish-gum-ud-2.4モデルだと、以下のようになった。
% python3
>>> import unidic2ud
>>> eng=unidic2ud.load(UniDic=None,UDPipe="english-gum")
>>> s=eng("It values, instead, its good men.")
>>> print(s)
# sent_id = 1
# text = It values, instead, its good men.
1 It it PRON PRP Case=Nom|Gender=Neut|Number=Sing|Person=3|PronType=Prs 2 nsubj _ _
2 values value VERB VBZ Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 0 root _ SpaceAfter=No
3 , , PUNCT , _ 4 punct _ _
4 instead instead ADV RB _ 2 advmod _ SpaceAfter=No
5 , , PUNCT , _ 8 punct _ _
6 its its PRON PRP$ Gender=Neut|Number=Sing|Person=3|Poss=Yes|PronType=Prs 8 nmod:poss _ _
7 good good ADJ JJ Degree=Pos 8 amod _ _
8 men man NOUN NNS Number=Plur 2 obj _ SpaceAfter=No
9 . . PUNCT . _ 2 punct _ SpaceAfter=No
「CoNLL-U SVG Editor」で可視化すると、こんな感じ。どう考えても、EWTモデルの方に問題があるようだ。EWTモデルは、元々、インターネットで拾い集めてきた英文の係り受けコーパスなので、「its」を「it's」と混同するくらいは当たり前の世界なのだろう。さて、このあたり、どうしたものかな。
Re:「It values, instead, its good men.」のitsは、itとsに分かれるのか More ログイン