パスワードを忘れた? アカウント作成
14018429 journal
人工知能

yasuokaの日記: Re:「It values, instead, its good men.」のitsは、itとsに分かれるのか

日記 by yasuoka

私(安岡孝一)の昨日の日記で書いた「It values, instead, its good men.」だが、UDPipeにもenglish-ewt-ud-2.4モデルがあることを思い出したので、UniDic2UD経由で試して見た。

% python3
>>> import unidic2ud
>>> en=unidic2ud.load(UniDic=None,UDPipe="english-ewt")
>>> s=en("It values, instead, its good men.")
>>> print(s)
# sent_id = 1
# text = It values, instead, its good men.
1    It    it    PRON    PRP    Case=Nom|Gender=Neut|Number=Sing|Person=3|PronType=Prs    2    nsubj    _    _
2    values    value    VERB    VBZ    Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin    0    root    _    SpaceAfter=No
3    ,    ,    PUNCT    ,    _    2    punct    _    _
4    instead    instead    ADV    RB    _    2    advmod    _    SpaceAfter=No
5    ,    ,    PUNCT    ,    _    2    punct    _    _
6    it    it    PRON    PRP    Case=Nom|Gender=Neut|Number=Sing|Person=3|PronType=Prs    9    nsubj    _    SpaceAfter=No
7    s    be    AUX    VBZ    Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin    9    cop    _    _
8    good    good    ADJ    JJ    Degree=Pos    9    amod    _    _
9    men    man    NOUN    NNS    Number=Plur    2    parataxis    _    SpaceAfter=No
10    .    .    PUNCT    .    _    2    punct    _    SpaceAfter=No

「CoNLL-U SVG Editor」で可視化すると、こんな感じ。やはり「its」が「it」と「s」に分かれてしまっていて、かなり気持ち悪い。一方、UDPipeのenglish-gum-ud-2.4モデルだと、以下のようになった。

% python3
>>> import unidic2ud
>>> eng=unidic2ud.load(UniDic=None,UDPipe="english-gum")
>>> s=eng("It values, instead, its good men.")
>>> print(s)
# sent_id = 1
# text = It values, instead, its good men.
1    It    it    PRON    PRP    Case=Nom|Gender=Neut|Number=Sing|Person=3|PronType=Prs    2    nsubj    _    _
2    values    value    VERB    VBZ    Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin    0    root    _    SpaceAfter=No
3    ,    ,    PUNCT    ,    _    4    punct    _    _
4    instead    instead    ADV    RB    _    2    advmod    _    SpaceAfter=No
5    ,    ,    PUNCT    ,    _    8    punct    _    _
6    its    its    PRON    PRP$    Gender=Neut|Number=Sing|Person=3|Poss=Yes|PronType=Prs    8    nmod:poss    _    _
7    good    good    ADJ    JJ    Degree=Pos    8    amod    _    _
8    men    man    NOUN    NNS    Number=Plur    2    obj    _    SpaceAfter=No
9    .    .    PUNCT    .    _    2    punct    _    SpaceAfter=No

「CoNLL-U SVG Editor」で可視化すると、こんな感じ。どう考えても、EWTモデルの方に問題があるようだ。EWTモデルは、元々、インターネットで拾い集めてきた英文の係り受けコーパスなので、「its」を「it's」と混同するくらいは当たり前の世界なのだろう。さて、このあたり、どうしたものかな。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

人生unstable -- あるハッカー

読み込み中...