パスワードを忘れた? アカウント作成
14951606 journal
Google

yasuokaの日記: LINGUAKITのガリシア=ポルトガル語係り受け解析をGoogle Colaboratoryで動かす

日記 by yasuoka

ネットサーフィンしていたところ、サンティアゴ・デ・コンポステーラ大学のGrupo de Gramática do Españolが製作したLINGUAKITという文法解析ツールを見つけた。ガリシア語・ポルトガル語・スペイン語・英語に加え、ガリシア=ポルトガル語(ガリシア語とポルトガル語の共通祖語)まで解析できるらしい。とりあえず、Google Colaboratory上で、LINGUAKITのガリシア=ポルトガル語係り受け解析を試してみよう。

!test -d Linguakit || git clone --depth=1 https://github.com/citiususc/Linguakit
!test -x /usr/local/bin/linguakit || ( cd Linguakit && echo yes | make deps && make install )
!echo Rogo vos eu que nunca lhi faledes sen mi, ai filha fremosa. | linguakit dep histgz -conll

「Rogo vos eu que nunca lhi faledes sen mi, ai filha fremosa.」を係り受け解析してみたところ、私(安岡孝一)の手元では、以下の結果が得られた。

1    Rogo    rogar    VERB    0    <gender:0|lemma:rogar|mode:I|nomin:no|number:S|person:1|pos:0|tense:P|token:Rogo|type:M|>    ROOT    ROOT:0
2    vos    vos    PRO    1    <case:D|gender:C|lemma:vos|number:P|person:2|politeness:0|pos:1|possessor:0|token:vos|type:P|>    DobjR    DobjR:1
3    eu    eu    PRO    1    <case:N|gender:C|lemma:eu|number:S|person:1|politeness:0|pos:2|possessor:0|token:eu|type:P|>    DobjR    DobjR:1
4    que    que    CONJ    7    <lemma:que|pos:3|token:que|type:S|>    SpecL    SpecL:7
5    nunca    nunca    ADV    7    <lemma:nunca|pos:4|token:nunca|type:G|>    AdjnL    AdjnL:7
6    lhi    lhi    NOUN    7    <gender:0|lemma:lhi|number:0|person:3|pos:5|token:lhi|type:C|>    SubjL    SubjL:7
7    faledes    falar    VERB    1    <adsubj:yes|gender:0|lemma:falar|mode:S|nomin:no|number:P|person:2|pos:6|tense:P|token:faledes|type:M|>    DobjR    DobjR:1
8    sen    sen    PRP    7    <lemma:sen|pos:7|token:sen|type:P|>    CircR    CircR:7
9    mi    mi    NOUN    8    <gender:M|lemma:mi|number:S|person:3|pos:8|token:mi|type:C|>    Term    Term:8
10    ,    ,    Fc    _    <lemma:,|pos:9|token:,|>    _    _
11    ai    ai    NOUN    0    <gender:M|lemma:ai|number:S|person:3|pos:10|token:ai|type:C|>    ROOT    ROOT:0
12    filha    filho    ADJ    13    <degree:0|function:0|gender:F|lemma:filho|number:S|pos:11|token:filha|type:Q|>    AdjnL    AdjnL:13
13    fremosa    fremosa    NOUN    11    <gender:0|lemma:fremosa|number:0|person:3|pos:12|token:fremosa|type:C|>    AdjnR    AdjnR:11
14    .    .    SENT    _    <lemma:.|pos:13|token:.|>    _

deplacy風に表示すると、以下のような感じ。

Rogo    VERB ═╗═╗═══════╗ ROOT
vos     PRO  <╝ ║       ║ DobjR
eu      PRO  <══╝       ║ DobjR
que     CONJ <════════╗ ║ SpecL
nunca   ADV  <══════╗ ║ ║ AdjnL
lhi     NOUN <════╗ ║ ║ ║ SubjL
faledes VERB ═══╗═╝═╝═╝<╝ DobjR
sen     PRP  ═╗<╝         CircR
mi      NOUN <╝           Term
,       Fc
ai      NOUN ═══╗         ROOT
filha   ADJ  <╗ ║         AdjnL
fremosa NOUN ═╝<╝         AdjnR
.       SENT

タグが独特で、かなり読みにくい。ただ、「eu」はどう考えても「rogo」(rogarの一人称単数直接法現在)の主語なので、「Rogo」=DobjR⇒「eu」ではなく、「Rogo」=SubjR⇒「eu」となるべきだ。一方、「lhi」は「faledes」の目的語(あるいは間接目的語)なので、「lhi」⇐DobjL=「faledes」となるべきだと思う。まあ、まだ「プロトタイプ」らしいので、ガリシア=ポルトガル語の係り受け解析に関しては、精度が十分じゃないのかな。

typodupeerror

アレゲは一日にしてならず -- アレゲ見習い

読み込み中...