パスワードを忘れた? アカウント作成
15465002 journal
人工知能

yasuokaの日記: 日本語「長単位」解析モジュールbert-{base,large}-japanese-luw-upos仮リリース

日記 by yasuoka

昨日、UD_Japanese-GSDLUW仮リリースされた、との連絡をいただいたので、一晩かけて、日本語「長単位」解析モジュールbert-base-japanese-luw-uposbert-large-japanese-luw-uposを作成した。esuparへの組み込みもうまくいったので、Google Colaboratoryで動かしてみよう。

!pip install esupar
import esupar
nlp=esupar.load("ja_luw")
doc=nlp("全学年にわたって小学校の国語の教科書に大量の挿し絵が用いられている")
import deplacy
deplacy.render(doc,Japanese=True)
deplacy.serve(doc,port=None)

「全学年にわたって小学校の国語の教科書に大量の挿し絵が用いられている」を「長単位」係り受け解析してみたところ、私(安岡孝一)の手元では以下の結果になった。

全学年     NOUN  ═╗<══════╗ obl(斜格補語)
にわたって ADP   <╝       ║ case(格表示)
小学校     NOUN  ═╗<╗     ║ nmod(体言による連体修飾語)
の         ADP   <╝ ║     ║ case(格表示)
国語       NOUN  ═╗═╝<╗   ║ nmod(体言による連体修飾語)
の         ADP   <╝   ║   ║ case(格表示)
教科書     NOUN  ═╗═══╝<╗ ║ obl(斜格補語)
に         ADP   <╝     ║ ║ case(格表示)
大量       ADJ   ═╗<╗   ║ ║ nmod(体言による連体修飾語)
の         ADP   <╝ ║   ║ ║ case(格表示)
挿し絵     NOUN  ═╗═╝<╗ ║ ║ nsubj(主語)
が         ADP   <╝   ║ ║ ║ case(格表示)
用い       VERB  ═╗═╗═╝═╝═╝ root(親)
られ       AUX   <╝ ║       aux(動詞補助成分)
ている     SCONJ <══╝       mark(標識)

1    全学年    _    NOUN    _    _    13    obl    _    SpaceAfter=No
2    にわたって    _    ADP    _    _    1    case    _    SpaceAfter=No
3    小学校    _    NOUN    _    _    5    nmod    _    SpaceAfter=No
4    の    _    ADP    _    _    3    case    _    SpaceAfter=No
5    国語    _    NOUN    _    _    7    nmod    _    SpaceAfter=No
6    の    _    ADP    _    _    5    case    _    SpaceAfter=No
7    教科書    _    NOUN    _    _    13    obl    _    SpaceAfter=No
8    に    _    ADP    _    _    7    case    _    SpaceAfter=No
9    大量    _    ADJ    _    _    11    nmod    _    SpaceAfter=No
10    の    _    ADP    _    _    9    case    _    SpaceAfter=No
11    挿し絵    _    NOUN    _    _    13    nsubj    _    SpaceAfter=No
12    が    _    ADP    _    _    11    case    _    SpaceAfter=No
13    用い    _    VERB    _    _    0    root    _    SpaceAfter=No
14    られ    _    AUX    _    _    13    aux    _    SpaceAfter=No
15    ている    _    SCONJ    _    _    13    mark    _    _

SVGで可視化すると、こんな感じ。覚悟はしていたものの、文末の「ている」のUPOSがSCONJになってしまっていて、なかなかショッキングだ。AUXの解析ミスというわけではなく、あくまでSCONJらしいのだが、とりあえずは本リリースを待つことにしよう。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」

読み込み中...