yasuokaの日記: 日本語「長単位」解析モジュールbert-{base,large}-japanese-luw-upos仮リリース
昨日、UD_Japanese-GSDLUWが仮リリースされた、との連絡をいただいたので、一晩かけて、日本語「長単位」解析モジュールbert-base-japanese-luw-upos・bert-large-japanese-luw-uposを作成した。esuparへの組み込みもうまくいったので、Google Colaboratoryで動かしてみよう。
!pip install esupar
import esupar
nlp=esupar.load("ja_luw")
doc=nlp("全学年にわたって小学校の国語の教科書に大量の挿し絵が用いられている")
import deplacy
deplacy.render(doc,Japanese=True)
deplacy.serve(doc,port=None)
「全学年にわたって小学校の国語の教科書に大量の挿し絵が用いられている」を「長単位」係り受け解析してみたところ、私(安岡孝一)の手元では以下の結果になった。
全学年 NOUN ═╗<══════╗ obl(斜格補語)
にわたって ADP <╝ ║ case(格表示)
小学校 NOUN ═╗<╗ ║ nmod(体言による連体修飾語)
の ADP <╝ ║ ║ case(格表示)
国語 NOUN ═╗═╝<╗ ║ nmod(体言による連体修飾語)
の ADP <╝ ║ ║ case(格表示)
教科書 NOUN ═╗═══╝<╗ ║ obl(斜格補語)
に ADP <╝ ║ ║ case(格表示)
大量 ADJ ═╗<╗ ║ ║ nmod(体言による連体修飾語)
の ADP <╝ ║ ║ ║ case(格表示)
挿し絵 NOUN ═╗═╝<╗ ║ ║ nsubj(主語)
が ADP <╝ ║ ║ ║ case(格表示)
用い VERB ═╗═╗═╝═╝═╝ root(親)
られ AUX <╝ ║ aux(動詞補助成分)
ている SCONJ <══╝ mark(標識)
1 全学年 _ NOUN _ _ 13 obl _ SpaceAfter=No
2 にわたって _ ADP _ _ 1 case _ SpaceAfter=No
3 小学校 _ NOUN _ _ 5 nmod _ SpaceAfter=No
4 の _ ADP _ _ 3 case _ SpaceAfter=No
5 国語 _ NOUN _ _ 7 nmod _ SpaceAfter=No
6 の _ ADP _ _ 5 case _ SpaceAfter=No
7 教科書 _ NOUN _ _ 13 obl _ SpaceAfter=No
8 に _ ADP _ _ 7 case _ SpaceAfter=No
9 大量 _ ADJ _ _ 11 nmod _ SpaceAfter=No
10 の _ ADP _ _ 9 case _ SpaceAfter=No
11 挿し絵 _ NOUN _ _ 13 nsubj _ SpaceAfter=No
12 が _ ADP _ _ 11 case _ SpaceAfter=No
13 用い _ VERB _ _ 0 root _ SpaceAfter=No
14 られ _ AUX _ _ 13 aux _ SpaceAfter=No
15 ている _ SCONJ _ _ 13 mark _ _
SVGで可視化すると、こんな感じ。覚悟はしていたものの、文末の「ている」のUPOSがSCONJになってしまっていて、なかなかショッキングだ。AUXの解析ミスというわけではなく、あくまでSCONJらしいのだが、とりあえずは本リリースを待つことにしよう。
日本語「長単位」解析モジュールbert-{base,large}-japanese-luw-pos仮リリース More ログイン