パスワードを忘れた? アカウント作成
15600046 journal
人工知能

yasuokaの日記: spaCy向け国語研長単位モデルja_gsdluw仮リリース 3

日記 by yasuoka

spacy-transformers向け国語研長単位モデルja_gsdluwが仮リリースされた。Google Colaboratory上でdeplacyに繋いでみよう。

!pip install ja_gsdluw deplacy -f https://github.com/megagonlabs/UD_Japanese-GSD/releases/tag/r2.9-NE
import spacy
nlp=spacy.load("ja_gsdluw")
doc=nlp("全学年にわたって小学校の国語の教科書に大量の挿し絵が用いられている")
import deplacy
deplacy.render(doc,Japanese=True)
deplacy.serve(doc,port=None)

「全学年にわたって小学校の国語の教科書に大量の挿し絵が用いられている」を係り受け解析してみたところ、私(安岡孝一)の手元では以下の結果になった。

全学年     NOUN  ═╗<══════╗ obl(斜格補語)
にわたって ADP   <╝       ║ case(格表示)
小学校     NOUN  ═╗<╗     ║ nmod(体言による連体修飾語)
の         ADP   <╝ ║     ║ case(格表示)
国語       NOUN  ═╗═╝<╗   ║ nmod(体言による連体修飾語)
の         ADP   <╝   ║   ║ case(格表示)
教科書     NOUN  ═╗═══╝<╗ ║ obl(斜格補語)
に         ADP   <╝     ║ ║ case(格表示)
大量       ADJ   ═╗<╗   ║ ║ nmod(体言による連体修飾語)
の         ADP   <╝ ║   ║ ║ case(格表示)
挿し絵     NOUN  ═╗═╝<╗ ║ ║ nsubj(主語)
が         ADP   <╝   ║ ║ ║ case(格表示)
用い       VERB  ═╗═╗═╝═╝═╝ ROOT(親)
られ       AUX   <╝ ║       aux(動詞補助成分)
ている     SCONJ <══╝       mark(標識)

1    全学年    全学年    NOUN    名詞-普通名詞-一般    Reading=ガクネン    13    obl    _    SpaceAfter=No
2    にわたって    にわたって    ADP    助詞-格助詞    Reading=テ    1    case    _    SpaceAfter=No
3    小学校    小学校    NOUN    名詞-普通名詞-一般    Reading=ショウガッコウ    5    nmod    _    SpaceAfter=No
4    の    の    ADP    助詞-格助詞    Reading=ノ    3    case    _    SpaceAfter=No
5    国語    国語    NOUN    名詞-普通名詞-一般    Reading=コクゴ    7    nmod    _    SpaceAfter=No
6    の    の    ADP    助詞-格助詞    Reading=ノ    5    case    _    SpaceAfter=No
7    教科書    教科書    NOUN    名詞-普通名詞-一般    Reading=キョウカショ    13    obl    _    SpaceAfter=No
8    に    に    ADP    助詞-格助詞    Reading=ニ    7    case    _    SpaceAfter=No
9    大量    大量    ADJ    形状詞-一般    Reading=タイリョウ    11    nmod    _    SpaceAfter=No
10    の    の    ADP    助詞-格助詞    Reading=ノ    9    case    _    SpaceAfter=No
11    挿し絵    挿し絵    NOUN    名詞-普通名詞-一般    Reading=サシエ    13    nsubj    _    SpaceAfter=No
12    が    が    ADP    助詞-格助詞    Reading=ガ    11    case    _    SpaceAfter=No
13    用い    用いる    VERB    動詞-一般-上一段-ア行    Inflection=上一段-ア行;未然形-一般|Reading=モチイ    0    ROOT    _    SpaceAfter=No|Translit=用いる
14    られ    られる    AUX    助動詞-助動詞-レル    Inflection=助動詞-レル;連用形-一般|Reading=ラレ    13    aux    _    SpaceAfter=No|Translit=られる
15    ている    て居る    SCONJ    助動詞-上一段-ア行    Inflection=上一段-ア行;終止形-一般|Reading=イル    13    mark    _    SpaceAfter=No

SVGで可視化すると、こんな感じ。Readingがまだ「調整中」らしいのだが、それを除けば、品詞も係り受けも完璧だ。さて、これで日本語の係り受け解析は、国語研長単位へと移行するのかなぁ。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
  • by yamafu (49749) on 2022年03月18日 14時59分 (#4217969)
    ご教示に従い、当方のいくつかの例文でも試してみて、納得できる適切な解析結果が得られています。今回の仮リリースについて、以下のような理解でよろしいでしょうか。すなわち、少し前にリリースされた、"KoichiYasuoka/bert-base-japanese-unidic-luw-upos")で先行的に行われていたことが、今回の"ja_gsdluw"に反映されて仮リリースされた、ということでしょうか。山本富士男
    • 今回のja_gsdluwのリリースは、megagonlabsの松田寛さんによるもので、私(安岡孝一)のKoichiYasuoka/bert-base-japanese-unidic-luw-uposとは別のアイデアです。まあ、お互いに色々と情報交換はしてますけど、切磋琢磨するライバルどうしでもあるのです。

      親コメント
      • ご回答ありがとうございます。小生のいくつかの例文については、両者とも同じ解析結果となリましたので、このような質問をさせていた次第です。それにしても、小生がこれまで親しんで来た「短単位向け係り受け解析結果」とはかなり異なる結果が得られて、ちょっと驚いています。一例を挙げますと、「蕾を包む苞がはがれるにつれて赤い唇形花が次々と咲く」という例文ですが、「はがれるにつれて -> 咲く」という文節間係り受け解析結果には、うなってしまいました! 小生のようなユーザにとっては、アプリケーションがぐんと作りやすくなるように思われます。
        親コメント
typodupeerror

弘法筆を選ばず、アレゲはキーボードを選ぶ -- アレゲ研究家

読み込み中...