パスワードを忘れた? アカウント作成
14153766 journal
人工知能

yasuokaの日記: 旧字旧仮名日本語解析ツールとしてのUniDic2UD・GiNZA・Stanza・spacy-udpipe・NLP-Cube 2

日記 by yasuoka

「國境のトンネルを拔けると、窓の外の夜の底が白くなつた。」という文に対し、UniDic2UDGiNZAStanzaspacy-udpipeNLP-Cubeで、単語間の係り受け解析をおこなってみた。deplacyで可視化した結果を、以下にしめす。

  • UniDic2UD+旧仮名口語UniDic

    國境     NOUN  ═╗<╗           nmod
    の       ADP   <╝ ║           case
    トンネル NOUN  ═╗═╝<╗         obj
    を       ADP   <╝   ║         case
    拔ける   VERB  ═════╝═╗═╗<╗   advcl
    と       CCONJ <══════╝ ║ ║   mark
    、       PUNCT <════════╝ ║   punct
    窓       NOUN  ═╗<╗       ║   nmod
    の       ADP   <╝ ║       ║   case
    外       NOUN  ═╗═╝<╗     ║   nmod
    の       ADP   <╝   ║     ║   case
    夜       NOUN  ═╗═══╝<╗   ║   nmod
    の       ADP   <╝     ║   ║   case
    底       NOUN  ═╗═════╝<╗ ║   nsubj
    が       ADP   <╝       ║ ║   case
    白く     ADJ   ═╗═╗═════╝═╝═╗ root
    なつ     VERB  <╝ ║         ║ aux
    た       AUX   <══╝         ║ aux
    。       PUNCT <════════════╝ punct

  • GiNZA

    國       NOUN  <╗               compound
    境       NOUN  ═╝═╗<╗           nmod
    の       ADP   <══╝ ║           case
    トンネル NOUN  ═╗═══╝<╗         obj
    を       ADP   <╝     ║         case
    拔け     VERB  ═╗═╗═══╝═╗<══╗   advcl
    る       AUX   <╝ ║     ║   ║   aux
    と       CCONJ <══╝     ║   ║   cc
    、       PUNCT <════════╝   ║   punct
    窓       NOUN  ═╗<╗         ║   nmod
    の       ADP   <╝ ║         ║   case
    外       NOUN  ═╗═╝<╗       ║   nmod
    の       ADP   <╝   ║       ║   case
    夜       NOUN  ═╗═══╝<╗     ║   nmod
    の       ADP   <╝     ║     ║   case
    底       NOUN  ═╗═════╝<╗   ║   nsubj
    が       ADP   <╝       ║   ║   case
    白く     ADJ   ═════════╝<╗ ║   amod
    なつ     VERB  ═╗═════════╝═╝═╗ ROOT
    た       AUX   <╝             ║ aux
    。       PUNCT <══════════════╝ punct

  • Stanza

    國境     PROPN ═╗<╗           nmod
    の       ADP   <╝ ║           case
    トンネル NOUN  ═╗═╝<╗         obj
    を       ADP   <╝   ║         case
    拔ける   VERB  ═════╝═╗═╗<╗   advcl
    と       SCONJ <══════╝ ║ ║   mark
    、       PUNCT <════════╝ ║   punct
    窓       NOUN  ═╗<╗       ║   nmod
    の       ADP   <╝ ║       ║   case
    外       NOUN  ═╗═╝<╗     ║   nmod
    の       ADP   <╝   ║     ║   case
    夜       NOUN  ═╗═══╝<╗   ║   nmod
    の       ADP   <╝     ║   ║   case
    底       NOUN  ═╗═════╝<╗ ║   nsubj
    が       ADP   <╝       ║ ║   case
    白く     ADJ   <══╗     ║ ║   advcl
    なつ     VERB  ═╗═╝═════╝═╝═╗ root
    た       AUX   <╝           ║ aux
    。       PUNCT <════════════╝ punct

  • spacy-udpipe

    國境     NOUN  ═╗<╗           nmod
    の       ADP   <╝ ║           case
    トンネル NOUN  ═╗═╝<╗         nmod
    を       ADP   <╝   ║         case
    拔       NOUN  ═╗═══╝═╗═╗<╗   obl
    ける     AUX   <╝     ║ ║ ║   aux
    と       SCONJ <══════╝ ║ ║   mark
    、       PUNCT <════════╝ ║   punct
    窓       NOUN  ═╗<╗       ║   nmod
    の       ADP   <╝ ║       ║   case
    外       NOUN  ═╗═╝<╗     ║   nmod
    の       ADP   <╝   ║     ║   case
    夜       NOUN  ═╗═══╝<╗   ║   nmod
    の       ADP   <╝     ║   ║   case
    底       NOUN  ═╗═════╝<╗ ║   nsubj
    が       ADP   <╝       ║ ║   case
    白く     ADJ   <══╗     ║ ║   advcl
    なつ     VERB  ═╗═╝═════╝═╝═╗ ROOT
    た       AUX   <╝           ║ aux
    。       PUNCT <════════════╝ punct

  • NLP-Cube

    國境     PROPN ═╗<╗             nmod
    の       ADP   <╝ ║             case
    トンネル NOUN  ═╗═╝<╗           obj
    を       ADP   <╝   ║           case
    拔ける   VERB  ═════╝═╗═╗<╗     advcl
    と       SCONJ <══════╝ ║ ║     mark
    、       PUNCT <════════╝ ║     punct
    窓       NOUN  ═╗<╗       ║     nmod
    の       ADP   <╝ ║       ║     case
    外       NOUN  ═╗═╝<╗     ║     nmod
    の       ADP   <╝   ║     ║     case
    夜       NOUN  ═╗═══╝<╗   ║     nmod
    の       ADP   <╝     ║   ║     case
    底       NOUN  ═╗═════╝<╗ ║     nsubj
    が       ADP   <╝       ║ ║     case
    白く     ADJ   ═════════╝═╝<╗   acl
    なつた   NOUN  ═════════════╝═╗ root
    。       PUNCT <══════════════╝ punct

さすがに旧字旧仮名の解析だと、私(安岡孝一)の見る限り、UniDic2UD+旧仮名口語UniDicが一番いいようだ。とりあえず、GitHubのこのページに解析手順を書いておくと同時に、Google Colaboratoryのこのページで実験できるようにしておいた。よければ、他の文でも試してみてほしい。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
  • けふ、ままんがしんだ。

    卒業した高校の書庫には旧版(𦾔字𦾔假名)があったけど入手困難だろうなあ。

    • さすがに全部ひらがなだと苦しいのですけど、『新潮』1951年6月号の「けふ、ママンが死んだ。」なら、UniDic2UD+旧仮名口語UniDic+deplacyで、以下の結果になりました。

      >>> import unidic2ud
      >>> qkana=unidic2ud.load("qkana")
      >>> doc=qkana("けふ、ママンが死んだ。")
      >>> import deplacy
      >>> deplacy.render(str(doc))
      けふ   NOUN  ═╗<══╗   obl
      、     PUNCT <╝   ║   punct
      ママン NOUN  ═╗<╗ ║   nsubj
      が     ADP   <╝ ║ ║   case
      死ん   VERB  ═╗═╝═╝═╗ root
      だ     AUX   <╝     ║ aux
      。     PUNCT <══════╝ punct

      親コメント
typodupeerror

計算機科学者とは、壊れていないものを修理する人々のことである

読み込み中...