パスワードを忘れた? アカウント作成
13910859 journal
人工知能

yasuokaの日記: Universal Dependencies 2.4がリリース 29

日記 by yasuoka

Universal Dependencies 2.4が無事にリリースされた、との連絡をいただいた。Universal Dependencies 2.4は、ドイツ語・チェコ語・日本語・ロシア語・フランス語・アラビア語・スペイン語・ノルウェー語・英語など83の言語にまたがるツリーバンクで、UDPipe・StanfordNLP・NLP-Cubeなどの解析エンジンと組み合わせて、係り受け解析に用いることができる。半年前のUniversal Dependencies 2.3に比べて、古典ロシア語・古典中国語(漢文)・ウォロフ語・グアラニー語(ムブヤ)・ウェールズ語・カレリア語・現代アラム語(アッシリア)の7つの言語が増えており、古典中国語のツリーバンクは、私(安岡孝一)の共同研究班「東アジア古典文献コーパスの実証研究」が制作した「四書」(孟子・論語・大學・中庸)の全文係り受けデータである。係り受け解析や文法解析に、どしどし使ってほしい。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2019年05月18日 16時52分 (#3616911)

    > 係り受け解析や文法解析に、どしどし使ってほしい
    他分野のことはよくわからんが、日本の古い文書を読むことが多い者として…

    文法解析以前に、文書のデジタル化がまったく未整備なんだよねぇ。「国立国会図書館デジタルコレクション [ndl.go.jp]」だって、デジタルとは名ばかりで、中身は印影のデータ化まで。

    いろんな分野で翻刻プロジェクトはあるんだが、媒体が紙止まりなんだよねぇ。もっとも先進的な翻刻プロジェクトである「歌舞伎評判記集成 [izumipb.co.jp]」は、内部では文字データ化して翻刻者間のやりとりをしているはずなのに、成果は紙でしか出さないみたいだし。

    • by Anonymous Coward

      文字化はAI OCRが古文書の自動判読精度を実用レベルまで向上しない限りそのままなのだと思う。

      • by Anonymous Coward

        それこそ機械学習を活用できる分野だと思うのですが、機械学習を勉強するときが来たらちょっとやってみようかな

        • by Anonymous Coward on 2019年05月18日 21時08分 (#3616983)

          正解率だけでいえば、OCRは既に人間を超えているかもしれない。
          OCRが実用になっていないのはfalse positiveに対する要求の厳しさだと思う。
          たった一つの誤字でストーリー全体が台無しになるのは、スラド民なら理解できると思う。

          親コメント
          • by Anonymous Coward

            >たった一つの誤字でストーリー全体が台無しになるのは、スラド民なら理解できると思う。

            hylom式AI「誤字?だからなに?」

            みんなhylomをちょっとは見習えよな!

            • by Anonymous Coward

              hylom式AI「誤字?足しといてあげたよ」

      • by Anonymous Coward

        いつものコストを無視した完璧主義のせいで古文書の電子化でも中国に大きく遅れを取っているわけが

    • by Anonymous Coward
      https://honkoku.org/ [honkoku.org] 面白いよ。けど「先進的」の意味が違うかな。
    • Re: (スコア:0, 興味深い)

      by Anonymous Coward

      現状だと近デジよりも全文検索できる Google Books [google.co.jp]の方が便利ですね。
      と言っても自動文字起こしされた全文をダウンロードできるわけでは無いですし、文字起こしの品質も及第点って所ですが。
      あと、Google Booksの方はスキャン品質が微妙で、見切れていたり歪んでたりするページが多めなのも難点。

      # ついでに言えばアジア歴史資料センター [jacar.go.jp]の

      • by Anonymous Coward

        補足。古い連綿体の資料でも近代に活字で翻刻されているものが多くあり、幾つかの翻刻された本がスキャンされてGoogle Booksに収録されています。

  • by Anonymous Coward on 2019年05月18日 19時11分 (#3616951)
    GiNZA [github.io]も入れてほしい
  • by Anonymous Coward on 2019年05月19日 12時16分 (#3617151)

    修飾の係り受けはそこそこUniversalだと個人的に思うが、主語・述語、目的語あたりにUniversalな係り受けの構造って存在するのかという点。
    もうこの時点で色んな学説やら立場があって、門外漢にとってはアンタッチャブルな世界。

    そこそこUniversalだと思う修飾に関しても、
    日本語の「すごい酷い誤字」は、口語では「すごい」は「酷い」に係るが
    中学校あたりで習う文法としては「誤字」に係る。
    そしてスラドでは「すごく酷い誤字」も「すごい、かつ、酷い誤字」も「酷くすごい誤字」もありうるという混乱。

    # 白松が最中:わかる
    # 最中は白松:わかる
    # 白松は最中:わかい

  • https://repository.kulib.kyoto-u.ac.jp/dspace/handle/2433/240615 [kyoto-u.ac.jp]
    よく見ると(後ろの方まで行かないと日本語の説明が出てこない)、孟子の白文を形態素解析して修飾関係も示したものだってことはわかるんだけど、初見では完全に怪文書に見える。
    • by Anonymous Coward

      なんか思ったより細切れなんですね。
      これが孟子自体の性質に由来するのか、解析手法に由来するのかは学がないので分かりませんが。

      # 中国語なのに漂う和布蕪臭

typodupeerror

普通のやつらの下を行け -- バッドノウハウ専門家

読み込み中...