Universal Dependencies 2.4がリリース

Universal Dependencies 2.4がリリース 29

ストーリー by headless 2019年05月18日 15時25分
充実部門より

yasuoka 曰く、

Universal Dependencies 2.4が無事にリリースされた、との連絡をいただいた。Universal Dependencies 2.4は、ドイツ語・チェコ語・日本語・ロシア語・フランス語・アラビア語・スペイン語・ノルウェー語・英語など83の言語にまたがるツリーバンクで、UDPipe・StanfordNLP・NLP-Cubeなどの解析エンジンと組み合わせて、係り受け解析に用いることができる。半年前のUniversal Dependencies 2.3に比べて、古典ロシア語・古典中国語(漢文)・ウォロフ語・グアラニー語(ムブヤ)・ウェールズ語・カレリア語・現代アラム語(アッシリア)の7つの言語が増えており、古典中国語のツリーバンクは、私(安岡孝一)の共同研究班「東アジア古典文献コーパスの実証研究」が制作した「四書」(孟子・論語・大學・中庸)の全文係り受けデータである。係り受け解析や文法解析に、どしどし使ってほしい。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索29コメント Log In/Create an Account

その前に (スコア:1)

by Anonymous Coward on 2019年05月18日 16時52分 (#3616911)

> 係り受け解析や文法解析に、どしどし使ってほしい
他分野のことはよくわからんが、日本の古い文書を読むことが多い者として…
文法解析以前に、文書のデジタル化がまったく未整備なんだよねぇ。「国立国会図書館デジタルコレクション [ndl.go.jp]」だって、デジタルとは名ばかりで、中身は印影のデータ化まで。
いろんな分野で翻刻プロジェクトはあるんだが、媒体が紙止まりなんだよねぇ。もっとも先進的な翻刻プロジェクトである「歌舞伎評判記集成 [izumipb.co.jp]」は、内部では文字データ化して翻刻者間のやりとりをしているはずなのに、成果は紙でしか出さないみたいだし。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  文字化はAI OCRが古文書の自動判読精度を実用レベルまで向上しない限りそのままなのだと思う。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    それこそ機械学習を活用できる分野だと思うのですが、機械学習を勉強するときが来たらちょっとやってみようかな
    - Re:その前に (スコア:1)
      
      by Anonymous Coward on 2019年05月18日 21時08分 (#3616983)
      
      正解率だけでいえば、OCRは既に人間を超えているかもしれない。
      OCRが実用になっていないのはfalse positiveに対する要求の厳しさだと思う。
      たった一つの誤字でストーリー全体が台無しになるのは、スラド民なら理解できると思う。
      
      シェア
      
      親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        >たった一つの誤字でストーリー全体が台無しになるのは、スラド民なら理解できると思う。
        hylom式AI「誤字？だからなに？」
        みんなhylomをちょっとは見習えよな！
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        hylom式AI「誤字？足しといてあげたよ」
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    いつものコストを無視した完璧主義のせいで古文書の電子化でも中国に大きく遅れを取っているわけが
- みんなで翻刻 (スコア:0)
  
  by Anonymous Coward
  
  https://honkoku.org/ [honkoku.org] 面白いよ。けど「先進的」の意味が違うかな。
- Re: (スコア:0, 興味深い)
  
  by Anonymous Coward
  
  現状だと近デジよりも全文検索できる Google Books [google.co.jp]の方が便利ですね。
  と言っても自動文字起こしされた全文をダウンロードできるわけでは無いですし、文字起こしの品質も及第点って所ですが。
  あと、Google Booksの方はスキャン品質が微妙で、見切れていたり歪んでたりするページが多めなのも難点。
  # ついでに言えばアジア歴史資料センター [jacar.go.jp]の
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    補足。古い連綿体の資料でも近代に活字で翻刻されているものが多くあり、幾つかの翻刻された本がスキャンされてGoogle Booksに収録されています。
解析エンジンに (スコア:1)

by Anonymous Coward on 2019年05月18日 19時11分 (#3616951)

GiNZA [github.io]も入れてほしい
- 日本語係り受け解析エンジンとしてのGiNZA (スコア:2)
  
  by yasuoka (21275) on 2019年05月20日 11時21分 (#3617594) 日記
  
  今日の私(安岡孝一)の日記 [srad.jp]で、GiNZAを紹介しておきました。ただ、GiNZAは日本語専用なので、Universal Dependenciesを係り受け解析に使うなら、できれば他の言語にも挑戦してほしいな、というのが正直なところです。よければどうぞ。
  
  シェア
  
  親コメント
係り受けで分からないのは (スコア:0)

by Anonymous Coward on 2019年05月19日 12時16分 (#3617151)

修飾の係り受けはそこそこUniversalだと個人的に思うが、主語・述語、目的語あたりにUniversalな係り受けの構造って存在するのかという点。
もうこの時点で色んな学説やら立場があって、門外漢にとってはアンタッチャブルな世界。
そこそこUniversalだと思う修飾に関しても、
日本語の「すごい酷い誤字」は、口語では「すごい」は「酷い」に係るが
中学校あたりで習う文法としては「誤字」に係る。
そしてスラドでは「すごく酷い誤字」も「すごい、かつ、酷い誤字」も「酷くすごい誤字」もありうるという混乱。
# 白松が最中：わかる
# 最中は白松：わかる
# 白松は最中：わかい
京大人文科学研究所の年報からやばい刊行物が出ている (スコア:0)

by Anonymous Coward on 2019年05月19日 15時33分 (#3617232)

https://repository.kulib.kyoto-u.ac.jp/dspace/handle/2433/240615 [kyoto-u.ac.jp]
よく見ると（後ろの方まで行かないと日本語の説明が出てこない）、孟子の白文を形態素解析して修飾関係も示したものだってことはわかるんだけど、初見では完全に怪文書に見える。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  なんか思ったより細切れなんですね。
  これが孟子自体の性質に由来するのか、解析手法に由来するのかは学がないので分かりませんが。
  # 中国語なのに漂う和布蕪臭
- Re: (スコア:0)
  
  by Anonymous Coward
  
  「yasuoka 曰く」とのことですよ
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    最近は係り受け解析関係の日記が多いですが、
    「yasuoka 曰く」とあっても、普通のSRADerは「QWERTYの人 [google.com]がなぜ？」って思うだけじゃないかな。
    よく訓練されたアレゲ人でも「8bit時代の凄腕マシン語プログラマー [google.com]」かも。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      後者は訓練されすぎ。
      せいぜい「文字コード研究の人」ぐらいの反応では。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  お前は1行目をちゃんと読めない識字障害を抱えているのか
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ご本人を批判する意図は一切ないが、
  「あーらーらー♪こーらーらー♪
  いーけないんだー♪いけないんだー♪
  せんせいにいってやろー♪」
  の「せんせい」という世界観（設定？）なんだと思っていた。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    禿しく同意
    怖い業界なんでしょうね（笑）
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      すまん、上2つのコメント、素で意味が全くわからないので解説がほしい…
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        解説というか、氏の日記を読んで、そう思わないんなら、そう思わないんだろうし、気にすることではないんでは。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        pythonのプログラムとUniversal Dependenciesがやたらと出てきて、何の「せんせい」なのか、よく読めないな。知識が広範なのはわかるが。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        いや、それでもよくわからない。「氏の日記を読んで」って、具体的にどの日記？
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        「Orarioの関係者 [google.com]」だったら、そう思うんじゃないかな。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        うーん、あの件は「京大の先生」感が強くて「せんせい」感が少ないような。
        # せんせい感って何だ？
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        昭和時代の Boogie Board #せんせい

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

その前に (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re:その前に (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

みんなで翻刻 (スコア:0)

Re: (スコア:0, 興味深い)

Re: (スコア:0)

解析エンジンに (スコア:1)

日本語係り受け解析エンジンとしてのGiNZA (スコア:2)

係り受けで分からないのは (スコア:0)

京大人文科学研究所の年報からやばい刊行物が出ている (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)