Universal Dependencies 2.4がリリース 29
ストーリー by headless
充実 部門より
充実 部門より
yasuoka 曰く、
Universal Dependencies 2.4が無事にリリースされた、との連絡をいただいた。Universal Dependencies 2.4は、ドイツ語・チェコ語・日本語・ロシア語・フランス語・アラビア語・スペイン語・ノルウェー語・英語など83の言語にまたがるツリーバンクで、UDPipe・StanfordNLP・NLP-Cubeなどの解析エンジンと組み合わせて、係り受け解析に用いることができる。半年前のUniversal Dependencies 2.3に比べて、古典ロシア語・古典中国語(漢文)・ウォロフ語・グアラニー語(ムブヤ)・ウェールズ語・カレリア語・現代アラム語(アッシリア)の7つの言語が増えており、古典中国語のツリーバンクは、私(安岡孝一)の共同研究班「東アジア古典文献コーパスの実証研究」が制作した「四書」(孟子・論語・大學・中庸)の全文係り受けデータである。係り受け解析や文法解析に、どしどし使ってほしい。
その前に (スコア:1)
> 係り受け解析や文法解析に、どしどし使ってほしい
他分野のことはよくわからんが、日本の古い文書を読むことが多い者として…
文法解析以前に、文書のデジタル化がまったく未整備なんだよねぇ。「国立国会図書館デジタルコレクション [ndl.go.jp]」だって、デジタルとは名ばかりで、中身は印影のデータ化まで。
いろんな分野で翻刻プロジェクトはあるんだが、媒体が紙止まりなんだよねぇ。もっとも先進的な翻刻プロジェクトである「歌舞伎評判記集成 [izumipb.co.jp]」は、内部では文字データ化して翻刻者間のやりとりをしているはずなのに、成果は紙でしか出さないみたいだし。
Re: (スコア:0)
文字化はAI OCRが古文書の自動判読精度を実用レベルまで向上しない限りそのままなのだと思う。
Re: (スコア:0)
それこそ機械学習を活用できる分野だと思うのですが、機械学習を勉強するときが来たらちょっとやってみようかな
Re:その前に (スコア:1)
正解率だけでいえば、OCRは既に人間を超えているかもしれない。
OCRが実用になっていないのはfalse positiveに対する要求の厳しさだと思う。
たった一つの誤字でストーリー全体が台無しになるのは、スラド民なら理解できると思う。
Re: (スコア:0)
>たった一つの誤字でストーリー全体が台無しになるのは、スラド民なら理解できると思う。
hylom式AI「誤字?だからなに?」
みんなhylomをちょっとは見習えよな!
Re: (スコア:0)
hylom式AI「誤字?足しといてあげたよ」
Re: (スコア:0)
いつものコストを無視した完璧主義のせいで古文書の電子化でも中国に大きく遅れを取っているわけが
みんなで翻刻 (スコア:0)
Re: (スコア:0, 興味深い)
現状だと近デジよりも全文検索できる Google Books [google.co.jp]の方が便利ですね。
と言っても自動文字起こしされた全文をダウンロードできるわけでは無いですし、文字起こしの品質も及第点って所ですが。
あと、Google Booksの方はスキャン品質が微妙で、見切れていたり歪んでたりするページが多めなのも難点。
# ついでに言えばアジア歴史資料センター [jacar.go.jp]の
Re: (スコア:0)
補足。古い連綿体の資料でも近代に活字で翻刻されているものが多くあり、幾つかの翻刻された本がスキャンされてGoogle Booksに収録されています。
解析エンジンに (スコア:1)
日本語係り受け解析エンジンとしてのGiNZA (スコア:2)
今日の私(安岡孝一)の日記 [srad.jp]で、GiNZAを紹介しておきました。ただ、GiNZAは日本語専用なので、Universal Dependenciesを係り受け解析に使うなら、できれば他の言語にも挑戦してほしいな、というのが正直なところです。よければどうぞ。
係り受けで分からないのは (スコア:0)
修飾の係り受けはそこそこUniversalだと個人的に思うが、主語・述語、目的語あたりにUniversalな係り受けの構造って存在するのかという点。
もうこの時点で色んな学説やら立場があって、門外漢にとってはアンタッチャブルな世界。
そこそこUniversalだと思う修飾に関しても、
日本語の「すごい酷い誤字」は、口語では「すごい」は「酷い」に係るが
中学校あたりで習う文法としては「誤字」に係る。
そしてスラドでは「すごく酷い誤字」も「すごい、かつ、酷い誤字」も「酷くすごい誤字」もありうるという混乱。
# 白松が最中:わかる
# 最中は白松:わかる
# 白松は最中:わかい
京大人文科学研究所の年報からやばい刊行物が出ている (スコア:0)
よく見ると(後ろの方まで行かないと日本語の説明が出てこない)、孟子の白文を形態素解析して修飾関係も示したものだってことはわかるんだけど、初見では完全に怪文書に見える。
Re: (スコア:0)
なんか思ったより細切れなんですね。
これが孟子自体の性質に由来するのか、解析手法に由来するのかは学がないので分かりませんが。
# 中国語なのに漂う和布蕪臭
Re: (スコア:0)
「yasuoka 曰く」とのことですよ
Re: (スコア:0)
最近は係り受け解析関係の日記が多いですが、
「yasuoka 曰く」とあっても、普通のSRADerは「QWERTYの人 [google.com]がなぜ?」って思うだけじゃないかな。
よく訓練されたアレゲ人でも「8bit時代の凄腕マシン語プログラマー [google.com]」かも。
Re: (スコア:0)
後者は訓練されすぎ。
せいぜい「文字コード研究の人」ぐらいの反応では。
Re: (スコア:0)
お前は1行目をちゃんと読めない識字障害を抱えているのか
Re: (スコア:0)
ご本人を批判する意図は一切ないが、
「あーらーらー♪こーらーらー♪
いーけないんだー♪いけないんだー♪
せんせいにいってやろー♪」
の「せんせい」という世界観(設定?)なんだと思っていた。
Re: (スコア:0)
禿しく同意
怖い業界なんでしょうね(笑)
Re: (スコア:0)
すまん、上2つのコメント、素で意味が全くわからないので解説がほしい…
Re: (スコア:0)
解説というか、氏の日記を読んで、そう思わないんなら、そう思わないんだろうし、気にすることではないんでは。
Re: (スコア:0)
Re: (スコア:0)
Re: (スコア:0)
Re: (スコア:0)
うーん、あの件は「京大の先生」感が強くて「せんせい」感が少ないような。
# せんせい感って何だ?
Re: (スコア:0)
昭和時代の Boogie Board #せんせい