アカウント名:
パスワード:
> 係り受け解析や文法解析に、どしどし使ってほしい他分野のことはよくわからんが、日本の古い文書を読むことが多い者として…
文法解析以前に、文書のデジタル化がまったく未整備なんだよねぇ。「国立国会図書館デジタルコレクション [ndl.go.jp]」だって、デジタルとは名ばかりで、中身は印影のデータ化まで。
いろんな分野で翻刻プロジェクトはあるんだが、媒体が紙止まりなんだよねぇ。もっとも先進的な翻刻プロジェクトである「歌舞伎評判記集成 [izumipb.co.jp]」は、内部では文字データ化して翻刻者間のやりとりをしているはずなのに、成果は紙でしか出さないみたいだし。
文字化はAI OCRが古文書の自動判読精度を実用レベルまで向上しない限りそのままなのだと思う。
それこそ機械学習を活用できる分野だと思うのですが、機械学習を勉強するときが来たらちょっとやってみようかな
正解率だけでいえば、OCRは既に人間を超えているかもしれない。OCRが実用になっていないのはfalse positiveに対する要求の厳しさだと思う。たった一つの誤字でストーリー全体が台無しになるのは、スラド民なら理解できると思う。
>たった一つの誤字でストーリー全体が台無しになるのは、スラド民なら理解できると思う。
hylom式AI「誤字?だからなに?」
みんなhylomをちょっとは見習えよな!
hylom式AI「誤字?足しといてあげたよ」
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond
その前に (スコア:1)
> 係り受け解析や文法解析に、どしどし使ってほしい
他分野のことはよくわからんが、日本の古い文書を読むことが多い者として…
文法解析以前に、文書のデジタル化がまったく未整備なんだよねぇ。「国立国会図書館デジタルコレクション [ndl.go.jp]」だって、デジタルとは名ばかりで、中身は印影のデータ化まで。
いろんな分野で翻刻プロジェクトはあるんだが、媒体が紙止まりなんだよねぇ。もっとも先進的な翻刻プロジェクトである「歌舞伎評判記集成 [izumipb.co.jp]」は、内部では文字データ化して翻刻者間のやりとりをしているはずなのに、成果は紙でしか出さないみたいだし。
Re: (スコア:0)
文字化はAI OCRが古文書の自動判読精度を実用レベルまで向上しない限りそのままなのだと思う。
Re:その前に (スコア:0)
それこそ機械学習を活用できる分野だと思うのですが、機械学習を勉強するときが来たらちょっとやってみようかな
Re:その前に (スコア:1)
正解率だけでいえば、OCRは既に人間を超えているかもしれない。
OCRが実用になっていないのはfalse positiveに対する要求の厳しさだと思う。
たった一つの誤字でストーリー全体が台無しになるのは、スラド民なら理解できると思う。
Re: (スコア:0)
>たった一つの誤字でストーリー全体が台無しになるのは、スラド民なら理解できると思う。
hylom式AI「誤字?だからなに?」
みんなhylomをちょっとは見習えよな!
Re: (スコア:0)
hylom式AI「誤字?足しといてあげたよ」