アカウント名:
パスワード:
> 係り受け解析や文法解析に、どしどし使ってほしい他分野のことはよくわからんが、日本の古い文書を読むことが多い者として…
文法解析以前に、文書のデジタル化がまったく未整備なんだよねぇ。「国立国会図書館デジタルコレクション [ndl.go.jp]」だって、デジタルとは名ばかりで、中身は印影のデータ化まで。
いろんな分野で翻刻プロジェクトはあるんだが、媒体が紙止まりなんだよねぇ。もっとも先進的な翻刻プロジェクトである「歌舞伎評判記集成 [izumipb.co.jp]」は、内部では文字データ化して翻刻者間のやりとりをしているはずなのに、成果は紙でしか出さないみたいだし。
現状だと近デジよりも全文検索できる Google Books [google.co.jp]の方が便利ですね。と言っても自動文字起こしされた全文をダウンロードできるわけでは無いですし、文字起こしの品質も及第点って所ですが。あと、Google Booksの方はスキャン品質が微妙で、見切れていたり歪んでたりするページが多めなのも難点。
# ついでに言えばアジア歴史資料センター [jacar.go.jp]の
補足。古い連綿体の資料でも近代に活字で翻刻されているものが多くあり、幾つかの翻刻された本がスキャンされてGoogle Booksに収録されています。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
計算機科学者とは、壊れていないものを修理する人々のことである
その前に (スコア:1)
> 係り受け解析や文法解析に、どしどし使ってほしい
他分野のことはよくわからんが、日本の古い文書を読むことが多い者として…
文法解析以前に、文書のデジタル化がまったく未整備なんだよねぇ。「国立国会図書館デジタルコレクション [ndl.go.jp]」だって、デジタルとは名ばかりで、中身は印影のデータ化まで。
いろんな分野で翻刻プロジェクトはあるんだが、媒体が紙止まりなんだよねぇ。もっとも先進的な翻刻プロジェクトである「歌舞伎評判記集成 [izumipb.co.jp]」は、内部では文字データ化して翻刻者間のやりとりをしているはずなのに、成果は紙でしか出さないみたいだし。
Re: (スコア:0, 興味深い)
現状だと近デジよりも全文検索できる Google Books [google.co.jp]の方が便利ですね。
と言っても自動文字起こしされた全文をダウンロードできるわけでは無いですし、文字起こしの品質も及第点って所ですが。
あと、Google Booksの方はスキャン品質が微妙で、見切れていたり歪んでたりするページが多めなのも難点。
# ついでに言えばアジア歴史資料センター [jacar.go.jp]の
Re:その前に (スコア:0)
補足。古い連綿体の資料でも近代に活字で翻刻されているものが多くあり、幾つかの翻刻された本がスキャンされてGoogle Booksに収録されています。