アカウント名:
パスワード:
読売新聞が「明治・大正・昭和の読売新聞」としてCD-ROM/DVD-ROMを出しています。
http://www.yomiuri.co.jp/database/cdrom/mts/ [yomiuri.co.jp]
とても個人で買えるものではありませんが。
こういうのは、画像データとして記録していますよね。今度のは、いったん画像を表示させたあとで、テキストデータも取り出せるようになっているようです。
印刷物をスキャンして取り込んだあとで、OCRでテキストデータにしてデータベース化しようってのを、あちこちで試みていると思いますが、OCRの精度が良くありません。電子データは、そのまま読むだけでなく検索出来て欲しいのですが、誤って読み込まれているのを検索にかけるとメチャクチャになって使い物になりません。
OCRの精度が上がったのか、それとも大量の人手を投入したのでしょうか。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
にわかな奴ほど語りたがる -- あるハッカー
日本だと・・・ (スコア:1)
乗り物関連の月刊誌(車、鉄道、飛行機、船)などは記事の内容に過去を振り返るネタを多く抱える系のものはニッチかもしれないけれどTime誌のような公開を望む声はありそうですね。
弱小出版社的なところも多々あるのでタダでとは言いませんが^^;
Re:日本だと…… (スコア:2, 参考になる)
読売新聞が「明治・大正・昭和の読売新聞」としてCD-ROM/DVD-ROMを出しています。
http://www.yomiuri.co.jp/database/cdrom/mts/ [yomiuri.co.jp]
とても個人で買えるものではありませんが。
Nullius addictus iurare in verba magistri
Re:日本だと・・・ (スコア:1)
Re: (スコア:0)
そこから起こしたデジタルデータには変換者の権利が発生するので、発表や閲覧をどうするかもやっぱり Times誌の自由。
#第三者が独自にスキャンしてもやっぱり自由だろうけど
Re: (スコア:0)
新聞は縮刷版として公開しているから、後は手間暇の問題でしょ
Re:日本だと・・・ (スコア:1)
こういうのは、画像データとして記録していますよね。今度のは、いったん画像を表示させたあとで、テキストデータも取り出せるようになっているようです。
印刷物をスキャンして取り込んだあとで、OCRでテキストデータにしてデータベース化しようってのを、あちこちで試みていると思いますが、OCRの精度が良くありません。電子データは、そのまま読むだけでなく検索出来て欲しいのですが、誤って読み込まれているのを検索にかけるとメチャクチャになって使い物になりません。
OCRの精度が上がったのか、それとも大量の人手を投入したのでしょうか。
Re: (スコア:0)