アカウント名:
パスワード:
OCRというと、Googleドライブ/ドキュメントのOCRが強力なのは有名だけど、NDL版は追いついているのだろうか。
Googleの方は、おそらくGoogle Booksで利用しているものの流用で、国会図書館のスキャン済み資料とは桁違いの数のデータから学習していると推測されるし、モルフォAIソリューションズとGoogleの技術力の差っていうのもある。
国会図書館の蔵書(本文レベル)の検索性って、著作権がらみの問題か、はたまた予算の問題か、ぜんぜんダメダメで、古い(といっても活字化された)文献探しではGoogle Booksの方がはるかに使いである。そんな状況が多少なりとも改善されることを祈る。
Google Booksで利用している強力なOCRっていうのが、Googleの有料OCRサービス(Google Cloud Vision https://cloud.google.com/vision/docs/pdf?hl=ja [google.com])を指しているのであれば、ここで公開されているチュートリアルで試した感じ、古い資料だとNDL版の方が精度高そうですよ。https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main... [google.com]
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
UNIXはただ死んだだけでなく、本当にひどい臭いを放ち始めている -- あるソフトウェアエンジニア
Googleとどっちが優秀? (スコア:0)
OCRというと、Googleドライブ/ドキュメントのOCRが強力なのは有名だけど、NDL版は追いついているのだろうか。
Googleの方は、おそらくGoogle Booksで利用しているものの流用で、国会図書館のスキャン済み資料とは桁違いの数のデータから学習していると推測されるし、モルフォAIソリューションズとGoogleの技術力の差っていうのもある。
国会図書館の蔵書(本文レベル)の検索性って、著作権がらみの問題か、はたまた予算の問題か、ぜんぜんダメダメで、古い(といっても活字化された)文献探しではGoogle Booksの方がはるかに使いである。そんな状況が多少なりとも改善されることを祈る。
Re:Googleとどっちが優秀? (スコア:1)
Google Booksで利用している強力なOCRっていうのが、Googleの有料OCRサービス(Google Cloud Vision https://cloud.google.com/vision/docs/pdf?hl=ja [google.com])を指しているのであれば、
ここで公開されているチュートリアルで試した感じ、古い資料だとNDL版の方が精度高そうですよ。
https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main... [google.com]