Re:Googleとどっちが優秀？ (#4245153) | 国会図書館、OCR処理プログラム及び学習用データセットを公開 | スラド

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

「国会図書館、OCR処理プログラム及び学習用データセットを公開」記事へのコメント

記事ページを表示すべてのコメント取得

検索9コメント Log In/Create an Account

Googleとどっちが優秀？ (スコア:0)

by Anonymous Coward

OCRというと、Googleドライブ／ドキュメントのOCRが強力なのは有名だけど、NDL版は追いついているのだろうか。
Googleの方は、おそらくGoogle Booksで利用しているものの流用で、国会図書館のスキャン済み資料とは桁違いの数のデータから学習していると推測されるし、モルフォAIソリューションズとGoogleの技術力の差っていうのもある。
国会図書館の蔵書（本文レベル）の検索性って、著作権がらみの問題か、はたまた予算の問題か、ぜんぜんダメダメで、古い（といっても活字化された）文献探しではGoogle Booksの方がはるかに使いである。そんな状況が多少なりとも改善されることを祈る。
- Re:Googleとどっちが優秀？ (スコア:1)
  
  by Anonymous Coward on 2022年05月07日 15時54分 (#4245153)
  
  Google Booksで利用している強力なOCRっていうのが、Googleの有料OCRサービス(Google Cloud Vision https://cloud.google.com/vision/docs/pdf?hl=ja [google.com])を指しているのであれば、
  ここで公開されているチュートリアルで試した感じ、古い資料だとNDL版の方が精度高そうですよ。
  https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main... [google.com]
  
  シェア
  
  親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

UNIXはただ死んだだけでなく、本当にひどい臭いを放ち始めている -- あるソフトウェアエンジニア