国会図書館、OCR処理プログラム及び学習用データセットを公開 9
ストーリー by nagazou
公開 部門より
公開 部門より
国立国会図書館は4月25日に、日本語のOCR処理プログラム「NDLOCR」とパブリックドメインOCR学習用データセットの二つを公開した。NDLOCRは国立国会図書館が、モルフォAIソリューションズに委託して制作されたOCR処理プログラムの研究開発事業の成果物をCC BY 4.0ライセンスで公開したものとなっている。商用非商用を問わず自由な改変、利用が可能であるとしている(OCR処理プログラム及び学習用データセットの公開について、NDLOCRリポジトリ)。
パブリックドメインOCR学習用データセットに関しては、同様にLINEに委託したデジタル化資料のOCRテキスト化事業[PDF]において制作されたOCRの性能改善のために作成した機械学習用データセットのうち、著作権保護期間の満了した資料から作成されたものを公開したものだという(パブリックドメインOCR学習用データセット(令和3年度OCRテキスト化事業分)リポジトリ)。
パブリックドメインOCR学習用データセットに関しては、同様にLINEに委託したデジタル化資料のOCRテキスト化事業[PDF]において制作されたOCRの性能改善のために作成した機械学習用データセットのうち、著作権保護期間の満了した資料から作成されたものを公開したものだという(パブリックドメインOCR学習用データセット(令和3年度OCRテキスト化事業分)リポジトリ)。
成果…なのか? (スコア:2)
次世代デジタルライブラリー
https://lab.ndl.go.jp/dl/ [ndl.go.jp]
> 「次世代デジタルライブラリー」は、国立国会図書館次世代システム
> 開発研究室での研究を基に開発した機能を実装した実験的な検索サービスです。
> 国立国会図書館デジタルコレクションで提供している資料の中から、
> 著作権の保護期間が満了した図書及び古典籍資料全部(約33万6千点)が検索可能です。
結構面白く使える感じではあります。画像検索が今ひとつ使い切れませんが。
好き (スコア:0)
https://zenn.dev/nakamura196/articles/b6712981af3384 [zenn.dev]
字体のフォローが良い感じ
Googleとどっちが優秀? (スコア:0)
OCRというと、Googleドライブ/ドキュメントのOCRが強力なのは有名だけど、NDL版は追いついているのだろうか。
Googleの方は、おそらくGoogle Booksで利用しているものの流用で、国会図書館のスキャン済み資料とは桁違いの数のデータから学習していると推測されるし、モルフォAIソリューションズとGoogleの技術力の差っていうのもある。
国会図書館の蔵書(本文レベル)の検索性って、著作権がらみの問題か、はたまた予算の問題か、ぜんぜんダメダメで、古い(といっても活字化された)文献探しではGoogle Booksの方がはるかに使いである。そんな状況が多少なりとも改善されることを祈る。
Re:Googleとどっちが優秀? (スコア:1)
Google Booksで利用している強力なOCRっていうのが、Googleの有料OCRサービス(Google Cloud Vision https://cloud.google.com/vision/docs/pdf?hl=ja [google.com])を指しているのであれば、
ここで公開されているチュートリアルで試した感じ、古い資料だとNDL版の方が精度高そうですよ。
https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main... [google.com]
Re: (スコア:0)
こうやって公開されてニュースになったのだから、気になったなら自分で試して比べてみるのはどうだろうか?
技術力が違うと言ったって、そもそも成り立ちからIT技術にかけられる予算額の違いがあるのではないかと思うけれども。
Re: (スコア:0)
ぐーぐるのばあいクラウドソーシングの力が大きい。
いわゆるりきゃぷちゃの類。
結局教師付き学習が高性能で教師をタダで確保できるグーグルフェイスブックがこの辺有利。
Re: (スコア:0)
ライブラリはともかく委託は国内企業にしてほしいね
CC BY 4.0ライセンス (スコア:0)
ってことに意味があるんでしょ?
Re: (スコア:0)
ってことに意味があるんでしょ?
いえいえ
「同様にLINEに委託したデジタル化資料」
ということに意味を見出すのですよ