パスワードを忘れた? アカウント作成
15644534 story
ニュース

国会図書館、OCR処理プログラム及び学習用データセットを公開 9

ストーリー by nagazou
公開 部門より
国立国会図書館は4月25日に、日本語のOCR処理プログラム「NDLOCR」とパブリックドメインOCR学習用データセットの二つを公開した。NDLOCRは国立国会図書館が、モルフォAIソリューションズに委託して制作されたOCR処理プログラムの研究開発事業の成果物をCC BY 4.0ライセンスで公開したものとなっている。商用非商用を問わず自由な改変、利用が可能であるとしている(OCR処理プログラム及び学習用データセットの公開についてNDLOCRリポジトリ)。

パブリックドメインOCR学習用データセットに関しては、同様にLINEに委託したデジタル化資料のOCRテキスト化事業[PDF]において制作されたOCRの性能改善のために作成した機械学習用データセットのうち、著作権保護期間の満了した資料から作成されたものを公開したものだという(パブリックドメインOCR学習用データセット(令和3年度OCRテキスト化事業分)リポジトリ)。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Dharma-store (47177) on 2022年05月07日 13時57分 (#4245119) 日記

    次世代デジタルライブラリー
    https://lab.ndl.go.jp/dl/ [ndl.go.jp]

    > 「次世代デジタルライブラリー」は、国立国会図書館次世代システム
    > 開発研究室での研究を基に開発した機能を実装した実験的な検索サービスです。
    > 国立国会図書館デジタルコレクションで提供している資料の中から、
    > 著作権の保護期間が満了した図書及び古典籍資料全部(約33万6千点)が検索可能です。

    結構面白く使える感じではあります。画像検索が今ひとつ使い切れませんが。

  • by Anonymous Coward on 2022年05月07日 9時58分 (#4244999)

    https://zenn.dev/nakamura196/articles/b6712981af3384 [zenn.dev]

    字体のフォローが良い感じ

  • by Anonymous Coward on 2022年05月07日 10時37分 (#4245017)

    OCRというと、Googleドライブ/ドキュメントのOCRが強力なのは有名だけど、NDL版は追いついているのだろうか。

    Googleの方は、おそらくGoogle Booksで利用しているものの流用で、国会図書館のスキャン済み資料とは桁違いの数のデータから学習していると推測されるし、モルフォAIソリューションズとGoogleの技術力の差っていうのもある。

    国会図書館の蔵書(本文レベル)の検索性って、著作権がらみの問題か、はたまた予算の問題か、ぜんぜんダメダメで、古い(といっても活字化された)文献探しではGoogle Booksの方がはるかに使いである。そんな状況が多少なりとも改善されることを祈る。

    • by Anonymous Coward on 2022年05月07日 15時54分 (#4245153)

      Google Booksで利用している強力なOCRっていうのが、Googleの有料OCRサービス(Google Cloud Vision https://cloud.google.com/vision/docs/pdf?hl=ja [google.com])を指しているのであれば、
      ここで公開されているチュートリアルで試した感じ、古い資料だとNDL版の方が精度高そうですよ。
      https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main... [google.com]

      親コメント
    • by Anonymous Coward

      こうやって公開されてニュースになったのだから、気になったなら自分で試して比べてみるのはどうだろうか?
      技術力が違うと言ったって、そもそも成り立ちからIT技術にかけられる予算額の違いがあるのではないかと思うけれども。

      • by Anonymous Coward

        ぐーぐるのばあいクラウドソーシングの力が大きい。
        いわゆるりきゃぷちゃの類。
        結局教師付き学習が高性能で教師をタダで確保できるグーグルフェイスブックがこの辺有利。

    • by Anonymous Coward

      ライブラリはともかく委託は国内企業にしてほしいね

  • by Anonymous Coward on 2022年05月07日 13時33分 (#4245106)

    ってことに意味があるんでしょ?

    • by Anonymous Coward

      ってことに意味があるんでしょ?

      いえいえ
      「同様にLINEに委託したデジタル化資料」
      ということに意味を見出すのですよ

typodupeerror

未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー

読み込み中...