パスワードを忘れた? アカウント作成
15672180 story
Digital

国会図書館での資料デジタル化は人海戦術? 85

ストーリー by nagazou
地下新聞でも作ってるかのような雰囲気 部門より

aquirax氏のツイートによると、「国立国会図書館月報」の2022年5月刊733号に、国会図書館で書籍のスキャニングの様子を撮影した写真が掲載されていたようだ(TAQUENACA, Aquirax氏のツイート)。ツイートに上げられた写真では、大型のフラッドヘッドスキャナを使用してスキャン、PC上のモニターでその様子を映し、一つ一つ修正していると思われる姿が垣間見える。同氏のツイートでは、

特撮ではない。国会図書館デジタル化スキャナー部隊前線基地の威容を見よ。これが国家戦略の本気である。

とコメントしている。スキャン時のゆがみや原本のダメージを無くすため、写真のような手間のかかる形で作業をスキャンしていると思われる。

正直、自炊代行業者を法的に潰したのがデジタル化に影響しているような気がしないでもない。

あるAnonymous Coward 曰く、

# 非破壊自動ブックスキャナとか導入してないらしい

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by asanagi (22217) on 2022年05月27日 6時36分 (#4257091) 日記

    GoogleのreCAPTCHAで不鮮明な文字スキャン画像みたいな奴は
    GoogleBooks用のOCRでうまく認識できなかった部分を人にやらせてるそうですね。
    一昔前にエロサイトでよく見た気がするが、最近あまり見ないので役割を終えたのだろうか?

    • by Anonymous Coward

      今もあるでしょ。今は文字じゃなくて自動車とか信号機とかになってますが。

    • by Anonymous Coward

      横断歩道とか信号機とかの画像を選ばせるアレも明らかに自動運転技術に使ってる

      • by nemui4 (20313) on 2022年05月27日 8時24分 (#4257125) 日記

        >横断歩道とか信号機とかの画像を選ばせるアレも明らかに自動運転技術に使ってる

        運転中にアレが出てきたら焦りそう

        親コメント
        • by Anonymous Coward

          そっち?Level4までの自動運転中によそ見してるだろお前キャプチャ突破するまで動かないからなみたいな実装を自動運転カーにするのかと思った。

      • by Anonymous Coward

        そのうち、こちらに突っ込んでくる自動車を予測しろと聞いてくるようになるわけですね。

        自転車とか二輪はわかりやすいけど、四輪はなぁ……

    • by Anonymous Coward

      本当かなぁ
      正解が用意されてないと機能しないと思うんだけど

      • by Anonymous Coward

        だいたい2つの単語が並んでましたよね。
        認証しつつ,学習してたんじゃないでしょうかね。

        • by Anonymous Coward

          出題者はどちらが正解か知っている2つの画像を選ばせることで、何を学習できるのかがわからない

          • by Anonymous Coward

            全部わかってるとか全部わかってないとか言う状態ではないんや

            学習したいペアがあったとして、時々それを出す
            どっちを選んでも終わりにせず、次は答えの分かったペアを選ばせる
            「答えの分かったペア」で正解を答えた人は「学習したいペア」でも正解を選んでいると考えられるので、
            それのデータを蓄積する

            ある程度たまったら「学習したいペア」の正解がどちらかというのが統計的にわかる

          • by Anonymous Coward

            (最近は見掛けませんが)2単語の並んだCAPTCHA解いたことないですか?
            2択ではないので「どちらが正解か」を選ぶワケじゃないですよ。
            片方の画像は統計的に正答の分かってる単語で人間かどうかを見る一方で、もう片方は正答の分からない単語で人間の入力から正答を学習するってことですよ。

  • もともと、非破壊で書籍をスキャンするってのはかなり面倒な作業。
    しかも国会図書館の書籍となると破損したらもう替えが聞かない貴重な資料もかなり混ざり込んでるわけで、あんまり乱暴なやり方は出来ない。

    だから、書籍の取り扱いにある程度以上精通したスタッフが丁寧にスキャン作業する必要がある。

    人海戦術になるのは当たり前で、無理に自動化してる方が問題だろう。

    --
    しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
    • by Anonymous Coward

      実際に作業してるのは下請けが雇ったアルバイトって書いてあるけどね
      (本当かどうかは知らん)

  • モノによるんじゃ? (スコア:3, すばらしい洞察)

    by Anonymous Coward on 2022年05月27日 8時04分 (#4257119)

    大量生産品のスキャンなら自動化もいいが、
    (最近のものなら、デジタル原稿とか、デジタルの版下とかで納本してもらえや)

    歴史的資料だったり、残存数が少ない本だったりすると、扱いも気を使うのでは?
    (学芸員が白手袋してー、のイメージ)
    たぶんそういうのを優先して電子化するだろうし、それに合わせた機材をまず揃えたのかもしれない。

    • by Anonymous Coward

      古い図書だと機械でやったら崩壊するか、破れるか、ページ抜けが起きるだろうしなぁ。

    • by Anonymous Coward

      自分もそう思った。
      形式が安定していて裁断してもいいものならスキャン品質も維持しやすいだろうけど、一品物は課題が多そう。

      # 人海戦術による効率化もシステムのひとつの形だと思う

    • by Anonymous Coward

      主旨ではなくあくまでも素人の勝手な印象における丁寧な扱いの一種としての「白手袋」についての言及であることは理解しておりますが第三者のために念のために補足しておくと、 (物によりますが) 貴重品を扱うときに白手袋をつけるのは避けたほうがよいと考えられている場合も多いです。
      ちょっと考えてみればわかると思うのですが、手袋をつけて紙を扱うのはやりづらいですよ。
      やりづらさで破損のリスクが高まるのとわずかな皮脂が付いて劣化するリスクとを天秤にかけたら後者のほうがマシです。
      (手をそれなりに洗うというのは当然の前提。)

      • by Anonymous Coward

        手袋してるとやりにくい「ページをめくる」が作業のかなりの部分を占めそうですしね

      • by Anonymous Coward

        滑り止め付きの手袋は駄目なんでしょうか。
        こういう奴
        https://www.monotaro.com/g/05053836/ [monotaro.com]

        これで問題あるなら、司書と書店員の為に本専用の手袋を開発しても罰当たらないと思います。

      • by Anonymous Coward

        素人が資料を触ろうとすると手袋しててもしてなくてもつまみ出されるのでは?

      • by Anonymous Coward

        NHKの番組で見たけど、正倉院の所蔵品を扱う学芸員は素手でしたね。手袋は滑って落とすことがあるから厳禁だとか。

  • by Takahiro_Chou (21972) on 2022年05月27日 13時20分 (#4257324) 日記

    昔の映画のデジタル○Kリマスターなんかも基本的には職人さん無しには出来ない、なんて話も有ったな……。

  • by Anonymous Coward on 2022年05月27日 13時35分 (#4257340)

    デジタル分野のアーカイブのパイオニアであるInternet Archiveも人力なので国会図書館のやり方は普通ですね。

    Internet Archiveが使用しているTable Top Scribe Systemも本を専用の台の上において人が手でめくる方式です。
    詳しくはこの辺 [archive.org]で確認できますが、どう見ても人力です。
    仕様 [archive.org]によると、画像はSony A6000で撮影し、一時間に500-800ページスキャンできるようです。因みにお値段165万円(送料抜き)

    趣味の延長上のオモチャなのではと思われるかもしれませんが、Internet Archiveは大学や図書館向けに有償で資料のデジタル化サービスを提供 [archive.org]していて、アメリカの有名大学も多数利用している、実績のあるシステムです。

  • by Anonymous Coward on 2022年05月27日 6時21分 (#4257086)

    >自炊代行業者を法的に潰したのがデジタル化に影響しているような気がしないでもない。

    どう影響したのでしょうか?

    • 編集者が自分の感想をストーリーに掲載するとかなかなかロックだ

    • by Anonymous Coward

      全く関係ないよね。

      書籍電子化の「自炊」の大半は「裁断」が行われて、裁断した本は廃棄されるのが基本。
      図書館の所蔵品のデジタル化はそうはいかない。

      本の形状を保ったままスキャンするのはけっこう難しいし、自動化の方法も現実的なものはない。
      本のページを目いっぱいフラットに開くだけでも本には相当のダメージがある。

      貴重な廃刊の本を電子化するには、大変だけど現実的・実用的な方法じゃないだろうか。

    • by Anonymous Coward

      自炊代行業者を潰すときに合法的にスキャンしたデータも押収できるようにすればよかったってことなんじゃない?

      データのクオリティーは知らないが。

      • by Anonymous Coward

        少なくとも当時はこれといった違法行為をしていなかった民間企業の資産(?)を
        倒産したからという理由で政府が勝手に転用するとか無茶苦茶過ぎるだろ。

  • 以前ペンタックス645Dが国会図書館に導入されデジタルアーカイブに使用されていた。

    https://dc.watch.impress.co.jp/docs/news/457679.html [impress.co.jp]
    このページの中ほど。他にはもう情報がほとんど無い.

    今頃はさすがに645Dではなくフジの中判デジカメあたりに移行したかなと思っていたけど、まさかの人力に移行とは。
    まあ、資料の重要度に応じてカメラで撮影も並行して行なってるかもしれないけど。

  • 繊細な本も扱わないといけないし、間違ったものをアーカイブしてはならない縛りから、
    最終確認は人間がやる必要があると思うんで、多分人海戦術が最適解なんじゃないかなぁ。

  • by Anonymous Coward on 2022年05月27日 10時45分 (#4257227)

    そんな便利な物が世の中に存在するなら誰も困らない
    チャーリーの手帳を読む技術はまだかの…

    • 2015年の記事、東京大学附属図書館とDNPの共同開発の非破壊自動ブックスキャナー [google.com]があったんだが、試験運用後、広がらなかったのか。毎分250ページは、今でもすごいと思うんだが。

      親コメント
      • by Anonymous Coward

        トライマグニスコープがあるじゃない

      • by Anonymous Coward

        国会図書館のデジタル化の要件に「原資料の質感の再現」というのが入っちゃってるんですよね。
        東大&DNPのシステムは高速カメラを使っているので解像度がそれほど高くなかったりADCが8bitだったり、パラパラめくりながらスキャンするのでデジタルで平面補正してたり、強い照明を使うので裏写りしやすくてそれもデジタル補正したりで、そこが弱かったみたいですよ。

    • by Anonymous Coward

      ニュートリノのCTはともかく、
      X線とかテラヘルツ波とかのCTでは読めないのかなぁ?

    • by Anonymous Coward

      ScanRobotとかあるじゃない
      あれもページ吸い付けてめくるから状態が悪い本だと破損が怖いと思うけど

  • by Anonymous Coward on 2022年05月27日 12時19分 (#4257273)

    あれは出版業界との利害調整を一切せずに突っ走った業界側の自爆でしょ。
    あれらが放置されていようがいまいが国会図書館のデジタル化事業は現状の作業体制に変わりはなかったと思うが。

  • by Anonymous Coward on 2022年05月27日 13時16分 (#4257316)

    自動ページ送りなんて導入したら、ちょっとしたトラブルから破けたり汚れたりと書籍を破損してしまう。
    だから手動の方がいい。ただどこまで人主導でやっているかだよ。

    人がページをめくったことを自動認識して自動撮影するのか、人がボタンを押して撮影するのか、
    ページが正常にめくられているかを書籍撮影時時にページ番号OCRして自動チェックしているのか、人が目でチェックしてるのか・・・

    人間をページめくるだけの部品として導入してるのか、人間が主体となってスキャナ操作しているのかで、ミス発生率や能率が大きく変わる。

  • by Anonymous Coward on 2022年05月27日 13時16分 (#4257317)

    機械は高価なものを大量にそろえているようだが、作業している人の座っている椅子が、
    身体に合わせるような調整は一切できなさそうな安もんのパイプ椅子 [twimg.com]。
    奴隷の労働現場かよw

typodupeerror

あつくて寝られない時はhackしろ! 386BSD(98)はそうやってつくられましたよ? -- あるハッカー

読み込み中...