国会図書館での資料デジタル化は人海戦術? 85
ストーリー by nagazou
地下新聞でも作ってるかのような雰囲気 部門より
地下新聞でも作ってるかのような雰囲気 部門より
aquirax氏のツイートによると、「国立国会図書館月報」の2022年5月刊733号に、国会図書館で書籍のスキャニングの様子を撮影した写真が掲載されていたようだ(TAQUENACA, Aquirax氏のツイート)。ツイートに上げられた写真では、大型のフラッドヘッドスキャナを使用してスキャン、PC上のモニターでその様子を映し、一つ一つ修正していると思われる姿が垣間見える。同氏のツイートでは、
特撮ではない。国会図書館デジタル化スキャナー部隊前線基地の威容を見よ。これが国家戦略の本気である。
とコメントしている。スキャン時のゆがみや原本のダメージを無くすため、写真のような手間のかかる形で作業をスキャンしていると思われる。
正直、自炊代行業者を法的に潰したのがデジタル化に影響しているような気がしないでもない。
あるAnonymous Coward 曰く、
# 非破壊自動ブックスキャナとか導入してないらしい
Googles様の人力 (スコア:5, 興味深い)
GoogleのreCAPTCHAで不鮮明な文字スキャン画像みたいな奴は
GoogleBooks用のOCRでうまく認識できなかった部分を人にやらせてるそうですね。
一昔前にエロサイトでよく見た気がするが、最近あまり見ないので役割を終えたのだろうか?
Re: (スコア:0)
今もあるでしょ。今は文字じゃなくて自動車とか信号機とかになってますが。
Re: (スコア:0)
横断歩道とか信号機とかの画像を選ばせるアレも明らかに自動運転技術に使ってる
Re:Googles様の人力 (スコア:1)
>横断歩道とか信号機とかの画像を選ばせるアレも明らかに自動運転技術に使ってる
運転中にアレが出てきたら焦りそう
Re: (スコア:0)
そっち?Level4までの自動運転中によそ見してるだろお前キャプチャ突破するまで動かないからなみたいな実装を自動運転カーにするのかと思った。
Re: (スコア:0)
そのうち、こちらに突っ込んでくる自動車を予測しろと聞いてくるようになるわけですね。
自転車とか二輪はわかりやすいけど、四輪はなぁ……
Re: (スコア:0)
本当かなぁ
正解が用意されてないと機能しないと思うんだけど
Re: (スコア:0)
だいたい2つの単語が並んでましたよね。
認証しつつ,学習してたんじゃないでしょうかね。
Re: (スコア:0)
出題者はどちらが正解か知っている2つの画像を選ばせることで、何を学習できるのかがわからない
Re: (スコア:0)
全部わかってるとか全部わかってないとか言う状態ではないんや
学習したいペアがあったとして、時々それを出す
どっちを選んでも終わりにせず、次は答えの分かったペアを選ばせる
「答えの分かったペア」で正解を答えた人は「学習したいペア」でも正解を選んでいると考えられるので、
それのデータを蓄積する
ある程度たまったら「学習したいペア」の正解がどちらかというのが統計的にわかる
Re: (スコア:0)
(最近は見掛けませんが)2単語の並んだCAPTCHA解いたことないですか?
2択ではないので「どちらが正解か」を選ぶワケじゃないですよ。
片方の画像は統計的に正答の分かってる単語で人間かどうかを見る一方で、もう片方は正答の分からない単語で人間の入力から正答を学習するってことですよ。
取り扱い難しい品もあるし、人海戦術はしょうがない (スコア:4, すばらしい洞察)
もともと、非破壊で書籍をスキャンするってのはかなり面倒な作業。
しかも国会図書館の書籍となると破損したらもう替えが聞かない貴重な資料もかなり混ざり込んでるわけで、あんまり乱暴なやり方は出来ない。
だから、書籍の取り扱いにある程度以上精通したスタッフが丁寧にスキャン作業する必要がある。
人海戦術になるのは当たり前で、無理に自動化してる方が問題だろう。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re: (スコア:0)
実際に作業してるのは下請けが雇ったアルバイトって書いてあるけどね
(本当かどうかは知らん)
モノによるんじゃ? (スコア:3, すばらしい洞察)
大量生産品のスキャンなら自動化もいいが、
(最近のものなら、デジタル原稿とか、デジタルの版下とかで納本してもらえや)
歴史的資料だったり、残存数が少ない本だったりすると、扱いも気を使うのでは?
(学芸員が白手袋してー、のイメージ)
たぶんそういうのを優先して電子化するだろうし、それに合わせた機材をまず揃えたのかもしれない。
Re: (スコア:0)
古い図書だと機械でやったら崩壊するか、破れるか、ページ抜けが起きるだろうしなぁ。
Re: (スコア:0)
自分もそう思った。
形式が安定していて裁断してもいいものならスキャン品質も維持しやすいだろうけど、一品物は課題が多そう。
# 人海戦術による効率化もシステムのひとつの形だと思う
Re: (スコア:0)
主旨ではなくあくまでも素人の勝手な印象における丁寧な扱いの一種としての「白手袋」についての言及であることは理解しておりますが第三者のために念のために補足しておくと、 (物によりますが) 貴重品を扱うときに白手袋をつけるのは避けたほうがよいと考えられている場合も多いです。
ちょっと考えてみればわかると思うのですが、手袋をつけて紙を扱うのはやりづらいですよ。
やりづらさで破損のリスクが高まるのとわずかな皮脂が付いて劣化するリスクとを天秤にかけたら後者のほうがマシです。
(手をそれなりに洗うというのは当然の前提。)
Re: (スコア:0)
手袋してるとやりにくい「ページをめくる」が作業のかなりの部分を占めそうですしね
Re: (スコア:0)
手袋してると「指先ペロリ」がやりづらい
Re: (スコア:0)
舐めた指で蔵書を触る人がいるんですか?
ページに毒がついててたらヤバいじん。
Re:モノによるんじゃ? (スコア:1)
バスカヴィルのウィリアムさんちっす。
Re: (スコア:0)
滑り止め付きの手袋は駄目なんでしょうか。
こういう奴
https://www.monotaro.com/g/05053836/ [monotaro.com]
これで問題あるなら、司書と書店員の為に本専用の手袋を開発しても罰当たらないと思います。
Re: (スコア:0)
素人が資料を触ろうとすると手袋しててもしてなくてもつまみ出されるのでは?
Re: (スコア:0)
NHKの番組で見たけど、正倉院の所蔵品を扱う学芸員は素手でしたね。手袋は滑って落とすことがあるから厳禁だとか。
そう言や…… (スコア:3)
昔の映画のデジタル○Kリマスターなんかも基本的には職人さん無しには出来ない、なんて話も有ったな……。
他所も人海戦術ですよ (スコア:3, 参考になる)
デジタル分野のアーカイブのパイオニアであるInternet Archiveも人力なので国会図書館のやり方は普通ですね。
Internet Archiveが使用しているTable Top Scribe Systemも本を専用の台の上において人が手でめくる方式です。
詳しくはこの辺 [archive.org]で確認できますが、どう見ても人力です。
仕様 [archive.org]によると、画像はSony A6000で撮影し、一時間に500-800ページスキャンできるようです。因みにお値段165万円(送料抜き)
趣味の延長上のオモチャなのではと思われるかもしれませんが、Internet Archiveは大学や図書館向けに有償で資料のデジタル化サービスを提供 [archive.org]していて、アメリカの有名大学も多数利用している、実績のあるシステムです。
どう影響したの?? (スコア:0)
>自炊代行業者を法的に潰したのがデジタル化に影響しているような気がしないでもない。
どう影響したのでしょうか?
それってあなたの感想ですよね (スコア:0)
編集者が自分の感想をストーリーに掲載するとかなかなかロックだ
Re:それってあなたの感想ですよね (スコア:1)
ここは報道の場ではないからな
Re:それってあなたの感想ですよね (スコア:1)
さよう。
タレコミ人と編集者のプロパガンダの場ですからな。
# 結局、声の大きい人達が言い分が通るのよ...
Re:それってあなたの感想ですよね (スコア:1)
編集者は物言わぬ機械じゃないんだから客観部と主観部が区別できて雑談が面白くなるならそれでもええよ
Re: (スコア:0)
全く関係ないよね。
書籍電子化の「自炊」の大半は「裁断」が行われて、裁断した本は廃棄されるのが基本。
図書館の所蔵品のデジタル化はそうはいかない。
本の形状を保ったままスキャンするのはけっこう難しいし、自動化の方法も現実的なものはない。
本のページを目いっぱいフラットに開くだけでも本には相当のダメージがある。
貴重な廃刊の本を電子化するには、大変だけど現実的・実用的な方法じゃないだろうか。
Re: (スコア:0)
自炊代行業者を潰すときに合法的にスキャンしたデータも押収できるようにすればよかったってことなんじゃない?
データのクオリティーは知らないが。
Re: (スコア:0)
少なくとも当時はこれといった違法行為をしていなかった民間企業の資産(?)を
倒産したからという理由で政府が勝手に転用するとか無茶苦茶過ぎるだろ。
中判デジタルカメラを使って自動でやっていると思っていたが (スコア:0)
以前ペンタックス645Dが国会図書館に導入されデジタルアーカイブに使用されていた。
https://dc.watch.impress.co.jp/docs/news/457679.html [impress.co.jp]
このページの中ほど。他にはもう情報がほとんど無い.
今頃はさすがに645Dではなくフジの中判デジカメあたりに移行したかなと思っていたけど、まさかの人力に移行とは。
まあ、資料の重要度に応じてカメラで撮影も並行して行なってるかもしれないけど。
Re:中判デジタルカメラを使って自動でやっていると思っていたが (スコア:1)
カメラ使っていた。Youtubeに動画が。
https://www.youtube.com/watch?v=WcV7JW9dT5U [youtube.com]
なんでフラットベットスキャナで取るのに暗い部屋で照明使って?と思ったけど
カメラで撮影なら納得。
Re:中判デジタルカメラを使って自動でやっていると思っていたが (スコア:1)
> フラットベットスキャナ
フラットベッドスキャナ
Re: (スコア:0)
クイックリターンミラーカメラはどうしても振れるからなぁ。
Re: (スコア:0)
あと645Dだとシャッター寿命が3万回程度なので
数ヶ月ごとの修理かリプレースが必要になったことだろう。
Re: (スコア:0)
そもそも645Dはテザリング撮影機能がないから自動化もへったくれもないだろ
繊細な本も扱わないといけない&間違ってはならない (スコア:0)
繊細な本も扱わないといけないし、間違ったものをアーカイブしてはならない縛りから、
最終確認は人間がやる必要があると思うんで、多分人海戦術が最適解なんじゃないかなぁ。
非破壊自動ブックスキャナー (スコア:0)
そんな便利な物が世の中に存在するなら誰も困らない
チャーリーの手帳を読む技術はまだかの…
Re:非破壊自動ブックスキャナー (スコア:2)
2015年の記事、東京大学附属図書館とDNPの共同開発の非破壊自動ブックスキャナー [google.com]があったんだが、試験運用後、広がらなかったのか。毎分250ページは、今でもすごいと思うんだが。
Re: (スコア:0)
トライマグニスコープがあるじゃない
Re: (スコア:0)
国会図書館のデジタル化の要件に「原資料の質感の再現」というのが入っちゃってるんですよね。
東大&DNPのシステムは高速カメラを使っているので解像度がそれほど高くなかったりADCが8bitだったり、パラパラめくりながらスキャンするのでデジタルで平面補正してたり、強い照明を使うので裏写りしやすくてそれもデジタル補正したりで、そこが弱かったみたいですよ。
Re: (スコア:0)
ニュートリノのCTはともかく、
X線とかテラヘルツ波とかのCTでは読めないのかなぁ?
Re: (スコア:0)
ScanRobotとかあるじゃない
あれもページ吸い付けてめくるから状態が悪い本だと破損が怖いと思うけど
自炊業者は関係なくね? (スコア:0)
あれは出版業界との利害調整を一切せずに突っ走った業界側の自爆でしょ。
あれらが放置されていようがいまいが国会図書館のデジタル化事業は現状の作業体制に変わりはなかったと思うが。
問題はどこまで人力なのか (スコア:0)
自動ページ送りなんて導入したら、ちょっとしたトラブルから破けたり汚れたりと書籍を破損してしまう。
だから手動の方がいい。ただどこまで人主導でやっているかだよ。
人がページをめくったことを自動認識して自動撮影するのか、人がボタンを押して撮影するのか、
ページが正常にめくられているかを書籍撮影時時にページ番号OCRして自動チェックしているのか、人が目でチェックしてるのか・・・
人間をページめくるだけの部品として導入してるのか、人間が主体となってスキャナ操作しているのかで、ミス発生率や能率が大きく変わる。
椅子が酷い (スコア:0)
機械は高価なものを大量にそろえているようだが、作業している人の座っている椅子が、
身体に合わせるような調整は一切できなさそうな安もんのパイプ椅子 [twimg.com]。
奴隷の労働現場かよw