パスワードを忘れた? アカウント作成
12793345 journal
日記

akiraaniの日記: 書籍電子化をデイリーミッションに

日記 by akiraani

 ScanSnapでの電子化待ちの書籍がだいぶたまっていて、ゴールデンウィーク中にある程度処理しないとと思っていたのだけど風邪で寝込んだりといろいろあって手をつけられず。ある程度以上スタックがたまりすぎてしまうと、ちょっと休日に頑張っても減った気がしないため作業しようという気が起きず、そのままずるずるたまり続けるという悪循環に。
 これはいかんというわけで、一念発起して、日課にして毎日必ず数冊のペースでスキャンするというのを始めています。

 以前に 書籍自炊にかかる時間の内訳 というエントリで書きましたが、作業工程として一番大事なのは分解です。が、実際に一番時間を食うのは実はスキャン後のデータ処理です。
 上の日記の頃は今のiX500ではなくS1500を使っていたので、データ処理のやり方がiX500とはだいぶ異なります。

 うちでやってるやり方は、たぶん一般的な手順に比べて特殊なのですが、参考までに細かく手順を上げておきます。

1.書籍の分解

 手順は上のエントリにあるものほぼそのままです。以前は折り込み状態を固定するためにセロテープを使っていたんですが、今はキャリアシートを使っています。
 キャリアシートを使うとあとでトリミング処理が必要になるんですが、その代り歪みやガタツキ、ガラス面の汚れが発生しにくくなります。

2.スキャン

 これも基本的には変わりません。ただ、S1500に比べるとiX500はローラーが強力なので、途中で止まることはだいぶ少なくなってます。
 スキャン設定は最高画質の圧縮なし、白紙スキップやら傾き補正やらは軒並み切ってます。OCR処理はiX500はスキャン中に処理できるようになったためスキャン時に行っています。(Acrobat上でOCRをかけると傾き補正が入って絵の多いコミックスだと暴発することがあります)

3.スキャンデータのチェック&最適化

 iX500のローラーの強化のおかげで重送はほぼなくなったため、ページ数チェックはもうしてません。
 代わりに発生しているのが、表紙部分のトリミング作業。キャリアシートのサイズの自動チェックをOFFにしているため、取り込み直後はキャリアシート全面がスキャンされた状態になっています。また、キャリアシートの中で傾きが発生することもあるため、トリミングおよび傾き補正処理が必要になります。

 フルカラーではない書籍の場合、表紙と巻頭カラーページのみカラー設定で読み込んで、中のモノクロページはグレースケールで取り込みを行っています。雑誌はカラーページとモノクロページが何度も切り替わって分けるのがめんどくさいため、あきらめて全部カラーで取り込んでいます。

 その後、画像の最適化処理を行うわけですが、上の日記では画像処理にはOCR処理のダウンサイジングを使っていますが、今はAcrobatの「スキャンされた PDF を最適化」をかけることにしています。圧縮率は画質優先によせて、フィルタ系の処理は一切かけてません。それでも最高画質無圧縮で取り込んでいると、画質をほとんど落とさずにサイズが1/10くらいまで圧縮されます。Acrobatには他にファイルサイズ圧縮の手段があるんですが、いろいろ試行錯誤した結果、画質と圧縮率のバランスが一番よかった。
 なお、これは無圧縮最高画質で取り込んでいる場合の話なので、スキャン時に画質を落としたり圧縮をかけていたりするとまた結果は変わってくると思います。
 また、スキャンされた PDF を最適化は処理に時間がかかる、というデメリットがあります。ダウンサイジングと違って複数ファイルをまとめて処理することもできないため、1冊1冊Acrobatで開いては処理をかけて処理完了したら保存して、というやたらめったら待ち時間の長い作業をする必要があります。おかげで一定以上の数取り込み作業を行うと、Acrobatの処理待ちがボトルネックになります。
 このせいで休日にまとめて取り込みが難しくなっていて、数冊ずつ毎日取り込んでいくしかないねー、というのが現状だったりします。

 こうやって地道に書籍の数を減らしていけば部屋のスペースにも余裕ができるし、ある程度スペースができれば書籍電子化以外の作業がもできるスペースも確保できるかも。ある程度スペースが空けば、画像処理能力の高いデスクトップ導入して作業加速できるかも(遠い目

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

Stay hungry, Stay foolish. -- Steven Paul Jobs

読み込み中...