アカウント名:
パスワード:
既存文書の電子化のknow howとして, そういうのがあるらしいです.
文字データをOCRで変換するとどうしても一定以上の誤変換があるため, 例えばPDFで同一のファイルに元画像と変換後の文字データを重ねて格納し, さらに文字データの方は不可視としておくそうです. こうしておくと, 見えない文字データの方を使って文書検索もできますし, 画像として見える文書の位置をコピー/ペーストすると該当する位置の見えない文字データがコピーされるので操作性も悪くない. さらに変換ミスがあった場合には, 元画像を見て確認できるということです.
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
普通のやつらの下を行け -- バッドノウハウ専門家
いったん画像としてデジタル化してしまった方がいいと思う (スコア:1)
この作業のせいで余計に紙資料が散逸して被害が広がっているような気がする.
とにかくデジタイズしてしまって,現行のデータベースとひも付けできるものはひも付けして,
できないものはいろんな手段で手を尽くすのが良いのではないだろうか.
ってもう遅いか.
デジタイズにかかる手間と費用が尋常じゃないって?
#なんかパトレイバーの劇場版のセリフで
#「例の書き換えでさらに汚染が広がったかもしんないよ、馬鹿な決定したもんさ」
#なんてのを思い出しちゃったよ.
屍体メモ [windy.cx]
Re: (スコア:2, 参考になる)
既存文書の電子化のknow howとして, そういうのがあるらしいです.
文字データをOCRで変換するとどうしても一定以上の誤変換があるため, 例えばPDFで同一のファイルに元画像と変換後の文字データを重ねて格納し, さらに文字データの方は不可視としておくそうです. こうしておくと, 見えない文字データの方を使って文書検索もできますし, 画像として見える文書の位置をコピー/ペーストすると該当する位置の見えない文字データがコピーされるので操作性も悪くない. さらに変換ミスがあった場合には, 元画像を見て確認できるということです.
透明テキスト付きPDFですね (スコア:1)
手元にある Canon の DR-2050CII をはじめとして
いくつかのスキャナについているソフトウェアで
スキャンするとそういうことをしてくれます.
スキャンしてそのまま放置しておけば Google Desktop Search
や Windows Desktop Search が勝手にインデックスに
入れてくれるので机の上が以前よりは片付きました.
とはいえ,全文検索に頼ると今度はディレクトリ構造が
全然片付かないんですけどね…「未分類1」とか「hoge」
とかいうディレクトリが増殖してゆく・・・
屍体メモ [windy.cx]