透明テキスト付きPDFですね (#1289080) | 年金記録入力作業で中国人アルバイトが大量ミス

「年金記録入力作業で中国人アルバイトが大量ミス」記事へのコメント

記事ページを表示すべてのコメント取得

検索156コメント Log In/Create an Account

いったん画像としてデジタル化してしまった方がいいと思う (スコア:1)

by Livingdead (18685)

いちいち紙の資料にあたるよりは，いったんすべてを画像としてデジタル化してしまった方がいいと思う．
この作業のせいで余計に紙資料が散逸して被害が広がっているような気がする．
とにかくデジタイズしてしまって，現行のデータベースとひも付けできるものはひも付けして，
できないものはいろんな手段で手を尽くすのが良いのではないだろうか．
ってもう遅いか．

デジタイズにかかる手間と費用が尋常じゃないって？

＃なんかパトレイバーの劇場版のセリフで
＃「例の書き換えでさらに汚染が広がったかもしんないよ、馬鹿な決定したもんさ」
＃なんてのを思い出しちゃったよ．

--
屍体メモ [windy.cx]
- Re: (スコア:2, 参考になる)
  
  by SteppingWind (2654)
  
  既存文書の電子化のknow howとして, そういうのがあるらしいです.
  
  文字データをOCRで変換するとどうしても一定以上の誤変換があるため, 例えばPDFで同一のファイルに元画像と変換後の文字データを重ねて格納し, さらに文字データの方は不可視としておくそうです. こうしておくと, 見えない文字データの方を使って文書検索もできますし, 画像として見える文書の位置をコピー/ペーストすると該当する位置の見えない文字データがコピーされるので操作性も悪くない. さらに変換ミスがあった場合には, 元画像を見て確認できるということです.
  - 透明テキスト付きPDFですね (スコア:1)
    
    by Livingdead (18685) on 2008年01月31日 13時15分 (#1289080) ホームページ日記
    
    いわゆる透明テキスト付きPDFですね．
    手元にある Canon の DR-2050CII をはじめとして
    いくつかのスキャナについているソフトウェアで
    スキャンするとそういうことをしてくれます．
    スキャンしてそのまま放置しておけば Google Desktop Search
    や Windows Desktop Search が勝手にインデックスに
    入れてくれるので机の上が以前よりは片付きました．
    
    とはいえ，全文検索に頼ると今度はディレクトリ構造が
    全然片付かないんですけどね…「未分類１」とか「hoge」
    とかいうディレクトリが増殖してゆく・・・
    
    --
    屍体メモ [windy.cx]
    
    シェア
    
    親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

年金記録入力作業で中国人アルバイトが大量ミス More ログイン

「年金記録入力作業で中国人アルバイトが大量ミス」記事へのコメント

いったん画像としてデジタル化してしまった方がいいと思う (スコア:1)

Re: (スコア:2, 参考になる)

透明テキスト付きPDFですね (スコア:1)

スラド