アカウント名:
パスワード:
既存文書の電子化のknow howとして, そういうのがあるらしいです.
文字データをOCRで変換するとどうしても一定以上の誤変換があるため, 例えばPDFで同一のファイルに元画像と変換後の文字データを重ねて格納し, さらに文字データの方は不可視としておくそうです. こうしておくと, 見えない文字データの方を使って文書検索もできますし, 画像として見える文書の位置をコピー/ペーストすると該当する位置の見えない文字データがコピーされるので操作性も悪くない. さらに変換ミスがあった場合には, 元画像を見て確認できるということです.
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
弘法筆を選ばず、アレゲはキーボードを選ぶ -- アレゲ研究家
いったん画像としてデジタル化してしまった方がいいと思う (スコア:1)
この作業のせいで余計に紙資料が散逸して被害が広がっているような気がする.
とにかくデジタイズしてしまって,現行のデータベースとひも付けできるものはひも付けして,
できないものはいろんな手段で手を尽くすのが良いのではないだろうか.
ってもう遅いか.
デジタイズにかかる手間と費用が尋常じゃないって?
#なんかパトレイバーの劇場版のセリフで
#「例の書き換えでさらに汚染が広がったかもしんないよ、馬鹿な決定したもんさ」
#なんてのを思い出しちゃったよ.
屍体メモ [windy.cx]
Re:いったん画像としてデジタル化してしまった方がいいと思う (スコア:3, 参考になる)
テレビで見た話なので、ちょっとネット上での情報が示せないのですが、民間の個人情報入力業務ではそういうのを結構やってるみたいですよ。
「紙に手書きの情報を一旦スキャン」してから、「端末に画像を表示して、その文字を入力させる」ことで文字コード化するというスタイルで、「元データを丸ごと見せず、名前だけや住所だけといった部分的な情報提示をする」ので、
・ネット経由で在宅勤務が可能。
・個人情報が漏洩しにくい。
といったメリットがあるそうです。
文字単位にまで分解してCaptcha [srad.jp]にすれば安上がりかも…
Re:いったん画像としてデジタル化してしまった方がいいと思う (スコア:1)
それをエロサイトに仕込めば、ボランティアが殺到しそうです。
Re:いったん画像としてデジタル化してしまった方がいいと思う (スコア:1)
金田か鈿か、それが問題だ。
内職商法 (スコア:0)
これ、内職商法でよくある手口なんですよ。商品名「Egg View」という、まさにこの機能のソフトを買わせる。渡されるデータはでっち上げ、架空のもの。で、入力作業後そのデータを納品しても、入力ミスがあるとして報酬支払いを拒否するわけ。
悪マニなどでこのソフト名が悪評高くなってからどうやら下火になった模様ですが、データエントリ名目の内職商法自体は今もなくなっていません。ご注意あれ。
Re:いったん画像としてデジタル化してしまった方がいいと思う (スコア:2, 参考になる)
既存文書の電子化のknow howとして, そういうのがあるらしいです.
文字データをOCRで変換するとどうしても一定以上の誤変換があるため, 例えばPDFで同一のファイルに元画像と変換後の文字データを重ねて格納し, さらに文字データの方は不可視としておくそうです. こうしておくと, 見えない文字データの方を使って文書検索もできますし, 画像として見える文書の位置をコピー/ペーストすると該当する位置の見えない文字データがコピーされるので操作性も悪くない. さらに変換ミスがあった場合には, 元画像を見て確認できるということです.
透明テキスト付きPDFですね (スコア:1)
手元にある Canon の DR-2050CII をはじめとして
いくつかのスキャナについているソフトウェアで
スキャンするとそういうことをしてくれます.
スキャンしてそのまま放置しておけば Google Desktop Search
や Windows Desktop Search が勝手にインデックスに
入れてくれるので机の上が以前よりは片付きました.
とはいえ,全文検索に頼ると今度はディレクトリ構造が
全然片付かないんですけどね…「未分類1」とか「hoge」
とかいうディレクトリが増殖してゆく・・・
屍体メモ [windy.cx]
Re: (スコア:0)
何かやらかしそうなくらい信用がないですね。
画像データにしてしまうと、データ容量が大変な気がします。
どんな紙資料なのか見たことがないのでわかりませんが、少なくとも
1枚数百kBくらいになるのでは?
ストレージはテラクラスで足りますかね?
ただ、社保庁は、台帳に記載されていて、確認することができるにも関わらず
倉庫まで台帳を取りに行くのが面倒なので、記入漏れを指摘しにきた受給者に
「証拠を出せ、領収書を出せ」だの言って確認することを断り、諦めずに
しつこく確認を要望する人の場合に、やっと倉庫に台帳を取りに行くという
ふざけた対応をしていたので、席を立たずに台帳を確認できるという環境を
用意するのは良いことだと思います。
Re: (スコア:0)
どうせ白黒(モノクロ)何だろうから、そこまでデカくないと思うけど。
モノクロ16階調でせいぜい数十kBでは?
Re: (スコア:0)
Re: (スコア:0)
撮影に失敗したのがあってもいちいちチェックしたり撮り直したりしなかったってことですかね。