Xeroxのスキャナはスキャンした文書の数字をランダムに書き換えるらしい
タレコミ by guicho2.71828
guicho2.71828 曰く、
情報元へのリンク
Xeroxのスキャナで文書を取り込むと、たとえOCRがオフでもなぜかランダムに数値が入れ替わってしまうらしい。
考察によれば画像圧縮に使われているJBIG2アルゴリズムに関係が有りそうだという事。
JBIG2は似た画像パッチを再利用して貼り付けたりするアルゴリズムで、
画像パッチのサイズが画像の中の文字のサイズと同じぐらいの大きさになると、
誤認識して別の数字に張り替えてしまうらしい。
リンク先では、60が80になったり、14.13が17.42になったりしている。
対策は、高解像度にすること、あるいはTIFF形式で保存すること(生データにする)らしい。
勤務先でXeroxスキャナを使っている方は、スキャンデータを全部疑ってみる必要がありますね。
情報元へのリンク
Xeroxのスキャナはスキャンした文書の数字をランダムに書き換えるらしい More ログイン