アカウント名:
パスワード:
我々が必要としているのは、そのまま処理可能な電子化されたデータであって電子化と称してただ単にスキャンしただけの画像ファイルではない
(画像ファイルをOCRかけてデータを抜き出することがどれだけ大変か・・・)(ましてやこの場合扱うモノがお金、間違いは許されない)
>(画像ファイルをOCRかけてデータを抜き出することがどれだけ大変か・・・)一般的なのかどうかまでは知らんけど、会社に置いてある複合機(キヤノンとゼロックス混在)どれでスキャンしてもデフォルトの出力ファイルはPDFで、OCR処理されて文字の位置にオーバーラップして透明なテキストが埋め込まれたやつが出てきてます。実際、そのPDFからテキストを吸い上げて検索に利用しています。書類のタイトル等をAIで拾えるならほとんど手間はかからないような。(うちはその辺は人力)
# OCRで完全な文章を拾おうとすると大変だろうけど重要なキーワードは文中に何度も出てくるので# どれか1回でも正確に拾えていればキーワード検索には使える、というような考えで使っています。
そのまま処理可能な電子化されたデータ
ドキュメントではない。
おお、これは失礼。その前提ならOCRには全く現実味がありませんね。もしそれを本気でやろうとしたなら確かに元コメの通り。
元記事の方は「紙の書類」とか「ホチキス留め」とかいう表現出てるから伝票のようなものは想定していないものかと。何某かの入力データとして数値なんかを利用するような想定だとAI使ってもおそらく厳しいでしょうね。
個人の口座開設時などに記入する印鑑票と呼ぶ書類を電子化する。過去の詳しい取引内容や本人確認の資料も含む。
文書があってそれを読むための電子化なら#3860080レベルで充分だけど、#3859942は申込書や取引依頼書などのOCRを業務に組み込む理想の電子化の話をしていると思われる。「紙の書類」や「ホチキス留め」とあっても、同じ種類の文書だけでなく関連文書をまとめることもあるので伝票が含まれていてもおかしくないかな。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
アレゲはアレゲを呼ぶ -- ある傍観者
電子化を履き違えてる (スコア:1)
我々が必要としているのは、そのまま処理可能な電子化されたデータであって
電子化と称してただ単にスキャンしただけの画像ファイルではない
(画像ファイルをOCRかけてデータを抜き出することがどれだけ大変か・・・)
(ましてやこの場合扱うモノがお金、間違いは許されない)
Re:電子化を履き違えてる (スコア:0)
>(画像ファイルをOCRかけてデータを抜き出することがどれだけ大変か・・・)
一般的なのかどうかまでは知らんけど、会社に置いてある複合機(キヤノンとゼロックス混在)どれでスキャンしてもデフォルトの出力ファイルはPDFで、OCR処理されて文字の位置にオーバーラップして透明なテキストが埋め込まれたやつが出てきてます。実際、そのPDFからテキストを吸い上げて検索に利用しています。
書類のタイトル等をAIで拾えるならほとんど手間はかからないような。(うちはその辺は人力)
# OCRで完全な文章を拾おうとすると大変だろうけど重要なキーワードは文中に何度も出てくるので
# どれか1回でも正確に拾えていればキーワード検索には使える、というような考えで使っています。
Re: (スコア:0)
そのまま処理可能な電子化されたデータ
ドキュメントではない。
Re: (スコア:0)
おお、これは失礼。
その前提ならOCRには全く現実味がありませんね。
もしそれを本気でやろうとしたなら確かに元コメの通り。
元記事の方は「紙の書類」とか「ホチキス留め」とかいう表現出てるから伝票のようなものは想定していないものかと。
何某かの入力データとして数値なんかを利用するような想定だとAI使ってもおそらく厳しいでしょうね。
Re: (スコア:0)
個人の口座開設時などに記入する印鑑票と呼ぶ書類を電子化する。過去の詳しい取引内容や本人確認の資料も含む。
文書があってそれを読むための電子化なら#3860080レベルで充分だけど、#3859942は申込書や取引依頼書などのOCRを業務に組み込む理想の電子化の話をしていると思われる。
「紙の書類」や「ホチキス留め」とあっても、同じ種類の文書だけでなく関連文書をまとめることもあるので伝票が含まれていてもおかしくないかな。