アカウント名:
パスワード:
なわけ無いと思うんですが...
いや、あり得るよ。ここの業者がどうかはわからないけど、一般論の話として、外国でのデータ入力はこんな仕組みになってる。
●スキャンした文書を、ぶつ切り、バラバラにする ぶつ切り後OCRがかけられ、オペレータには候補として提示●バラバラにした画像がランダムにオペレータには表示される。 オペレータは文字の意味を理解すると言うより、同じ形の記号を選択する、といったイメージで入力する●できあがったバラバラのデータを機械的に再構築して入力データを生成する 同じデータを複数人が入力する仕組みになっており、すりあわせて入力ミスのチェックが行われる●まとまったデータを機械的にチェックして行って情報訂正など 既存DBと突き合わせチェック、入力規則に反していないかとかはここでチェック
人件費が安いので複数人に入力させ機械的にできるのと、敢えて意味が分からないようにする事で思い込みでのミスを防止できるのだとか。また、この方式だと日本語への理解はそんなに必要ないらしく、安い人材を使い回せるのだそう。たぶん今だとディープラーニング系の技術でもうちょっと良くなっている可能性がある。例えば入力結果をさらに教師データとしてぶち込んで、最後の機械的チェックをより自然にするとか、初期OCRの精度を上げるとか。
受注したがこなす能力のない業者が困って再委託した先は、この手の技術力がある会社だった、という可能性はある。だとすると、結論としては
・国内で入力しろという制限を外す・外国に出す場合は通常の配慮に加え、万が一でも個人情報にならない様に処理をさせる・以上を定期的に監査する
って事じゃないかと。で、このての入力作業は既に銀行屋・保険屋などが使ってるんで、技術的にはまず問題ない。問題はそれらが適正に執行できているか監査をする能力があるかどうかの方だけど、それがありゃこんな問題にはなってないよな・・・。
>●スキャンした文書を、ぶつ切り、バラバラにする> ぶつ切り後OCRがかけられ、オペレータには候補として提示>●バラバラにした画像がランダムにオペレータには表示される。> オペレータは文字の意味を理解すると言うより、同じ形の記号を選択する、といったイメージで入力する
そこまでやるなら自動化しないの。
97%問題無くても、3%でもエラーがあると駄目って用途なんだと思うおそらくあと3年もたたないうちに自動化されてなくなる商売
>97%問題無くても、3%でもエラーがあると駄目って用途なんだと思う>おそらくあと3年もたたないうちに自動化されてなくなる商売
その3年までは、アウトプットの検証を人海戦術でやってもよさげ
OCR使ったことが無いのならないとはっきり言いなさい。
使ったことがあって言ってるのならあなたが馬鹿か、かなり画期的で優秀な(要は絶対に間違わない)OCRをお使いか、自(分が)動(いて文字を確認する作業)化という意味ですか?のどれかですね。
OCR使ったことが無いでした。#適当こいた
OCR対応できないから中華下請けにまでまわしてるんだろうし。
Goto #3380220
「中国の業者が行った作業には入力ミスなどは無かった」
っていう一応は事実と考えられる報道への考察なのに、
ただの推測に飛ばしてどないするねん
そもそも社長が指摘されるまで契約違反を認識していなかったような会社がそこまでの技術力を持っているとはとても思えません。
これらの技術を持っているのは、再委託される側、つまり外国の入力オペレータを使う業者の方よだから再委託禁止・国内縛りを外すだけで入力できる業者は見つかったのではないかと
これらを考えると、費用が安すぎたと言うよりも、大手は年金機構案件だから失敗時のリスクが大きいと言う点もあわせて、これらの条件を嫌ってとりにいかなかったのではという気がする。もちろん札束で無条件にぶん殴ることができる様な金があればマシになったかも知れないけど。
一般論の話として、外国でのデータ入力はこんな仕組みになってる。
つまりスキャン作業から外国に委託すればいいんだね!(オイマテ
そんな中途半端な事しなくても日本年金機構自体を外国に(ry
あるいは日本共産党が与党に(ry
> オペレータは文字の意味を理解すると言うより、同じ形の記号を選択する、といったイメージで入力する 漢字を??IMEの手書き入力でも使ってるんでしょうか?
業者が言うには、そうらしい。OCRである程度候補を絞っていて、表示されたなかから選択するのが基本だから、意味が分からない人でも作業ができて安くて安全です、とのこと。
そっから先はどうしてるかはわからん。
それ系のシステムやってたんで補足~
1. スキャンして画像化する
2. あらかじめ帳票ごとに決められた入力対象場所(帳票上の座標と範囲)について ICRと呼ばれる文字認識をかける(単語辞書なども備えていて、文字じゃなく 単語単位である程度の制度で認識をかけて文字データにしてくれる)
3. 入力対象のある部分の帳票画像を切り出す(別の人が書いてた通り、画像としてカット) その時、必要に応じて個人情報などはマスクしたりする。 (たとえばほぼ確実認識できる数字の口座情報などはマスクして隠したり) この部分の見せ方次第では、この後の作業担当者が見ても個人を特定しづらいようにしたりも 可能(たとえば住所の一部しか見せない、とか)。
4. エントリー/精査専門の担当者に次々と画像とICR処理時の候補と、打ち込みで書き換え可能な 入力欄を表示。担当は次々と表示される画像に対して、正解を選択/入力していく。 このあたりはワークフロー形式で、自分の工程に対して次々とデータが流れてくるのをひたすら処理する。
5. 切り出した画像の元帳票に対応するデータに、エントリー/精査担当者の処理結果を反映する。
こんな感じですかね。大量に処理するとわかるのだけど、結構無茶苦茶な字を書いてくる人とかいるので、帳票の記入欄のデザイン(はみ出しにくくしたり、ゆったり感を出したり、数字だと薄く下地に数字用の線を描いて誘導したり)が認識精度に影響したりします。
あくまで一例ね。
OCRの幻想がここにもいるのか...。
ほんとかよ(ウソつけ)
データ入力 オフショア [google.co.jp]でググってみ。そう言うワークフローが出てくるから。
#で、大連のオフショア業者も出てくるという…ここかなあ。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
人生unstable -- あるハッカー
中国の業者が行った作業には入力ミスなどは無かった (スコア:0)
なわけ無いと思うんですが...
Re:中国の業者が行った作業には入力ミスなどは無かった (スコア:5, 参考になる)
いや、あり得るよ。
ここの業者がどうかはわからないけど、一般論の話として、外国でのデータ入力はこんな仕組みになってる。
●スキャンした文書を、ぶつ切り、バラバラにする
ぶつ切り後OCRがかけられ、オペレータには候補として提示
●バラバラにした画像がランダムにオペレータには表示される。
オペレータは文字の意味を理解すると言うより、同じ形の記号を選択する、といったイメージで入力する
●できあがったバラバラのデータを機械的に再構築して入力データを生成する
同じデータを複数人が入力する仕組みになっており、すりあわせて入力ミスのチェックが行われる
●まとまったデータを機械的にチェックして行って情報訂正など
既存DBと突き合わせチェック、入力規則に反していないかとかはここでチェック
人件費が安いので複数人に入力させ機械的にできるのと、敢えて意味が分からないようにする事で思い込みでのミスを防止できるのだとか。
また、この方式だと日本語への理解はそんなに必要ないらしく、安い人材を使い回せるのだそう。
たぶん今だとディープラーニング系の技術でもうちょっと良くなっている可能性がある。
例えば入力結果をさらに教師データとしてぶち込んで、最後の機械的チェックをより自然にするとか、初期OCRの精度を上げるとか。
受注したがこなす能力のない業者が困って再委託した先は、この手の技術力がある会社だった、という可能性はある。
だとすると、結論としては
・国内で入力しろという制限を外す
・外国に出す場合は通常の配慮に加え、万が一でも個人情報にならない様に処理をさせる
・以上を定期的に監査する
って事じゃないかと。
で、このての入力作業は既に銀行屋・保険屋などが使ってるんで、技術的にはまず問題ない。
問題はそれらが適正に執行できているか監査をする能力があるかどうかの方だけど、それがありゃこんな問題にはなってないよな・・・。
Re:中国の業者が行った作業には入力ミスなどは無かった (スコア:1)
>●スキャンした文書を、ぶつ切り、バラバラにする
> ぶつ切り後OCRがかけられ、オペレータには候補として提示
>●バラバラにした画像がランダムにオペレータには表示される。
> オペレータは文字の意味を理解すると言うより、同じ形の記号を選択する、といったイメージで入力する
そこまでやるなら自動化しないの。
Re: (スコア:0)
97%問題無くても、3%でもエラーがあると駄目って用途なんだと思う
おそらくあと3年もたたないうちに自動化されてなくなる商売
Re:中国の業者が行った作業には入力ミスなどは無かった (スコア:1)
>97%問題無くても、3%でもエラーがあると駄目って用途なんだと思う
>おそらくあと3年もたたないうちに自動化されてなくなる商売
その3年までは、アウトプットの検証を人海戦術でやってもよさげ
Re: (スコア:0)
OCR使ったことが無いのならないとはっきり言いなさい。
使ったことがあって言ってるのならあなたが馬鹿か、かなり画期的で優秀な(要は絶対に間違わない)OCRをお使いか、
自(分が)動(いて文字を確認する作業)化という意味ですか?
のどれかですね。
Re:中国の業者が行った作業には入力ミスなどは無かった (スコア:1)
OCR使ったことが無いでした。
#適当こいた
OCR対応できないから中華下請けにまでまわしてるんだろうし。
Re: (スコア:0)
Goto #3380220
Re: (スコア:0)
「中国の業者が行った作業には入力ミスなどは無かった」
っていう一応は事実と考えられる報道への考察なのに、
ただの推測に飛ばしてどないするねん
Re: (スコア:0)
そもそも社長が指摘されるまで契約違反を認識していなかったような会社が
そこまでの技術力を持っているとはとても思えません。
Re: (スコア:0)
これらの技術を持っているのは、再委託される側、つまり外国の入力オペレータを使う業者の方よ
だから再委託禁止・国内縛りを外すだけで入力できる業者は見つかったのではないかと
これらを考えると、費用が安すぎたと言うよりも、大手は年金機構案件だから失敗時のリスクが大きいと言う点もあわせて、これらの条件を嫌ってとりにいかなかったのではという気がする。
もちろん札束で無条件にぶん殴ることができる様な金があればマシになったかも知れないけど。
Re: (スコア:0)
一般論の話として、外国でのデータ入力はこんな仕組みになってる。
●スキャンした文書を、ぶつ切り、バラバラにする
ぶつ切り後OCRがかけられ、オペレータには候補として提示
●バラバラにした画像がランダムにオペレータには表示される。
オペレータは文字の意味を理解すると言うより、同じ形の記号を選択する、といったイメージで入力する
●できあがったバラバラのデータを機械的に再構築して入力データを生成する
同じデータを複数人が入力する仕組みになっており、すりあわせて入力ミスのチェックが行われる
●まとまったデータを機械的にチェックして行って情報訂正など
既存DBと突き合わせチェック、入力規則に反していないかとかはここでチェック
つまりスキャン作業から外国に委託すればいいんだね!(オイマテ
Re: (スコア:0)
そんな中途半端な事しなくても日本年金機構自体を外国に(ry
Re: (スコア:0)
あるいは日本共産党が与党に(ry
Re: (スコア:0)
> オペレータは文字の意味を理解すると言うより、同じ形の記号を選択する、といったイメージで入力する
漢字を??
IMEの手書き入力でも使ってるんでしょうか?
Re: (スコア:0)
業者が言うには、そうらしい。
OCRである程度候補を絞っていて、表示されたなかから選択するのが基本だから、意味が分からない人でも作業ができて安くて安全です、とのこと。
そっから先はどうしてるかはわからん。
Re:中国の業者が行った作業には入力ミスなどは無かった (スコア:3, 興味深い)
それ系のシステムやってたんで補足~
1. スキャンして画像化する
2. あらかじめ帳票ごとに決められた入力対象場所(帳票上の座標と範囲)について
ICRと呼ばれる文字認識をかける(単語辞書なども備えていて、文字じゃなく
単語単位である程度の制度で認識をかけて文字データにしてくれる)
3. 入力対象のある部分の帳票画像を切り出す(別の人が書いてた通り、画像としてカット)
その時、必要に応じて個人情報などはマスクしたりする。
(たとえばほぼ確実認識できる数字の口座情報などはマスクして隠したり)
この部分の見せ方次第では、この後の作業担当者が見ても個人を特定しづらいようにしたりも
可能(たとえば住所の一部しか見せない、とか)。
4. エントリー/精査専門の担当者に次々と画像とICR処理時の候補と、打ち込みで書き換え可能な
入力欄を表示。担当は次々と表示される画像に対して、正解を選択/入力していく。
このあたりはワークフロー形式で、自分の工程に対して次々とデータが流れてくるのをひたすら処理する。
5. 切り出した画像の元帳票に対応するデータに、エントリー/精査担当者の処理結果を反映する。
こんな感じですかね。大量に処理するとわかるのだけど、結構無茶苦茶な字を書いてくる人とかいるので、
帳票の記入欄のデザイン(はみ出しにくくしたり、ゆったり感を出したり、数字だと薄く下地に数字用の
線を描いて誘導したり)が認識精度に影響したりします。
あくまで一例ね。
Re: (スコア:0)
OCRの幻想がここにもいるのか...。
Re: (スコア:0)
ほんとかよ(ウソつけ)
Re: (スコア:0)
データ入力 オフショア [google.co.jp]でググってみ。
そう言うワークフローが出てくるから。
#で、大連のオフショア業者も出てくるという…ここかなあ。