パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

中国業者に入力業務を再委託していた業者、OCRでのデータ電子化が問題に」記事へのコメント

  • CAPTCHA を自動突破したり適当に描いた動物の線画を、モフモフの毛並みのある画像にしてくれたり、果ては「俺の嫁」を合成したり、現代のAI技術には感心しきりですが、

    OCR ってまだ役に立つレベルじゃないのかしら?
    この業者が使っているソフトが古すぎなのか。

    • by Anonymous Coward on 2018年03月27日 18時46分 (#3383359)

      CAPTCHA を自動突破したり適当に描いた動物の線画を、モフモフの毛並みのある画像にしてくれたり、果ては「俺の嫁」を合成したり、現代のAI技術には感心しきりですが

      こういうのが10件に1件ぐらいエラー画像を吐き出しても「あはは、うまく行かないこともあるかー」で終わるが、事務処理だと誤認率10%とか役立たずの屑でしかないから。

      そして人間の認識力は、(よほど訓練を積んだ人でない限り)「10個に1個ぐらいランダムで混ざるOCRの誤認識」を適切に見つけ出せるほどセンシィティブじゃない。
      だから画像データから人間に手入力させたほうが、効率と精度のバランスは圧倒的にOCRに勝る。

      郵便番号と都道府県+市区町村みたいにある程度の対比が取れるものなら、専用にOCRをチューニングすれば多少はいけるかもしれないが、人名とかはまず無理。

      親コメント
    • 多分、年金データは元が手書き。

      人間の場合は、読めなかったら相談するんだけど、OCRは「読めたこと」にすることが多いからねぇ。

      親コメント
      • “正認識率”を上げるために「認識不能」の閾値を甘くしてると、ある程度“誤認識”は出てくるからなぁ
        “誤認識率”を下げるためにはその数倍の「認識不能率」を許容しなきゃだし

        というか、ユーザーサイドでそのへんの調節ができる手書きOCRってあるのかなぁ?

        親コメント
      • なるほど。でもAIの最高人材があれば
        今なら手書きだって、かなり解釈しそうな勢い・・・。

        汚い字でも人間だと読めますものねー。
        くせ字を学習したり、なんか類推するのだろう。

        親コメント
        • 手書き文字のdeep learningって人間はこの画像はこう読んだよってデータを積み重ねることだよね。

          この業者が「中国で」作ったリスト(ちゃんと人間が読んだやつ)はいいデータだな。
          ま、他で利用したらシャレになんないデータだけどね。

          親コメント
        • by Anonymous Coward

          綺麗な草書体でかかれてれば、手書きでも認識できるようになるかもしれないけど、
          単に汚い字や誤字脱字の類は難しいよ。
          (点や横棒が一個多いとか少ないとか、点を打つ位置がおかしいとか、それこそいくらでも)

          最後は行間を読む仕事になるから、んなもん学習でどうにかなるわけない。

          #いるんだよなあ。AIに夢見すぎな人って。

          • by Anonymous Coward

            いやあ、むしろこの手の認識こそ、機械学習が活きてくる分野だと思いますけどね。
            膨大なサンプルデータがあれば、「人間が考える認識方法」を軽く上回ってくることもありうるわけで。

            ただ、こと「日本人の名前」に関しては、文字種が多すぎることの方が問題じゃないかな。

            • by Anonymous Coward

              よくある間違いから生まれた異体字と、同じ間違いを犯した文字はどう区別するのか、て時点で完全な認識はどだい不可能なんですよ。
              崩れすぎた文字から癖を読み解き書こうとしていた文字を復元するとか、人間には難しい部分の補完が出来る可能性はあるけれど、やはり限界がある。

    • by Anonymous Coward on 2018年03月27日 18時43分 (#3383354)

      > OCR ってまだ役に立つレベルじゃないのかしら
      一番わかりやすいのは、古文書のくずし字の読み取りかな。これはすでにかなりのレベルに到達している [mynavi.jp]。

      これに限らず、ディープラーニングのOCRへの適用は流行していて、「OCR ディープラーニング」でググれば、商用・研究とりまぜて無数にヒットします。認識率は、(現代の)手書きの漢字・ひらがな・カタカナで90%超は軽々といくみたい。

      親コメント

「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常

処理中...