パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

中国業者に入力業務を再委託していた業者、OCRでのデータ電子化が問題に」記事へのコメント

  • CAPTCHA を自動突破したり適当に描いた動物の線画を、モフモフの毛並みのある画像にしてくれたり、果ては「俺の嫁」を合成したり、現代のAI技術には感心しきりですが、

    OCR ってまだ役に立つレベルじゃないのかしら?
    この業者が使っているソフトが古すぎなのか。

    • 多分、年金データは元が手書き。

      人間の場合は、読めなかったら相談するんだけど、OCRは「読めたこと」にすることが多いからねぇ。

      親コメント
      • “正認識率”を上げるために「認識不能」の閾値を甘くしてると、ある程度“誤認識”は出てくるからなぁ
        “誤認識率”を下げるためにはその数倍の「認識不能率」を許容しなきゃだし

        というか、ユーザーサイドでそのへんの調節ができる手書きOCRってあるのかなぁ?

        親コメント
      • なるほど。でもAIの最高人材があれば
        今なら手書きだって、かなり解釈しそうな勢い・・・。

        汚い字でも人間だと読めますものねー。
        くせ字を学習したり、なんか類推するのだろう。

        親コメント
        • 手書き文字のdeep learningって人間はこの画像はこう読んだよってデータを積み重ねることだよね。

          この業者が「中国で」作ったリスト(ちゃんと人間が読んだやつ)はいいデータだな。
          ま、他で利用したらシャレになんないデータだけどね。

          親コメント
        • by Anonymous Coward

          綺麗な草書体でかかれてれば、手書きでも認識できるようになるかもしれないけど、
          単に汚い字や誤字脱字の類は難しいよ。
          (点や横棒が一個多いとか少ないとか、点を打つ位置がおかしいとか、それこそいくらでも)

          最後は行間を読む仕事になるから、んなもん学習でどうにかなるわけない。

          #いるんだよなあ。AIに夢見すぎな人って。

          • by Anonymous Coward

            いやあ、むしろこの手の認識こそ、機械学習が活きてくる分野だと思いますけどね。
            膨大なサンプルデータがあれば、「人間が考える認識方法」を軽く上回ってくることもありうるわけで。

            ただ、こと「日本人の名前」に関しては、文字種が多すぎることの方が問題じゃないかな。

            • by Anonymous Coward

              よくある間違いから生まれた異体字と、同じ間違いを犯した文字はどう区別するのか、て時点で完全な認識はどだい不可能なんですよ。
              崩れすぎた文字から癖を読み解き書こうとしていた文字を復元するとか、人間には難しい部分の補完が出来る可能性はあるけれど、やはり限界がある。

未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー

処理中...