Re:Googles様の人力 (#4257302) | 国会図書館での資料デジタル化は人海戦術？

「国会図書館での資料デジタル化は人海戦術？」記事へのコメント

記事ページを表示すべてのコメント取得

検索85コメント Log In/Create an Account

Googles様の人力 (スコア:5, 興味深い)

by asanagi (22217)

GoogleのreCAPTCHAで不鮮明な文字スキャン画像みたいな奴は
GoogleBooks用のOCRでうまく認識できなかった部分を人にやらせてるそうですね。
一昔前にエロサイトでよく見た気がするが、最近あまり見ないので役割を終えたのだろうか？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  本当かなぁ
  正解が用意されてないと機能しないと思うんだけど
  - Re:Googles様の人力 (スコア:0)
    
    by Anonymous Coward on 2022年05月27日 12時55分 (#4257302)
    
    だいたい２つの単語が並んでましたよね。
    認証しつつ，学習してたんじゃないでしょうかね。
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      出題者はどちらが正解か知っている２つの画像を選ばせることで、何を学習できるのかがわからない
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        全部わかってるとか全部わかってないとか言う状態ではないんや
        学習したいペアがあったとして、時々それを出す
        どっちを選んでも終わりにせず、次は答えの分かったペアを選ばせる
        「答えの分かったペア」で正解を答えた人は「学習したいペア」でも正解を選んでいると考えられるので、
        それのデータを蓄積する
        ある程度たまったら「学習したいペア」の正解がどちらかというのが統計的にわかる
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        以前はそんな風に思ってたけど「看板を選択しろ」で看板の角がちょろっとだけ含まれてるマスを選んでないとアウトになることがたびたびあったので
        「こんな細かいものを"看板あり"とする人間もいるだろうけど、"統計的に十分多数派"と言えるほどいるんかいな？」と今ではすごく懐疑的に見ている。
        6:4程度の比率で6の方を正解にしてるならアホかと。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        見落としを防ぐなら判定は強めに出す方がいいので、
        「多数派が看板としている範囲」じゃなくて
        「有意な数が看板として判定した範囲」を拾ってると思う。
        無作為のノイズでなければ良しとする感じだろう。
        看板の角もだけど「これ○○っぽく見えるけど違う奴だ」とかもちょいちょい選択必須。
        システム的には「見落とし易い対象」と「対象に誤認する人がいる対象」の区別が困難なのだろう。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        初期状態では正解不明な前提なら
        > 「多数派が看板としている範囲」じゃなくて
        > 「有意な数が看板として判定した範囲」を拾ってる
        というのは、そのマスに対する入力結果は選択/非選択の二種類しかない以上はわざわざ少数派の方を正解とすることにしかならないわけで
        「6:4なら4の方を正解とする」というアルゴリズムだという主張ですか？
        > システム的には「見落とし易い対象」と「対象に誤認する人がいる対象」の区別が困難なのだろう。
        そりゃコンピュータにも人間にも困難でしょう。
        それをある程度信頼できる精度で区別できると思ってるんですか？
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        （最近は見掛けませんが）2単語の並んだCAPTCHA解いたことないですか？
        2択ではないので「どちらが正解か」を選ぶワケじゃないですよ。
        片方の画像は統計的に正答の分かってる単語で人間かどうかを見る一方で、もう片方は正答の分からない単語で人間の入力から正答を学習するってことですよ。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        そもそも出題者が正解わかってないんだよ。キャプチャ滅茶苦茶に入力しても通る（ことがそこそこある）
        キャプチャはいつも滅茶苦茶入力を2、3回試行して通らなかったら諦めてタブ閉じてる。いまどき要求するサイトはろくなものじゃないから通らなかったら通らなかったでいい。
        あんなの真面目にやってられないよ
        ＃私はロボットかもしれない
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        人間の不正確で不合理な認知行動パターンを学習させてるんでしょ？

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

国会図書館での資料デジタル化は人海戦術？ More ログイン

「国会図書館での資料デジタル化は人海戦術？」記事へのコメント

Googles様の人力 (スコア:5, 興味深い)

Re: (スコア:0)

Re:Googles様の人力 (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

スラド