Googles様の人力 (#4257091) | 国会図書館での資料デジタル化は人海戦術？

「国会図書館での資料デジタル化は人海戦術？」記事へのコメント

記事ページを表示すべてのコメント取得

検索85コメント Log In/Create an Account

Googles様の人力 (スコア:5, 興味深い)

by asanagi (22217) on 2022年05月27日 6時36分 (#4257091) 日記

GoogleのreCAPTCHAで不鮮明な文字スキャン画像みたいな奴は
GoogleBooks用のOCRでうまく認識できなかった部分を人にやらせてるそうですね。
一昔前にエロサイトでよく見た気がするが、最近あまり見ないので役割を終えたのだろうか？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  今もあるでしょ。今は文字じゃなくて自動車とか信号機とかになってますが。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  横断歩道とか信号機とかの画像を選ばせるアレも明らかに自動運転技術に使ってる
  - Re:Googles様の人力 (スコア:1)
    
    by nemui4 (20313) on 2022年05月27日 8時24分 (#4257125) 日記
    
    >横断歩道とか信号機とかの画像を選ばせるアレも明らかに自動運転技術に使ってる
    運転中にアレが出てきたら焦りそう
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      そっち？Level4までの自動運転中によそ見してるだろお前キャプチャ突破するまで動かないからなみたいな実装を自動運転カーにするのかと思った。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      リアルタイム性に難が出るだろうからリアルタイムではないだろうが、
      車が迷った事例の画像を使って人間の認証ついでにティーチングさせてるって話だよな？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    そのうち、こちらに突っ込んでくる自動車を予測しろと聞いてくるようになるわけですね。
    自転車とか二輪はわかりやすいけど、四輪はなぁ……
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      自動車は所詮車道だけだからまだ分かるけど、自転車はいつどこから出てくるか判らんのでムリ。
      歩道で信号待ちで後ろから突っ込んでくるとかそもそも見えんし。
      #まだ捕まらないらしい
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    いったい何が彼をあれほど消火栓に執着させるのか
- Re: (スコア:0)
  
  by Anonymous Coward
  
  本当かなぁ
  正解が用意されてないと機能しないと思うんだけど
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    だいたい２つの単語が並んでましたよね。
    認証しつつ，学習してたんじゃないでしょうかね。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      出題者はどちらが正解か知っている２つの画像を選ばせることで、何を学習できるのかがわからない
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        全部わかってるとか全部わかってないとか言う状態ではないんや
        学習したいペアがあったとして、時々それを出す
        どっちを選んでも終わりにせず、次は答えの分かったペアを選ばせる
        「答えの分かったペア」で正解を答えた人は「学習したいペア」でも正解を選んでいると考えられるので、
        それのデータを蓄積する
        ある程度たまったら「学習したいペア」の正解がどちらかというのが統計的にわかる
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        以前はそんな風に思ってたけど「看板を選択しろ」で看板の角がちょろっとだけ含まれてるマスを選んでないとアウトになることがたびたびあったので
        「こんな細かいものを"看板あり"とする人間もいるだろうけど、"統計的に十分多数派"と言えるほどいるんかいな？」と今ではすごく懐疑的に見ている。
        6:4程度の比率で6の方を正解にしてるならアホかと。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        見落としを防ぐなら判定は強めに出す方がいいので、
        「多数派が看板としている範囲」じゃなくて
        「有意な数が看板として判定した範囲」を拾ってると思う。
        無作為のノイズでなければ良しとする感じだろう。
        看板の角もだけど「これ○○っぽく見えるけど違う奴だ」とかもちょいちょい選択必須。
        システム的には「見落とし易い対象」と「対象に誤認する人がいる対象」の区別が困難なのだろう。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        初期状態では正解不明な前提なら
        > 「多数派が看板としている範囲」じゃなくて
        > 「有意な数が看板として判定した範囲」を拾ってる
        というのは、そのマスに対する入力結果は選択/非選択の二種類しかない以上はわざわざ少数派の方を正解とすることにしかならないわけで
        「6:4なら4の方を正解とする」というアルゴリズムだという主張ですか？
        > システム的には「見落とし易い対象」と「対象に誤認する人がいる対象」の区別が困難なのだろう。
        そりゃコンピュータにも人間にも困難でしょう。
        それをある程度信頼できる精度で区別できると思ってるんですか？
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        （最近は見掛けませんが）2単語の並んだCAPTCHA解いたことないですか？
        2択ではないので「どちらが正解か」を選ぶワケじゃないですよ。
        片方の画像は統計的に正答の分かってる単語で人間かどうかを見る一方で、もう片方は正答の分からない単語で人間の入力から正答を学習するってことですよ。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        そもそも出題者が正解わかってないんだよ。キャプチャ滅茶苦茶に入力しても通る（ことがそこそこある）
        キャプチャはいつも滅茶苦茶入力を2、3回試行して通らなかったら諦めてタブ閉じてる。いまどき要求するサイトはろくなものじゃないから通らなかったら通らなかったでいい。
        あんなの真面目にやってられないよ
        ＃私はロボットかもしれない
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        人間の不正確で不合理な認知行動パターンを学習させてるんでしょ？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    recaptureにおける正解は「横断歩道の画像を正しく判定できるか」ではなく、「クライアントが人間かbotか」なので、
    人間らしい振る舞いであると認められればかならずしも正しく画像を判定できている必要はないはず。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    正解が用意されていると錯覚していたんですね。。。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      正解が不明だと本来の目的である「人間かbotか判別」ができないんだけど
      #4257329のような形でも少なくともひとつは正解がわかっているものが必要
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        (#4257348) も言ってるように理論上は正解が一切不明でも判別可能。
        reCAPTCHAはマウスの動きやUserAgentも見ていると言われている。
        他の例だと設問に対する回答までの秒数を見ていたりする。
        回答が早すぎたり遅すぎるとbotと見なされて回答やり直し。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

国会図書館での資料デジタル化は人海戦術？ More ログイン

「国会図書館での資料デジタル化は人海戦術？」記事へのコメント

Googles様の人力 (スコア:5, 興味深い)

Re: (スコア:0)

Re: (スコア:0)

Re:Googles様の人力 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

スラド