パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

国会図書館での資料デジタル化は人海戦術?」記事へのコメント

  • GoogleのreCAPTCHAで不鮮明な文字スキャン画像みたいな奴は
    GoogleBooks用のOCRでうまく認識できなかった部分を人にやらせてるそうですね。
    一昔前にエロサイトでよく見た気がするが、最近あまり見ないので役割を終えたのだろうか?

    • by Anonymous Coward

      本当かなぁ
      正解が用意されてないと機能しないと思うんだけど

      • by Anonymous Coward

        だいたい2つの単語が並んでましたよね。
        認証しつつ,学習してたんじゃないでしょうかね。

        • by Anonymous Coward

          出題者はどちらが正解か知っている2つの画像を選ばせることで、何を学習できるのかがわからない

          • by Anonymous Coward

            全部わかってるとか全部わかってないとか言う状態ではないんや

            学習したいペアがあったとして、時々それを出す
            どっちを選んでも終わりにせず、次は答えの分かったペアを選ばせる
            「答えの分かったペア」で正解を答えた人は「学習したいペア」でも正解を選んでいると考えられるので、
            それのデータを蓄積する

            ある程度たまったら「学習したいペア」の正解がどちらかというのが統計的にわかる

            • by Anonymous Coward

              以前はそんな風に思ってたけど「看板を選択しろ」で看板の角がちょろっとだけ含まれてるマスを選んでないとアウトになることがたびたびあったので
              「こんな細かいものを"看板あり"とする人間もいるだろうけど、"統計的に十分多数派"と言えるほどいるんかいな?」と今ではすごく懐疑的に見ている。
              6:4程度の比率で6の方を正解にしてるならアホかと。

              • by Anonymous Coward on 2022年05月28日 16時46分 (#4257978)

                見落としを防ぐなら判定は強めに出す方がいいので、
                「多数派が看板としている範囲」じゃなくて
                「有意な数が看板として判定した範囲」を拾ってると思う。
                無作為のノイズでなければ良しとする感じだろう。

                看板の角もだけど「これ○○っぽく見えるけど違う奴だ」とかもちょいちょい選択必須。
                システム的には「見落とし易い対象」と「対象に誤認する人がいる対象」の区別が困難なのだろう。

                親コメント
              • by Anonymous Coward

                初期状態では正解不明な前提なら

                > 「多数派が看板としている範囲」じゃなくて
                > 「有意な数が看板として判定した範囲」を拾ってる

                というのは、そのマスに対する入力結果は選択/非選択の二種類しかない以上はわざわざ少数派の方を正解とすることにしかならないわけで
                「6:4なら4の方を正解とする」というアルゴリズムだという主張ですか?

                > システム的には「見落とし易い対象」と「対象に誤認する人がいる対象」の区別が困難なのだろう。

                そりゃコンピュータにも人間にも困難でしょう。
                それをある程度信頼できる精度で区別できると思ってるんですか?

アレゲは一日にしてならず -- アレゲ研究家

処理中...