古文書を読んで画像認証 40
アイデア賞モノだがほんとに大丈夫なのかな 部門より
BBC Newsの記事より。人間には読めるがコンピュータに読めない画像の文字列CAPTCHAは、ブログなどへの広告宣伝業者よけとして、あちこちで使われているソリューションである。試算によると、この文字列を解読するのに人間が使用している時間は一日あたり15万時間にも及ぶという。
この人間の処理能力をもっと有効に活用できないかと、カーネギーメロン大学のLuis von AhnはreCAPTCHAという新しいソリューションを考案した。
古書からスキャンしたデータは、かすれや印刷不良などOCRによって読めない文字を多量に含んでおり、古書のデジタル化は人手に頼る部分がどうしてもできてしまう。そこで機械が読めなかった文字列画像をCAPTCHAに利用して、解読時間を有効活用しようという仕組みだ。
そもそも機械が正答を知らない文字列画像を表示するのに、どうやって機械ではなく人間が解読して入力してきたと判別するのかというのが気になる点であるが、解読済みの文字列とまだ読めていない文字列をあわせて送信し、解読済みの部分が正しく入力されてきたら残りの文字列も正しく応答されてきた、と判別する仕組みだという。
公式ページによるとMediaWiki用のプラグインやPHPのサンプルコードも用意しているようだ。