パスワードを忘れた? アカウント作成
16408 story

古文書を読んで画像認証 40

ストーリー by mhatta
アイデア賞モノだがほんとに大丈夫なのかな 部門より

oddmake 曰く

BBC Newsの記事より。人間には読めるがコンピュータに読めない画像の文字列CAPTCHAは、ブログなどへの広告宣伝業者よけとして、あちこちで使われているソリューションである。試算によると、この文字列を解読するのに人間が使用している時間は一日あたり15万時間にも及ぶという。
この人間の処理能力をもっと有効に活用できないかと、カーネギーメロン大学のLuis von AhnはreCAPTCHAという新しいソリューションを考案した。
古書からスキャンしたデータは、かすれや印刷不良などOCRによって読めない文字を多量に含んでおり、古書のデジタル化は人手に頼る部分がどうしてもできてしまう。そこで機械が読めなかった文字列画像をCAPTCHAに利用して、解読時間を有効活用しようという仕組みだ。
そもそも機械が正答を知らない文字列画像を表示するのに、どうやって機械ではなく人間が解読して入力してきたと判別するのかというのが気になる点であるが、解読済みの文字列とまだ読めていない文字列をあわせて送信し、解読済みの部分が正しく入力されてきたら残りの文字列も正しく応答されてきた、と判別する仕組みだという。
公式ページによるとMediaWiki用のプラグインやPHPのサンプルコードも用意しているようだ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • アルファベットならでは (スコア:2, おもしろおかしい)

    by Tatenon (20311) on 2007年10月03日 9時19分 (#1228253) 日記
    もしも漢字だったりすると、認識できても読みがわからず入力できないという事態が。

    『橄欖』
    「かんらん・・かな?・・・観覧、かんらん、カンラン。え?違うのか?へ、変換できん・・・」

    # 「∀」が「たーんえー」で変換できずにしばらく悩んださ。
    • 『橄欖』
      「かんらん・・かな?・・・観覧、かんらん、カンラン。え?違うのか?へ、変換できん・・・」

      あれ? 合っているんじゃないの? 観覧、かんらん、カンラン…た、確かに変換できない。
      もしかして、いわゆる「なぜかへんかんできない」パターンで、間違えて覚えてた!?(((;゜Д ゜)))

      # …「カンランガン」だと出ました。:-D
      親コメント
    • 漢字だと略字の方が普及している上に、草書だったりすると平仮名すら読めん、なんてこともあったり。

      他にも、正仮名遣いが読めないなんてことになったり、楷書平仮名でもゐとかゑが読めん(あるいは、入力できん)、等など…
      #こっちは高校で習ってる筈だけどねえ。
      親コメント
      • 「これは達筆すぎて読めないな.」

        ということで, あいかわらず連続殺人は防げないのでした.

        親コメント
      • 江戸時代に書かれた「武江年表(のコピー)」を見たことありますけど、マジ読めませんね。
        漢字なのか、平仮名なのかさえ判別できません。場所によっては1文字なのか2文字なのかさえ分かりません。

        むしろスキャンして機械的に認識してくれるツールが欲しい、と思いましたよ、ええ。
        • 言語が一文字ずつに分解できるというのは、印刷術が広まってきた時の現実的要求ではないでしょうか。活版印刷では、ある程度の個数の活字で言語が表現できないといけないという。

          日本で活版印刷が普及したのは明治以降、一般人が書く文字では、つい最近のことですね。話しことばではそもそも文字と文字の区切りは曖昧というかそれ自体近似的なものですから、印刷・パソコン以前の書きことばが話しことばを写したものであれば、文字の区切りも分かりにくいのも当然でしょう。

          親コメント
          • 言語が一文字ずつに分解できるというのは、印刷術が広まってきた時の現実的要求ではないでしょうか。
            (活版)印刷が文字を一文字づつ分解することを要求した、というのはその通りでしょうけど、文字が一文字づつ分解可能というのは、印刷の影響ではないでしょう。なぜなら、それ以前にも一文字づつ分解した字はあったし、一文字づつ分解して書かれたテキストもあったのですから。隷書体はその一例。
            親コメント
        • 漢字なのか、平仮名なのかさえ判別できません。

          頻出する「候」なんて、下手をするとただの点(「ヽ」みたいな字形)で書かれたりしますしね。

          読み下すには文脈を手がかりにするしかない部分があるので、どの部分を出題するかも難題のような気がします。分かち書きがされていない(というか普通は草書)ので機械的には切れませんし、「意味上はここからここまでがひとまとまり」と判断できるなら、そのときは既に読めているということですし。

          あと、変体仮名 [wikipedia.org]なんかはどうする、という問題もありますね。そもそも Unicode や JIS ではコードが振られていませんし。
          # TRONコードには収録されているようですが……

          親コメント
        • 江戸時代どころか昭和初期産まれの祖母の手紙の崩し字すら読むのに一苦労ですよ

          戦前の女学校では教養の一環として習わせられたそうで
      • 草書体の話を出すならば、アルファベットでも筆記体や特殊な装飾文字は
        古文書ならなおさら読めないという問題がありますよね。
  • by TarZ (28055) on 2007年10月03日 9時42分 (#1228270) 日記
    実際にどれくらいの有効か、といった評価は必要ですが、アイディアとしては素晴らしいですね。

    ネットで情報を探していると、古い文書(昔の特許情報とか論文とか)をスキャンしたPDFに行き着くことがよくあります。
    その文書にたどり着くまでには検索エンジンを使うわけですが、現状だと、人が入力したタイトルくらいしかキーワードとして拾えないことが多いです。

    今回のアイディアが有効なら、ようやく、内容にまで踏み込んだ検索が実現する可能性が見えてきたことになりますね。

    ## ぐう。投稿の2分間隔制限にひっかかったぜ。
  • by dagama (34698) on 2007年10月03日 10時22分 (#1228288)
    意味のある(であろう)文字列を使用してしまうと、
    推測が可能になってしまうので、機械的に処理されてしまうケースが出てくるかも。
  • by Anonymous Coward on 2007年10月03日 9時05分 (#1228248)
    という問いを(予め解っている正解も付けて)出題すれば、
    だんだんと正答率は上がっていく気がする。

    # 猫認証とかゲイツ認証 [captcha.jp]みたいに。
    • by Anonymous Coward on 2007年10月03日 9時25分 (#1228257)
      正答率を上げるようにする工夫は必ずしも必要ないんじゃないですかね。
      テスト期間中に正解率が何%かというデータを得たら、同じ文字列の解読が何度行われたら
      信頼性のある解読結果になるかを概算して、同じ解読がn回行われたら解読されたとする
      統計的なアプローチでいいと思います。
      例えばN回の試行でn回入力された回答Xとm回入力された回答Yがあり、n=mの仮説が
      危険率99%で棄却されたら有意に大きいXを正解とする、といった形で。
      親コメント
      • by Anonymous Coward on 2007年10月03日 9時57分 (#1228276)
        解読済みの部分は機械的に解読済み、ってことだと思うので、利用者側が機械的なツールを導入すると、同じアルゴリズムで間違える、という例が出てくるのではないでしょうか。そうなると、まさにnoisy minorityなわけで、もはや統計は信用できない、という事態になる可能性が…。

        ただ、人力で解読済みな部分をベースに、「人力で解読した」部分を広げていくことは出来るかもしれません。
        ・An-1の部分が人力で解読されているならば、Anも人力で解読されている。
        ・A0は人力で解読されている。

        ・よって、Anは人力で解読されている。

        まあ、機械的に解読できる範囲が途中で広がらない、という前提を全面的に信頼している点では綱渡りですが。
        親コメント
  • by Anonymous Coward on 2007年10月03日 9時46分 (#1228272)
    機械で読めるということは、人間でも読めるという決めつけはどうだろうと思うんだ。
    いや、もちろん逆パターンのが遙かに多いのは事実だけどね・・・
    • 「機械で読めた」ことを確認するために、最低でも一度は人間が機械の判読結果に目を通しているでしょうから、大丈夫でしょう。

      所詮機械では「文字として判読した」だけですから、果たしてそれが意味の通る文章として「正しく」判読されたかどうかは、
      結局は人間が再確認せざるを得ないわけですから。

      機械に読ませるのは、全くのゼロの状態から人間が判読するより、時間労力的に多少マシなだけだと思います。
  • by Anonymous Coward on 2007年10月04日 0時22分 (#1228768)
    俺のノートへの殴り書き
    自分でも解読できない部分が多いんだよ…
  • by Anonymous Coward on 2007年10月03日 9時35分 (#1228265)
    > 解読済みの文字列とまだ読めていない文字列をあわせて送信し、
    > 解読済みの部分が正しく入力されてきたら残りの文字列も正しく応答されてきた、と判別する仕組みだという。

    それは "解読の時間を有効利用している" のではなく、"ついでに余計な手間を取らせている" と言うのでは?
    人間がCAPTCHA解読に掛ける総時間の15万時間にその未解読の部分を読む時間分が増える訳ですから。

    # いや別にアイデアにケチを付けるのではなくて、もう少し良い方式はないかなと思ってしまった次第であります。
    • by Anonymous Coward
      なんで?
      CAPTCHAに使われてきたデータの一部を、古文書から抽出したデータに
      置き換えるだけなんだから、解読にかかる手間はいままでとかわらないでしょ。
      • by Anonymous Coward
        解読済みの部分が正しく入力されたことを確認できる時点で
        本来のCAPTCHAの目的は達成されるわけで。

        strlen(解読済みの部分+解読させる部分) > strlen(従来のCAPTCHAのデータ)

        なら、余計な作業を強いることに。

        strlen(解読済みの部分+解読させる部分) <= strlen(従来のCAPTCHAのデータ)

        なら、従来のCAPTCHAデータにムダがあったということかな。
      • by Anonymous Coward
        例えばタレコミのリンク先を見ると、2つの単語が表示されています。
        1つの単語入力でよかったのが2つの単語入力になっていて、一方は本来必要のない作業というわけで、余分な労力をかけているだけです。
        その他のオーバーヘッド(リンクをクリックして単語を表示する等)という作業は増えていないので、解読する、という作業を(captchaと同じインタフェースで)行うのに比べれば「ユーザー」の労力は減るので、有効利用と言えなくもないのかも...(単語を抜き出してcaptchaのインタフェースに取り入れる労力を考慮するとどうだろう、とは思うけど。自動化できるのかな。)
  • by Anonymous Coward on 2007年10月03日 10時08分 (#1228282)
    タレコミ文だけだとまったく混同しているようだが?
    • by soy_milk (26202) on 2007年10月04日 0時21分 (#1228767) 日記

      そうお考えなら、どう混同しているか指摘した方がよいのではないですか?>古書と古文書
      要するに、いわゆる「古書」は日本史学などでいう古文書(こもんじょ)には含まれない、ということですよね。

      ただ、BBCの記事では“old books and manuscripts”などと書かれていて、タイトルの「古文書」は「古史料」くらいが妥当かなとも思いますが、ちらっと拾い読みした感じではそんなに古い史料の OCR までは(まだ)考えていないように思えますので、「古書」でいいのではないでしょうか。

      いずれにせよこの場合は「古文書」はあまり正確な言いかたではないでしょうね。

      よく分からん、という方はWikipedia の説明 [wikipedia.org]あたりを読んでいただければよいかと。

      親コメント
  • by Anonymous Coward on 2007年10月03日 10時59分 (#1228317)
    古文書(とか、日本語とか、何とか語とか)を読めないような人はサービスの対象外です、
    ということでサービス対象者を限定する手段にも利用できそうですね。

    このような文字列判別ってたいていカラフルな文字を判別する必要がありますが、
    色覚異常の人を排除しているのではないかと心配です。
    • このような文字列判別ってたいていカラフルな文字を判別する必要がありますが、
      色覚異常の人を排除しているのではないかと心配です。

      それは一概には言えないのでは。

      例えばこんなの:色盲はカラー・カモフラージュ条件で有利 [kyoto-u.ac.jp]

      戦争で、敵兵士の迷彩を見破るのに色覚異常を持つ人が活用された、なんて伝説も聞きます。こちらが事実かどうかは不明ですが。
      親コメント
      • 前期旧石器「発見」で名を成した「神の手」の人について、考古学者のエラいひとが、「彼は色覚異常を持っており、そのため健常者には知覚できない微妙な土質の差を見分けて発見にいたるのでは?」などという無邪気な憶測を、真っ当な書籍に載せていたりします。今見ると脱力してしまいますが。
        • > などという無邪気な憶測を、真っ当な書籍に載せていたりします。今見ると脱力してしまいますが。
          まあ、典型的に、間違った前提条件から導き出される、誤った憶測ですな。
          前提と憶測の結びつけ方自体は悪くないと思いますが。
    • > このような文字列判別ってたいていカラフルな文字を判別する必要がありますが、
      > 色覚異常の人を排除しているのではないかと心配です。

      交通信号とか家電の電源ランプとか抵抗のカラーコードとかに散々排除されまくって
      おりますので、今更気になりません。
      --
      -- Tig3r on the hedge
      親コメント
typodupeerror

目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond

読み込み中...