パスワードを忘れた? アカウント作成
6750 story

AIとヒトの壁 136

ストーリー by yoosee
電気羊の夢は遠くに 部門より

saldot曰く、"ZDNet UK の記事によると、人工知能の「人間性」を競うローブナー賞コンテストの結果、独ハンブルクのJuergen Pirnerが製作した「Jabberwock」が優勝した(日本語記事はCNET Japan)。 コンテストは、2人の人間と10台のマシンが「サーバ室」に隠れ、9人の審判がそれぞれと5分間会話し、会話の相手が人間かマシンかを判断する形で行なわれた。
判断基準は、

  • 0点:反応がないか、サーバの故障
  • 1点:間違いなくマシン
  • 2点:おそらくマシン
  • 3点:マシンでも人間でもありえる。判断不能
  • 4点:おそらく人間
  • 5点:間違いなく人間
というものであるが、優勝したAIでも、評価は「1.928」だった。 「マシンかどうか疑いを持たせられるようになった」ことは大きな進歩だが、話し相手としてはまだまだだな、という感想は皆がもつことと思う。

しかし、興味深いのはサーバ室に隠れた2人の人間が、それぞれ「3.867」と「3.667」という評価しか得られなかったとのこと(結果の一覧はこちら)。 テストの手順が悪いのか、何かが人間性を失わせているのか?はたまた、人間ですら4点も取れないテストなら、AIも結構イケてる、と考えるかは意見の分かれるところだ。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 評価者の問題? (スコア:5, 参考になる)

    by elmirage (6555) on 2003年10月24日 16時10分 (#420641) ホームページ
    > しかし、興味深いのはサーバ室に隠れた2人の人間が、
    > それぞれ「3.867」と「3.667」という評価しか得られなかったとのこと
    > (結果の一覧はこちら)。テストの手順が悪いのか、何かが人間性を失わせているのか?
    > はたまた、人間ですら4点も取れないテストなら、
    > AIも結構イケてる、と考えるかは意見の分かれるところだ。"

    結果 [surrey.ac.uk]を見ると、審判 J9 がほとんど全員に最低スコア (1.00) をつけていて、
    これが評価を押し下げているように見えます (異常に疑り深い人?) 。
    これを差し引くと人間2人のスコアは 4.225 と 4.0 なのでそれほどひどくないように見えますがどうでしょう?
    --
    だが、いいこともあるぞ、外の天気は上々なんだ
    • Re:評価者の問題? (スコア:4, おもしろおかしい)

      by Anonymous Coward on 2003年10月24日 19時16分 (#420776)
      >結果を見ると、審判 J9 がほとんど全員に最低スコア (1.00) をつけていて、
      >これが評価を押し下げているように見えます (異常に疑り深い人?) 。

      答え:J9は情け無用 [home.ne.jp]だったのです。
      親コメント
    • by ramsy (8353) on 2003年10月24日 16時21分 (#420658) ホームページ 日記
      同感です。J9の中の人が恣意的に結果をゆがめているようにもとれます。
      ジャッジが9人じゃサンプル数があまりに少なすぎて、個々の資質に左右されすぎると思うんですが。
      統計学的には最小値と最大値って除外するんじゃ…?詳しい人のフォローを期待します。
      --
      # rm -rf ./.
      親コメント
      • by CBGB (9874) on 2003年10月24日 22時51分 (#420883)
        ある値を集団からの"外れ値"として除外して良いかどうかの検定法に、スミルノフ・グラブス検定 [gunma-u.ac.jp]
        というものがあります。
        ちなみに有意水準1%レベルでの検定の結果、Markbotに対するJ9の評価は外れ値ではありませんでした。
        親コメント
      • by saitoh (10803) on 2003年10月24日 20時11分 (#420806)
        それは、何かの競技の採点方式では。
        統計の教科書には、恣意的にデータを捨てると正しい結果が 得られない、というようなことが書いてあります。 また、明らかに間違っている入力は捨てるべし、とも 書いてあります。 J9が採点基準を誤解していたとか、恣意的な採点をしていたとか いうのなら、除外して平均を取っても良いでしょう。
        親コメント
    • by Anonymous Cowboy (6205) on 2003年10月24日 16時28分 (#420667)
      「じゃあこれから、サーバ側の人間性を判定してください」といわれてテストが開始。
      絶対の確信をもって「5」と評価した相手が実はAIでしたとかいわれると、どんな気分だろうか?
      「1」とつけたのが人間なら「あいつは演技派だ」で済むかもしれない。
      でも機械相手だと評価した自分が人間以下みたいな気分で面白くない。

      そんな心理状態だと、ついついAI寄りに判定しちゃうんじゃないかしらん
      親コメント
      • by Anonymous Coward on 2003年10月24日 19時19分 (#420781)
        なるほど。けどどうなんだろう。
        オレはコミュニケーションの手段がチャットだったというのが気になる。

        忘れもしない、生まれて初めてMSNチャットに参加した時のオレの感想。
        「こいつらみんな、人間じゃねーだろ!」

        AIとしての優秀さが「不特定の情報に対する適切な反応」に絞られるのなら、こういうコンテストってアリだと思うが、
        「人間らしさ」って、そういうもんでもないだろ。

        オレが同じコンテストを主催できるなら、
        審査員は、コンピュータのコの字も知らないような人だけを集めると思う。
        「人間らしさ」に主眼を置くなら。ね。

        いずれ、やった側も、シビアな実験というよりは、
        お遊び的なノリでやったんだと信じたいなあ。
        親コメント
    • by jmk (11245) on 2003年10月24日 16時22分 (#420661)
      私としては、一方の人間は 5.0 なのにもう一方には 1.0 をつけた J7 の方が気になります。
      親コメント
  • 実は (スコア:4, すばらしい洞察)

    by masayang (13412) on 2003年10月24日 16時03分 (#420635) ホームページ 日記
    R・田中一郎だったとか...
    --
    ---- 末は社長か懲戒免職 なかむらまさよし
  • 審判失格 (スコア:4, 参考になる)

    by Anonymous Coward on 2003年10月24日 16時17分 (#420650)
    12人中humanは2人でbotsは10人であることを
    あらかじめ伝えられていたために審判は予断を持ったと思われる。
    なにしろ高確率でbotに遭遇してしまうのだから、
    よほどのことが無い限り「ああこれもbotだな」と思い込んでおけば
    大抵それで正しい。

    この手のテストの場合、
    あらかじめ「12人中humanは10人ですよ」と嘘を伝えておくと
    出場選手が同じであっても結果の点数は変わってくるのではないだろうか。

    また3.867というのは計測機のズレとして扱うという考え方もある。
    真の値 = 実験で得られた測定結果 * 5 / 3.867
    という考えをすれば、 1.928というのは実は2.493を意味する。
    • Re:審判失格 (スコア:5, 参考になる)

      by Anonymous Coward on 2003年10月24日 17時03分 (#420691)
      J1とJ4が2つだけ高得点で残りが全部(ほぼ)1点を付けている所からも、「人間は2人」という情報に引きずられているような感じですね。

      J1とJ4、それからほとんど全てに1を付けているJ9を除けばこんな感じになります。
      何となく妥当な感じ?

      Confederate 2   4.30
      Confederate 1   4.33
      Jabberwock     1.89
      Elbot        2.02
      Eugene Goostmann  1.95
      Jabberwacky    1.97
      Lucy        1.57
      Markbot      1.30
      ALICE       1.43
      Gabber       1.28

      親コメント
    • Re:審判失格 (スコア:2, すばらしい洞察)

      by virtual (15806) on 2003年10月24日 22時57分 (#420888)
      これ「実は全員人間」でやってみると面白いかもしれませんね。
      親コメント
  • 話してみました (スコア:3, すばらしい洞察)

    by pwfmfx (8370) on 2003年10月24日 23時27分 (#420909)

    Jabberwock [abenteuermedien.de] と話してみました。全く気まぐれで、的を得ません。

    対話形式の UI にも問題があるように感じました。会話は、対話だけで成立するのではないからです。

    Jabberwock is an ugly beast. It has it's own will - and a hero is just what it is waiting for!

    ……だそうですので、そんなもんなんでしょう。

    それでも反応を楽しめる程度には賢いし、語彙も豊富(日本語も話します (^^;; )なので、短い対話で、運がよければ、人間と判定されることも有り得るでしょう。

    • Re:話してみました (スコア:2, すばらしい洞察)

      by cassandro (6035) on 2003年10月26日 5時04分 (#421451)
       確かに気まぐれ、話がどんどん逸らされますね。なにか、若いおねーちゃんと話している気分に。

       このボットが人間的なのか、若いおねーちゃんが非人間的なのか、どっちなんだろう。
      親コメント
      • Re:話してみました (スコア:2, すばらしい洞察)

        by pwfmfx (8370) on 2003年10月26日 15時28分 (#421562)

        bot も若いおねーちゃんも、文脈と単語に反応するだけで何も考えていないとか。

        非人間的というより、話の内容を理解していない/関心がない感じです。

        親コメント
  • 昔聞いたような… (スコア:2, おもしろおかしい)

    by Anonymous Coward on 2003年10月24日 16時30分 (#420669)
    たれこみ文を読んでいて、
     あれもAI
     これもAI
     たぶんAI
     きっとAI
    って歌を思い出してしまった。
  • 人工無脳的方向性 (スコア:2, すばらしい洞察)

    by kusigahama (7719) on 2003年10月24日 21時00分 (#420836) ホームページ 日記
    1つのIRCチャンネルに

    • 調教済み人工無脳5体
    • 人間5人
    • 評価者1人

    を放り込んで5分間会話してもらい、誰が人間で誰が無脳か判定してもらう、とか。
    1対1だと厳しいけど、これくらいなら結構勝ち目がありそう。
  • 2chなら (スコア:2, 興味深い)

    by bytes (17046) on 2003年10月24日 23時15分 (#420898)
    たとえばコレ [u-tokyo.ac.jp]とかを見ると、2ch のようにかなりパターン化した掲示板でのやりとりならかなり長い間バレずにいられそうな気がする…。

    「こいついつ寝てるんだ?」というような粘着君のうち何割かは案外 BOT だったりして…(笑…えない。
  • by NovUofMN (14018) <ohts0001NO@SPAMumn.edu> on 2003年10月24日 16時14分 (#420644)
    久しぶりに、受けました。笑いをありがとう。最高です。

    たしかに、話してても要領を得ない人はたくさんいますから、
    人間じゃないと思われても仕方ないのかも。
  • by Led (7726) on 2003年10月24日 16時18分 (#420651) 日記
    素人考えでは9人ってなんだか少ないような気がするんですが、
    審判の傾向によってずいぶん得点が変化するんじゃないかと思ってるのは私だけでしょうか?
    • Re:審判の数 (スコア:1, すばらしい洞察)

      by Anonymous Coward on 2003年10月24日 17時58分 (#420730)
      > 9人ってなんだか少ないような気がするんですが、

      これが大学の卒論なら、
      一夜で無理やり仕上げた事がばれて、
      それだけでボロクソに言われるものと思われます。<評価者9人
      親コメント
  • 審査結果をみると、J9(9人目の審判)がほとんど問答無用に1点をつけてるので、
    「人でも4点とれない」というのはどうかと。
    J9を除けば人間は4.25点と4.625点ですね。

    これ、会話の内容が知りたいところですけれど、Confederate2って得点が両極端だ
    からすごくひねくれた回答をしたんじゃないでしょうか。
    そういう結果を出させる方が難しいかも。
    そのうち人間並みの会話をするのは普通になって、会話者をからかって得点の分散が
    大きい方が勝者、というルールになったりして。
    --
    kaho
  • by inu3 (12009) on 2003年10月24日 16時21分 (#420657)

    テストされているのは人間の方なのかもしれない。ハコの中の人も大変だ。

  • by dashkick (15955) on 2003年10月24日 16時25分 (#420663)
    主観評価は難しい…
  • 「じいさんや、いま、なんと言ったかね」
    「おばあさんや、わしはなんにも言ってないよ」
    「おお、そういうことなら、じいさん、わたしに言えばやるものを」
    「なにをぬかす!わしゃ、まだ元気じゃ!」
    「そんなこんだから、いつまでたっても。。。」

    (以下略)

    の、ような会話のほうがよっぽど人間のようだ、と思うわけだ。
    いつだったか酒場でこのコントをやったら受けたが疲れた。

    # はずしているのでID
  • こういうものの結果は絶対的数値(得点)ではなく、人間と AIの得点間の違いがどれだけ有意であるかという判断をするべきですね。

    それにしても9人は少なすぎます。単なる面白コンテストにはなっても AIの性能評価としてはつらい気がします。
    もし次回以降もあるのであれば「9人のインタビュアーが応対する様子を見て、たくさんの人が投票する」のようなシステムを採用するといいように思います。

    # video streamingで流して Internet経由voteとかもあると
    # 面白そうですね。
    • by oltio (3848) on 2003年10月24日 18時42分 (#420754) 日記
      「9人は統計学上少なすぎる」と評する人は多いが、じゃぁ統計学上
      何人程度なら許せるのかを書く人は少ない。

      この事について統計学上から知見を述べよ。
      親コメント
      • 確かに少ないですね。突っ込みを入れる人はいても説明する人が少ないのと同様に。

        統計学上からとかいうとAICな情報量規準とかウェルチ検定とかマハラノビス距離とかの説明をすればよろしいのでしょうか?

        もしよろしければ、東京図書の「すぐわかる」シリーズ [tokyo-tosho.co.jp]の石村貞夫氏の本をごらんになってください。比較的安いわりに内容が親切なので、私も普段使わせていただいています。

        # 画像認識とか音声認識とかしてると必要なんですよねー
        親コメント
  • by kazuyan (17620) on 2003年10月24日 17時34分 (#420712)
    なら何点取れるだろう?
    密かに期待
  • by ill (3048) on 2003年10月24日 17時56分 (#420728)
    人間とは何か、人間らしいくあるとはどういうことなのか、そういうところから(略
    --
    っと・・・。
  • by zasha (14341) on 2003年10月24日 18時31分 (#420748) ホームページ 日記
    人間はいくらでもbatch処理に近づくことが出来ると思われ。
    某ネットゲーやってると、BOTなのか、BOTっぽく単純作業をする中の人がいるのか、区別がつかないからね。
    (先入観によっては中の人がいるのにBOT呼ばわりされる)

    まー他の人の話にもあるように、
     ・サンプルが足りないとか
     ・ニュートラルな判断をしていないとか
     ・極端に上下に飛び出したデータを排除していないとか
    統計的に使えるデータになっているかが問題なんでしょうね。
    --
    ---- 何ぃ!ザシャー
  • by miri (12057) on 2003年10月24日 21時18分 (#420843) 日記
    カーナビにも人工無能 [zdnet.co.jp]な時代ですからね。たとえ「間違いなくマシン」だとしても、マシンとのUIと考えれば実用性を考えることもできますし。
    テキストベースではなく、音声ベースで会話して今回のようなテストを行ったら結果はどう変わるでしょうか?もちろん人間も音声合成を使って。雰囲気が変わるだけかな。
typodupeerror

※ただしPHPを除く -- あるAdmin

読み込み中...