AIとヒトの壁 136
ストーリー by yoosee
電気羊の夢は遠くに 部門より
電気羊の夢は遠くに 部門より
saldot曰く、"ZDNet UK の記事によると、人工知能の「人間性」を競うローブナー賞コンテストの結果、独ハンブルクのJuergen Pirnerが製作した「Jabberwock」が優勝した(日本語記事はCNET Japan)。
コンテストは、2人の人間と10台のマシンが「サーバ室」に隠れ、9人の審判がそれぞれと5分間会話し、会話の相手が人間かマシンかを判断する形で行なわれた。
判断基準は、
- 0点:反応がないか、サーバの故障
- 1点:間違いなくマシン
- 2点:おそらくマシン
- 3点:マシンでも人間でもありえる。判断不能
- 4点:おそらく人間
- 5点:間違いなく人間
しかし、興味深いのはサーバ室に隠れた2人の人間が、それぞれ「3.867」と「3.667」という評価しか得られなかったとのこと(結果の一覧はこちら)。 テストの手順が悪いのか、何かが人間性を失わせているのか?はたまた、人間ですら4点も取れないテストなら、AIも結構イケてる、と考えるかは意見の分かれるところだ。"
評価者の問題? (スコア:5, 参考になる)
> それぞれ「3.867」と「3.667」という評価しか得られなかったとのこと
> (結果の一覧はこちら)。テストの手順が悪いのか、何かが人間性を失わせているのか?
> はたまた、人間ですら4点も取れないテストなら、
> AIも結構イケてる、と考えるかは意見の分かれるところだ。"
結果 [surrey.ac.uk]を見ると、審判 J9 がほとんど全員に最低スコア (1.00) をつけていて、
これが評価を押し下げているように見えます (異常に疑り深い人?) 。
これを差し引くと人間2人のスコアは 4.225 と 4.0 なのでそれほどひどくないように見えますがどうでしょう?
だが、いいこともあるぞ、外の天気は上々なんだ
Re:評価者の問題? (スコア:4, おもしろおかしい)
>これが評価を押し下げているように見えます (異常に疑り深い人?) 。
答え:J9は情け無用 [home.ne.jp]だったのです。
Re:評価者の問題? (スコア:2, 興味深い)
ジャッジが9人じゃサンプル数があまりに少なすぎて、個々の資質に左右されすぎると思うんですが。
統計学的には最小値と最大値って除外するんじゃ…?詳しい人のフォローを期待します。
# rm -rf ./.
Re:評価者の問題? (スコア:3, 参考になる)
というものがあります。
ちなみに有意水準1%レベルでの検定の結果、Markbotに対するJ9の評価は外れ値ではありませんでした。
Re:評価者の問題? (スコア:1)
統計の教科書には、恣意的にデータを捨てると正しい結果が 得られない、というようなことが書いてあります。 また、明らかに間違っている入力は捨てるべし、とも 書いてあります。 J9が採点基準を誤解していたとか、恣意的な採点をしていたとか いうのなら、除外して平均を取っても良いでしょう。
問題はプライドかも (スコア:2, 興味深い)
絶対の確信をもって「5」と評価した相手が実はAIでしたとかいわれると、どんな気分だろうか?
「1」とつけたのが人間なら「あいつは演技派だ」で済むかもしれない。
でも機械相手だと評価した自分が人間以下みたいな気分で面白くない。
そんな心理状態だと、ついついAI寄りに判定しちゃうんじゃないかしらん
Re:問題はプライドかも (スコア:1, 興味深い)
オレはコミュニケーションの手段がチャットだったというのが気になる。
忘れもしない、生まれて初めてMSNチャットに参加した時のオレの感想。
「こいつらみんな、人間じゃねーだろ!」
AIとしての優秀さが「不特定の情報に対する適切な反応」に絞られるのなら、こういうコンテストってアリだと思うが、
「人間らしさ」って、そういうもんでもないだろ。
オレが同じコンテストを主催できるなら、
審査員は、コンピュータのコの字も知らないような人だけを集めると思う。
「人間らしさ」に主眼を置くなら。ね。
いずれ、やった側も、シビアな実験というよりは、
お遊び的なノリでやったんだと信じたいなあ。
Re:問題はプライドかも (スコア:3, おもしろおかしい)
審査委員長は当然「中○根さん」ですよね。
彼ならAIの言っている事か若手の言っている事か理解できるのでしょうから。
#じじネタでした。
#危険だけど、え~いIDで。
Re:問題はプライドかも (スコア:1)
時事ネタ?
爺ネタ?
Re:評価者の問題? (スコア:1)
実は (スコア:4, すばらしい洞察)
---- 末は社長か懲戒免職 なかむらまさよし
Re:実は (スコア:1)
Re:実は (スコア:1)
#成原さん天才!!
Re:実は (スコア:1)
全てを破壊し尽くしそうでなんかヤダ(笑)。
Re:実は (スコア:1, すばらしい洞察)
# 同じだバカモンっ!
審判失格 (スコア:4, 参考になる)
あらかじめ伝えられていたために審判は予断を持ったと思われる。
なにしろ高確率でbotに遭遇してしまうのだから、
よほどのことが無い限り「ああこれもbotだな」と思い込んでおけば
大抵それで正しい。
この手のテストの場合、
あらかじめ「12人中humanは10人ですよ」と嘘を伝えておくと
出場選手が同じであっても結果の点数は変わってくるのではないだろうか。
また3.867というのは計測機のズレとして扱うという考え方もある。
真の値 = 実験で得られた測定結果 * 5 / 3.867
という考えをすれば、 1.928というのは実は2.493を意味する。
Re:審判失格 (スコア:5, 参考になる)
J1とJ4、それからほとんど全てに1を付けているJ9を除けばこんな感じになります。
何となく妥当な感じ?
Confederate 2 4.30
Confederate 1 4.33
Jabberwock 1.89
Elbot 2.02
Eugene Goostmann 1.95
Jabberwacky 1.97
Lucy 1.57
Markbot 1.30
ALICE 1.43
Gabber 1.28
Re:審判失格 (スコア:2, すばらしい洞察)
Re:審判失格 (スコア:2, 参考になる)
あらかじめ与えられる情報がどのように結果に影響するのかも調べる必要はあると思います。恐らく与えられた人間の人数だけいい得点を付ける傾向が出ると思います。だから、実際の人間の数と異なる人数を情報として与えるとか、あるいは人数の情報を全く与えないとか、の結果は知りたいところですね。
#実はこの実験はAIとヒトとの対決ではなくヒトとヒトとの対決だったりして・・・
話してみました (スコア:3, すばらしい洞察)
Jabberwock [abenteuermedien.de] と話してみました。全く気まぐれで、的を得ません。
対話形式の UI にも問題があるように感じました。会話は、対話だけで成立するのではないからです。
……だそうですので、そんなもんなんでしょう。
それでも反応を楽しめる程度には賢いし、語彙も豊富(日本語も話します (^^;; )なので、短い対話で、運がよければ、人間と判定されることも有り得るでしょう。
Re:話してみました (スコア:2, すばらしい洞察)
このボットが人間的なのか、若いおねーちゃんが非人間的なのか、どっちなんだろう。
Re:話してみました (スコア:2, すばらしい洞察)
bot も若いおねーちゃんも、文脈と単語に反応するだけで何も考えていないとか。
非人間的というより、話の内容を理解していない/関心がない感じです。
昔聞いたような… (スコア:2, おもしろおかしい)
あれもAI
これもAI
たぶんAI
きっとAI
って歌を思い出してしまった。
人工無脳的方向性 (スコア:2, すばらしい洞察)
を放り込んで5分間会話してもらい、誰が人間で誰が無脳か判定してもらう、とか。
1対1だと厳しいけど、これくらいなら結構勝ち目がありそう。
2chなら (スコア:2, 興味深い)
「こいついつ寝てるんだ?」というような粘着君のうち何割かは案外 BOT だったりして…(笑…えない。
最高 (スコア:1)
たしかに、話してても要領を得ない人はたくさんいますから、
人間じゃないと思われても仕方ないのかも。
審判の数 (スコア:1)
審判の傾向によってずいぶん得点が変化するんじゃないかと思ってるのは私だけでしょうか?
Re:審判の数 (スコア:1, すばらしい洞察)
これが大学の卒論なら、
一夜で無理やり仕上げた事がばれて、
それだけでボロクソに言われるものと思われます。<評価者9人
真面目にやってる? (スコア:1)
「人でも4点とれない」というのはどうかと。
J9を除けば人間は4.25点と4.625点ですね。
これ、会話の内容が知りたいところですけれど、Confederate2って得点が両極端だ
からすごくひねくれた回答をしたんじゃないでしょうか。
そういう結果を出させる方が難しいかも。
そのうち人間並みの会話をするのは普通になって、会話者をからかって得点の分散が
大きい方が勝者、というルールになったりして。
kaho
テストされているのは (スコア:1)
テストされているのは人間の方なのかもしれない。ハコの中の人も大変だ。
会話で判断 (スコア:1)
耳の遠いおじいさんとおばあさんの会話 (スコア:1)
「おばあさんや、わしはなんにも言ってないよ」
「おお、そういうことなら、じいさん、わたしに言えばやるものを」
「なにをぬかす!わしゃ、まだ元気じゃ!」
「そんなこんだから、いつまでたっても。。。」
(以下略)
の、ような会話のほうがよっぽど人間のようだ、と思うわけだ。
いつだったか酒場でこのコントをやったら受けたが疲れた。
# はずしているのでID
統計の注意 (スコア:1)
それにしても9人は少なすぎます。単なる面白コンテストにはなっても AIの性能評価としてはつらい気がします。
もし次回以降もあるのであれば「9人のインタビュアーが応対する様子を見て、たくさんの人が投票する」のようなシステムを採用するといいように思います。
# video streamingで流して Internet経由voteとかもあると
# 面白そうですね。
Re:統計の注意 (スコア:1)
何人程度なら許せるのかを書く人は少ない。
この事について統計学上から知見を述べよ。
Re:統計の注意 (スコア:1)
統計学上からとかいうとAICな情報量規準とかウェルチ検定とかマハラノビス距離とかの説明をすればよろしいのでしょうか?
もしよろしければ、東京図書の「すぐわかる」シリーズ [tokyo-tosho.co.jp]の石村貞夫氏の本をごらんになってください。比較的安いわりに内容が親切なので、私も普段使わせていただいています。
# 画像認識とか音声認識とかしてると必要なんですよねー
人工無能ちかちゃん (スコア:1)
密かに期待
うずら (スコア:1)
http://www.din.or.jp/~ohzaki/uzura.htm#link
は既に人を超えています。
愛とか、ボケ&ツッコミの才能とか。地震予知とか。
つまり、 (スコア:1)
っと・・・。
Re:つまり、 (スコア:1)
> ・常識 (という名の知識) を持ち、
> ・それを基にした文法的に省略の多い会話が成り立つ (適時、補完される)
>のが人間で、機械は知識量の少なさと文章構成力(アルゴリズム)の弱さが
>不自然な会話として現れるのが現状というところかな。
となると、生物学的に人間でも機械とさほど差のない人間もいるということですな。
条件のどちらに抵触するかはあえて言わないけど、このスラドにも結構いそうですなぁ、機械とさほど変わらない方が。
BOTBOTBOT (スコア:1)
某ネットゲーやってると、BOTなのか、BOTっぽく単純作業をする中の人がいるのか、区別がつかないからね。
(先入観によっては中の人がいるのにBOT呼ばわりされる)
まー他の人の話にもあるように、
・サンプルが足りないとか
・ニュートラルな判断をしていないとか
・極端に上下に飛び出したデータを排除していないとか
統計的に使えるデータになっているかが問題なんでしょうね。
---- 何ぃ!ザシャー
音声 (スコア:1)
テキストベースではなく、音声ベースで会話して今回のようなテストを行ったら結果はどう変わるでしょうか?もちろん人間も音声合成を使って。雰囲気が変わるだけかな。
Re:namako.pl (スコア:2, 興味深い)
あぁいう風に、偶然出来た面白い会話の一部だけ見れば賢いように見えるけど
トータルで見るとそうでもない。 性能じゃなくて確率の問題なのね
捏造とまでは言わないけど、フェアじゃないのは確かだ。
# いや、普段からわりとあんなもんかな?
IRCnetの #namako 辺りに居るから、興味のある人は覗いてみるといいです。
Re:namako.pl (スコア:2, おもしろおかしい)
Re:namako.pl (スコア:1)
Re:namako.pl (スコア:2, 参考になる)
本部 [apgeo.com]とは別活動なんだろうか。
本部のほうが定期的に活動してるなあ、というのは当然のようなそうじゃないような(?)。
Re:namako.pl (スコア:1)
珍しくFullCで書かれていたbot(nako)を、Linux用に調整してフィードバックしたのを思い出しました。
# rm -rf ./.
Re:開始 (スコア:1, おもしろおかしい)
うちのかーちゃんは (スコア:2, おもしろおかしい)
# バレるとやばいのでAC
Re:うちのかーちゃんは (スコア:1, 参考になる)
10も20も100も言い返してくる。
その反応の早さと口の速さ、
間違いなくマシン 。
#もちろんACで。
Re:LED-LRTC-TLA (スコア:1)
はっ、Windows機が判別できる呪文?