パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

囚われ鳥のジレンマ」記事へのコメント

  • 元論文の要約 (スコア:5, 参考になる)

    by edmeister (4989) on 2003年02月06日 22時28分 (#252909)
    元論文を見ることができたので要約してみます。

    実験ケ-ジ:
    ・「主役」の鳥と、それに対して反応をする「脇役」の鳥の二つ
        の別々のケ-ジがある。ケ-ジは透明でお互いの行動は見える
    ・両者からは透明な餌箱も見えていて、その量が見える
    ・それぞれのケ-ジには C、D の二つの止まり木があって、
        C は「協調」、D は「裏切り」に分類される。

    トライアル:
    ・二匹の Blue Jay を別々のケ-ジの開始地点に止まらせる
    ・トライアル開始を示す光が点灯して、まず主役の鳥が
        C/D どちらかの止まり木を選ぶ
    ・次に脇役の鳥が行動を許されるが、主役の行動は見えて
        いるので、先の鳥に対して協調か裏切りかの反応を強制される
    ・こうしたトライアルを、何回のゲームで餌を与えられるか、
        という「蓄積量」の変量を導入して 1000回行う
    ・主役の鳥はあらかじめ訓練してあって、C にとまる確率を
        高めておいた上でトライアルを開始し、一定回数後の C
        の減り方によって、協調性が保たれたか、損なわれたか
        をグラフ化する

        原文では accumulation になっている「蓄積量」はどうも
        数回のゲームでたまった大量の餌をもらえるか、毎回小量の
        えさをもらえるか、という面白い変量みたいです。

        ほんとうは「餌を蓄積できる量」とでも訳すものですかね?
        協力すれば3倍の餌がもらえたり、さっさと裏切れば少量でも
        餌をもらえたり、という変量です。(違うかも)

    結果:
    ・脇役の行動が「常に裏切り」だと協調性は 0 に漸近する
        これは餌の蓄積量によらない
    ・accumulation が小さいと、協調性は消えてゆく
    ・accumulation が大きいと、協調性は高いままで維持される

    なんだかよく理解していませんが、一回のゲームで少量の
    餌でももらえるようなら協調性は消えるけど、
    協力してたくさんの餌にあり付けるようなら、協調性は
    保たれる、ということでしょうか?

    専門違いの論文を読むのって大変です。
    多分間違いだらけなので訂正してください。
    • by SteppingWind (2654) on 2003年02月07日 14時16分 (#253378)

      誰も指摘しないのですが, この実験のうまいところは実はアオカケスを使った所だと思います.

      よく言われることですが, カケスを含むカラス科の鳥は鳥の中でもトップクラスの知能を持っているので, 今回の実験で要求される記憶や推論がうまく働いたのだと思います. これが猛禽類のようなおバカな種類だったら, 有意の差は認められないという結果になったのではと想像します.

      親コメント
      • この実験のためにわざわざアオカケスを選んで使った、というのを想像されてるんだったら、ちょっと違うかも。単にいつもアオカケスで実験してる研究室だというのがたぶん実情だろうと思います。

        単純に研究室の生産性の問題として、賢くて訓練が楽とか、あるいはハトみたいに自動反応形成ができて楽とか、安く入手でき
    • Re:元論文の要約 (スコア:1, 参考になる)

      by Anonymous Coward on 2003年02月07日 0時26分 (#253034)
      原文では accumulation になっている「蓄積量」はどうも数回のゲームでたまった大量の餌をもらえるか、毎回小量のえさをもらえるか、という面白い変量みたいです。

      というのは正しいと思うけど、この変数を変化させるという操作の意味は違うかと。

      報酬が実際にもらえるのが先延ばしになるほど、報酬としての価値が下がる、たとえば「今もらえる1粒の餌は、1ターン後にもらえる2粒の餌と同等の価値がある」というような価値判断 (discount) を鳥が持っていると仮定すると、毎ターンごとにすぐに餌がもらえる状況では「協調した方が裏切るよりも本当は(=長期的には)得」という状況が実際には成立していない可能性がある。

      なので、数ターン後にならないと餌がもらえないようにする&透明な箱にプールされて餌がたまってることは分かるようにしておくと、discountの効果がキャンセルされて、実際に鳥にとって「協調したほうが裏切るよりも本当は得」という状況が作り出せるのではないか?

      でもって、実験したらそのとおりの結果になった、ということだと思うです。
      親コメント
    • おかげさまでようやく判って来ました。
      #タレコミ文のまずい点も。

      これは「繰り返し囚人のジレンマ」だけでなく「囚人のジレンマ」との両方にかかる実験。

      ・「実験対象(主役)」のトリは「C」にとまる確率を上げておく。
       (結果/差を見やすくするためだと思う。問題はない範囲の前操作だろう)
      ・実験対象のトリの選択の結果を受けて「脇役」のトリが木にとまる。
       実はこの脇役がどっちにとまるかは、実験やってるヒトが決められるような仕組み。
       言ってみれば「ボット」というか「AI」というか、そんな感じ。
       だから、このボットのアルゴリズムとして、
      • 繰り返しなしの囚人のジレンマに強い「All-D」
      • 繰り返し囚人のジレンマに強い「TfT」
       という2つの有名なものを使って実験してみることにした。
      ・「繰り返し囚人のジレンマ」のモデルとして「accumulation」
       これは4回対決した後で、その4回分の餌がまとめてもらえる。
       ただこういう「後払い方式」だと「すぐにもらえる餌1個」と
       「あと何回か先にもらえる餌1個」を、トリは価値が違うものに
       考えるので、そうならないように透明ゲージにためるようにした。
       こうすることで「餌1個」の価値は均等になった(ようだ)
      ・「(繰り返しのない)囚人のジレンマ」モデルには「unaccumulation」
       これは勝敗ごとに餌がもらえる仕組み。

      このように「脇役のアルゴリズム」と「ジレンマのモデル」にそれぞれ
      2パターン、合計4パターンの状況で実験してみた、と。

      まず「unaccumulation」についてだが、トリが有利/不利を学べるならば、
      相手の行動に関わらず「(繰り返しのない)囚人のジレンマ」で強いと
      言われる「裏切り型(D)」を選ぶようになるんじゃないか、と期待される。
      で、実際予想どおり、相手がAll-DでもTfTでも、回を重ねるごとに
      「Cにとまる率」が下がっていった、と。

      で、一方「accumulation」だけど、この場合、仮にトリが「TfTっぽい」
      考え方をするんなら、All-Dの相手には報復するので「Cにとまる率」は
      下がっていくけど、TfTの相手には恩で報いるので「Cにとまる率」は
      下がらないんじゃないか。
      そう仮定して実験してみたら、まさにその予想どおりになった、と。

      なお得られた結果から、実験体になってるトリたちがaccumulationのとき、
      「TfTっぽいか」「Pavlovのモデル(?)っぽいか」というところまで考察して、
      その結果、やっぱりTfTっぽいぞ、ということをいってるみたいです。

      うーん、こう考えてみると、確かに展望記事などで「明瞭な実験」といってるのが
      初めて判った気がします。
      親コメント
      •  ただこういう「後払い方式」だと「すぐにもらえる餌1個」と「あと何回か先にもらえる餌1個」を、トリは価値が違うものに考えるので、そうならないように透明ゲージにためるようにした。

        ここがまだちょっと微妙に違うかも。

        もしも、「あと何回か先にもらえる餌1個」には全然価値がなくって、いま食べられなきゃヤダ!とゆー、非常に近視眼的な考え方しかしないバカ鳥の場合、今のターンでどれだけの餌を獲得できるかが重要であって、続くターンのことはどーでもいいので、「繰り返しありの囚人のジレンマ」の状況であっても、事実上は繰り返しなしと同じことに
    • by Anonymous Coward
      >・それぞれのケ-ジには C、D の二つの止まり木があって、
              C は「協調」、D は「裏切り」に分類される。

       、、、分類されるか。確かに鳥に自白とか黙秘は無理だからな。
       って事は、たんなる組み合わせ、期待値の問題で動いてるんじゃないのか、鳥は?

あつくて寝られない時はhackしろ! 386BSD(98)はそうやってつくられましたよ? -- あるハッカー

処理中...