パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

囚われ鳥のジレンマ」記事へのコメント

  • 元論文を見ることができたので要約してみます。

    実験ケ-ジ:
    ・「主役」の鳥と、それに対して反応をする「脇役」の鳥の二つ
        の別々のケ-ジがある。ケ-ジは透明でお互いの行動は見える
    ・両者からは透明な餌箱も見えていて、その量が見える
    ・それぞれのケ-ジには C、D の二つの止まり木があって、
        C は「協調」、D は「裏切り」に分類される。

    トライアル:
    ・二匹の Blue Jay を別々のケ-ジの開始地点に止まらせる
    ・トライアル開始を示す光が点灯して、まず主役の鳥が
        C/D どちらかの止まり木を選ぶ
    ・次に脇役の鳥が行
    • おかげさまでようやく判って来ました。
      #タレコミ文のまずい点も。

      これは「繰り返し囚人のジレンマ」だけでなく「囚人のジレンマ」との両方にかかる実験。

      ・「実験対象(主役)」のトリは「C」にとまる確率を上げておく。
       (結果/差を見やすくするためだと思う。問題はない範囲の前操作だろう)
      ・実験対象のトリの選択の結果を受けて「脇役」のトリが木にとまる。
       実はこの脇役がどっちにとまるかは、実験やってるヒトが決められるような仕組み。
       言ってみれば「ボット」というか「AI」というか、そんな感じ。
       だから、このボットのアルゴリズムとして、
      • 繰り返しなしの囚人のジレンマに強い「All-D」
      • 繰り返し囚人のジレンマに強い「TfT」
       という2つの有名なものを使って実験してみることにした。
      ・「繰り返し囚人のジレンマ」のモデルとして「accumulation」
       これは4回対決した後で、その4回分の餌がまとめてもらえる。
       ただこういう「後払い方式」だと「すぐにもらえる餌1個」と
       「あと何回か先にもらえる餌1個」を、トリは価値が違うものに
       考えるので、そうならないように透明ゲージにためるようにした。
       こうすることで「餌1個」の価値は均等になった(ようだ)
      ・「(繰り返しのない)囚人のジレンマ」モデルには「unaccumulation」
       これは勝敗ごとに餌がもらえる仕組み。

      このように「脇役のアルゴリズム」と「ジレンマのモデル」にそれぞれ
      2パターン、合計4パターンの状況で実験してみた、と。

      まず「unaccumulation」についてだが、トリが有利/不利を学べるならば、
      相手の行動に関わらず「(繰り返しのない)囚人のジレンマ」で強いと
      言われる「裏切り型(D)」を選ぶようになるんじゃないか、と期待される。
      で、実際予想どおり、相手がAll-DでもTfTでも、回を重ねるごとに
      「Cにとまる率」が下がっていった、と。

      で、一方「accumulation」だけど、この場合、仮にトリが「TfTっぽい」
      考え方をするんなら、All-Dの相手には報復するので「Cにとまる率」は
      下がっていくけど、TfTの相手には恩で報いるので「Cにとまる率」は
      下がらないんじゃないか。
      そう仮定して実験してみたら、まさにその予想どおりになった、と。

      なお得られた結果から、実験体になってるトリたちがaccumulationのとき、
      「TfTっぽいか」「Pavlovのモデル(?)っぽいか」というところまで考察して、
      その結果、やっぱりTfTっぽいぞ、ということをいってるみたいです。

      うーん、こう考えてみると、確かに展望記事などで「明瞭な実験」といってるのが
      初めて判った気がします。
      親コメント
      •  ただこういう「後払い方式」だと「すぐにもらえる餌1個」と「あと何回か先にもらえる餌1個」を、トリは価値が違うものに考えるので、そうならないように透明ゲージにためるようにした。

        ここがまだちょっと微妙に違うかも。

        もしも、「あと何回か先にもらえる餌1個」には全然価値がなくって、いま食べられなきゃヤダ!とゆー、非常に近視眼的な考え方しかしないバカ鳥の場合、今のターンでどれだけの餌を獲得できるかが重要であって、続くターンのことはどーでもいいので、「繰り返しありの囚人のジレンマ」の状況であっても、事実上は繰り返しなしと同じことに

Stay hungry, Stay foolish. -- Steven Paul Jobs

処理中...