アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
犯人は巨人ファンでA型で眼鏡をかけている -- あるハッカー
元論文の要約 (スコア:5, 参考になる)
実験ケ-ジ:
・「主役」の鳥と、それに対して反応をする「脇役」の鳥の二つ
の別々のケ-ジがある。ケ-ジは透明でお互いの行動は見える
・両者からは透明な餌箱も見えていて、その量が見える
・それぞれのケ-ジには C、D の二つの止まり木があって、
C は「協調」、D は「裏切り」に分類される。
トライアル:
・二匹の Blue Jay を別々のケ-ジの開始地点に止まらせる
・トライアル開始を示す光が点灯して、まず主役の鳥が
C/D どちらかの止まり木を選ぶ
・次に脇役の鳥が行
理解(Re:元論文の要約 (スコア:1)
#タレコミ文のまずい点も。
これは「繰り返し囚人のジレンマ」だけでなく「囚人のジレンマ」との両方にかかる実験。
・「実験対象(主役)」のトリは「C」にとまる確率を上げておく。
(結果/差を見やすくするためだと思う。問題はない範囲の前操作だろう)
・実験対象のトリの選択の結果を受けて「脇役」のトリが木にとまる。
実はこの脇役がどっちにとまるかは、実験やってるヒトが決められるような仕組み。
言ってみれば「ボット」というか「AI」というか、そんな感じ。
だから、このボットのアルゴリズムとして、
・「繰り返し囚人のジレンマ」のモデルとして「accumulation」
これは4回対決した後で、その4回分の餌がまとめてもらえる。
ただこういう「後払い方式」だと「すぐにもらえる餌1個」と
「あと何回か先にもらえる餌1個」を、トリは価値が違うものに
考えるので、そうならないように透明ゲージにためるようにした。
こうすることで「餌1個」の価値は均等になった(ようだ)
・「(繰り返しのない)囚人のジレンマ」モデルには「unaccumulation」
これは勝敗ごとに餌がもらえる仕組み。
このように「脇役のアルゴリズム」と「ジレンマのモデル」にそれぞれ
2パターン、合計4パターンの状況で実験してみた、と。
まず「unaccumulation」についてだが、トリが有利/不利を学べるならば、
相手の行動に関わらず「(繰り返しのない)囚人のジレンマ」で強いと
言われる「裏切り型(D)」を選ぶようになるんじゃないか、と期待される。
で、実際予想どおり、相手がAll-DでもTfTでも、回を重ねるごとに
「Cにとまる率」が下がっていった、と。
で、一方「accumulation」だけど、この場合、仮にトリが「TfTっぽい」
考え方をするんなら、All-Dの相手には報復するので「Cにとまる率」は
下がっていくけど、TfTの相手には恩で報いるので「Cにとまる率」は
下がらないんじゃないか。
そう仮定して実験してみたら、まさにその予想どおりになった、と。
なお得られた結果から、実験体になってるトリたちがaccumulationのとき、
「TfTっぽいか」「Pavlovのモデル(?)っぽいか」というところまで考察して、
その結果、やっぱりTfTっぽいぞ、ということをいってるみたいです。
うーん、こう考えてみると、確かに展望記事などで「明瞭な実験」といってるのが
初めて判った気がします。
Re:理解(Re:元論文の要約 (スコア:0)
ここがまだちょっと微妙に違うかも。
もしも、「あと何回か先にもらえる餌1個」には全然価値がなくって、いま食べられなきゃヤダ!とゆー、非常に近視眼的な考え方しかしないバカ鳥の場合、今のターンでどれだけの餌を獲得できるかが重要であって、続くターンのことはどーでもいいので、「繰り返しありの囚人のジレンマ」の状況であっても、事実上は繰り返しなしと同じことに