パスワードを忘れた? アカウント作成
4927 story

囚われ鳥のジレンマ 54

ストーリー by yourCat
進化計算は正しかった 部門より

y_tambe 曰く、 "National geographics newsによると、ミネソタ大の研究グループが、鳥(アオカケス)を使った「繰り返し囚人のジレンマ」実験を行い、Science誌に発表しているそうだ(Abstract)。
囚人のジレンマはゲーム理論の中でも最も有名なものの一つだと思う。その応用である「繰り返し囚人のジレンマ」の結果から、長期的には「裏切り」よりも「協調」する戦略を選ぶ方が有利であるといわれている。このことが生物の進化上、協調的な行動が生まれた理由だという解釈があった。
これまでコンピュータシミュレーションでは確かに協調する方が安定することが確かめられてこの理屈が成り立っていたものの、動物実験としてこれを支持する結果が得られたのはこれが初めてだそうだ。今回の研究では、得点が鳥にも判りやすいように(行動を起こしたらすぐに餌がもらえる、従来の方法ではなく)中身が見えるけど手出しできない透明の箱の中に得点に応じて餌をためていき、後でたまった分がもらえるという仕組みにしたのがミソだったらしいのだが。
いささか古いネタなんだが去年末からずっと心にひっかかってたのでタレコんでみた。タレコミ人も原報にあたってはみたんだが、何しろ専門外の分野なので、この方法の妥当性がよく分からないのが正直なところ。詳しい方に解説してもらえると嬉しい。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 元論文の要約 (スコア:5, 参考になる)

    by edmeister (4989) on 2003年02月06日 22時28分 (#252909)
    元論文を見ることができたので要約してみます。

    実験ケ-ジ:
    ・「主役」の鳥と、それに対して反応をする「脇役」の鳥の二つ
        の別々のケ-ジがある。ケ-ジは透明でお互いの行動は見える
    ・両者からは透明な餌箱も見えていて、その量が見える
    ・それぞれのケ-ジには C、D の二つの止まり木があって、
        C は「協調」、D は「裏切り」に分類される。

    トライアル:
    ・二匹の Blue Jay を別々のケ-ジの開始地点に止まらせる
    ・トライアル開始を示す光が点灯して、まず主役の鳥が
        C/D どちらかの止まり木を選ぶ
    ・次に脇役の鳥が行動を許されるが、主役の行動は見えて
        いるので、先の鳥に対して協調か裏切りかの反応を強制される
    ・こうしたトライアルを、何回のゲームで餌を与えられるか、
        という「蓄積量」の変量を導入して 1000回行う
    ・主役の鳥はあらかじめ訓練してあって、C にとまる確率を
        高めておいた上でトライアルを開始し、一定回数後の C
        の減り方によって、協調性が保たれたか、損なわれたか
        をグラフ化する

        原文では accumulation になっている「蓄積量」はどうも
        数回のゲームでたまった大量の餌をもらえるか、毎回小量の
        えさをもらえるか、という面白い変量みたいです。

        ほんとうは「餌を蓄積できる量」とでも訳すものですかね?
        協力すれば3倍の餌がもらえたり、さっさと裏切れば少量でも
        餌をもらえたり、という変量です。(違うかも)

    結果:
    ・脇役の行動が「常に裏切り」だと協調性は 0 に漸近する
        これは餌の蓄積量によらない
    ・accumulation が小さいと、協調性は消えてゆく
    ・accumulation が大きいと、協調性は高いままで維持される

    なんだかよく理解していませんが、一回のゲームで少量の
    餌でももらえるようなら協調性は消えるけど、
    協力してたくさんの餌にあり付けるようなら、協調性は
    保たれる、ということでしょうか?

    専門違いの論文を読むのって大変です。
    多分間違いだらけなので訂正してください。
    • by SteppingWind (2654) on 2003年02月07日 14時16分 (#253378)

      誰も指摘しないのですが, この実験のうまいところは実はアオカケスを使った所だと思います.

      よく言われることですが, カケスを含むカラス科の鳥は鳥の中でもトップクラスの知能を持っているので, 今回の実験で要求される記憶や推論がうまく働いたのだと思います. これが猛禽類のようなおバカな種類だったら, 有意の差は認められないという結果になったのではと想像します.

      親コメント
      • この実験のためにわざわざアオカケスを選んで使った、というのを想像されてるんだったら、ちょっと違うかも。単にいつもアオカケスで実験してる研究室だというのがたぶん実情だろうと思います。

        単純に研究室の生産性の問題として、賢くて訓練が楽とか、あるいはハトみたいに自動反応形成ができて楽とか、安く入手でき
    • Re:元論文の要約 (スコア:1, 参考になる)

      by Anonymous Coward on 2003年02月07日 0時26分 (#253034)
      原文では accumulation になっている「蓄積量」はどうも数回のゲームでたまった大量の餌をもらえるか、毎回小量のえさをもらえるか、という面白い変量みたいです。

      というのは正しいと思うけど、この変数を変化させるという操作の意味は違うかと。

      報酬が実際にもらえるのが先延ばしになるほど、報酬としての価値が下がる、たとえば「今もらえる1粒の餌は、1ターン後にもらえる2粒の餌と同等の価値がある」というような価値判断 (discount) を鳥が持っていると仮定すると、毎ターンごとにすぐに餌がもらえる状況では「協調した方が裏切るよりも本当は(=長期的には)得」という状況が実際には成立していない可能性がある。

      なので、数ターン後にならないと餌がもらえないようにする&透明な箱にプールされて餌がたまってることは分かるようにしておくと、discountの効果がキャンセルされて、実際に鳥にとって「協調したほうが裏切るよりも本当は得」という状況が作り出せるのではないか?

      でもって、実験したらそのとおりの結果になった、ということだと思うです。
      親コメント
    • おかげさまでようやく判って来ました。
      #タレコミ文のまずい点も。

      これは「繰り返し囚人のジレンマ」だけでなく「囚人のジレンマ」との両方にかかる実験。

      ・「実験対象(主役)」のトリは「C」にとまる確率を上げておく。
       (結果/差を見やすくするためだと思う。問題はない範囲の前操作だろう)
      ・実験対象のトリの選択の結果を受けて「脇役」のトリが木にとまる。
       実はこの脇役がどっちにとまるかは、実験やってるヒトが決められるような仕組み。
       言ってみれば「ボット」というか「AI」というか、そんな感じ。
       だから、このボットのアルゴリズムとして、
      • 繰り返しなしの囚人のジレンマに強い「All-D」
      • 繰り返し囚人のジレンマに強い「TfT」
       という2つの有名なものを使って実験してみることにした。
      ・「繰り返し囚人のジレンマ」のモデルとして「accumulation」
       これは4回対決した後で、その4回分の餌がまとめてもらえる。
       ただこういう「後払い方式」だと「すぐにもらえる餌1個」と
       「あと何回か先にもらえる餌1個」を、トリは価値が違うものに
       考えるので、そうならないように透明ゲージにためるようにした。
       こうすることで「餌1個」の価値は均等になった(ようだ)
      ・「(繰り返しのない)囚人のジレンマ」モデルには「unaccumulation」
       これは勝敗ごとに餌がもらえる仕組み。

      このように「脇役のアルゴリズム」と「ジレンマのモデル」にそれぞれ
      2パターン、合計4パターンの状況で実験してみた、と。

      まず「unaccumulation」についてだが、トリが有利/不利を学べるならば、
      相手の行動に関わらず「(繰り返しのない)囚人のジレンマ」で強いと
      言われる「裏切り型(D)」を選ぶようになるんじゃないか、と期待される。
      で、実際予想どおり、相手がAll-DでもTfTでも、回を重ねるごとに
      「Cにとまる率」が下がっていった、と。

      で、一方「accumulation」だけど、この場合、仮にトリが「TfTっぽい」
      考え方をするんなら、All-Dの相手には報復するので「Cにとまる率」は
      下がっていくけど、TfTの相手には恩で報いるので「Cにとまる率」は
      下がらないんじゃないか。
      そう仮定して実験してみたら、まさにその予想どおりになった、と。

      なお得られた結果から、実験体になってるトリたちがaccumulationのとき、
      「TfTっぽいか」「Pavlovのモデル(?)っぽいか」というところまで考察して、
      その結果、やっぱりTfTっぽいぞ、ということをいってるみたいです。

      うーん、こう考えてみると、確かに展望記事などで「明瞭な実験」といってるのが
      初めて判った気がします。
      親コメント
    • by Anonymous Coward
      >・それぞれのケ-ジには C、D の二つの止まり木があって、
              C は「協調」、D は「裏切り」に分類される。

       、、、分類されるか。確かに鳥に自白とか黙秘は無理だからな。
       って事は、たんなる組み合わせ、期待値の問題で動いてるんじゃないのか、鳥は?
  • by cyber205 (4374) on 2003年02月06日 21時28分 (#252847) ホームページ 日記
    確か、この研究は
    「数学的にモラルを守ることの優れている点を証明できるか」というのを研究する奴でしたよね。
    # 星野力氏の「ロボットにつけるクスリ」で読みました。

    1・普通に協調すればそこそこの良い結果が得られるが、

    2・「相手が正直に対応する」とわかっている場合には、ざっくり裏切ればもっと良い結果が得られる。

    3・また、正直に協調して相手に裏切られるとダメージがでかい。

    4・そして、両方で裏切った場合は裏切られるよりはマシだが、協調した時よりもずっと少ないスコアしか稼げない。

    という前提条件があって、この中でどう対戦するのが最も有利かを競うものです。

    常に協調し続けるなら、双方が繁栄しますが、
    利己的な立場から見てもそれが最も有利な戦略なのかどうか。
    もしかして、うまく裏切って相手よりも抜きん出る方法があるのかどうか。
    このあたりが研究の焦点だったと思います。

    相手の出方がまったくわからない『一発勝負』の場合は、
    『裏切ったほうが有利』なんですが、これを繰り返すというところに、
    この研究のミソがあるわけで…。

    P.S
    しかし、相手より優位に立つことに対する優越感を
    どう表現したのかが気になります(^^;;

    研究者が作成した思考するソフトウェアを使った対戦では、
    TfTというのだったか、
    「自分からは裏切らないが、相手が裏切った回数だけ裏切り返す」
    というアルゴリズムが最強だったそうです。
    • by m-link (12429) on 2003年02月06日 21時40分 (#252859) 日記

      >「自分からは裏切らないが、相手が裏切った回数だけ裏切り返す」
      >というアルゴリズムが最強だったそうです。

      「しっぺ返し」ですね。そのもっともシンプルなのを4行法則、と呼んでいたと思います。(複数のソースで見ましたが、一番覚えているのは教科書よりもサイバーナイトの…)

      時節柄、この話を見るとどうにも重い考えに及んでしまいます。

      #アオカケスかわいい…

      --
      えむり
      親コメント
      • このゲームは、互いの1つ前の手を伝えられるので、
        今度の手 = 相手の1つ前の手
        という簡単なアルゴリズムで実現できました。
        これは確かに「正確な通信路」の時は最強でした。

        ここで「たまに通信路でノイズが発生する(嘘の手が教えられる)」現象が発生すると事態は一変します。
        「しっぺ返し」が正確にしっぺ返しすることができなくなるので、この機構に破綻が生じます。
        たとえばTfT同士で対戦時、ノイズが乗るとその後次のノイズまで裏切り合いになり得点効率ががくんと落ちます。
        この状況で繰り返し囚人のジレンマゲームを行うと、簡単には最強のアルゴリズムが組めなくなったことまでは覚えています。
        最強のアルゴリズムは相当複雑なものだと聞いた覚えがあります。

        (以下オフトピック:TfTの最も簡単なソース)
        /* true: Cooperate
        false: Defact */
        bool TfT(bool priv){
        return priv;
        }
        親コメント
        • by himuro (547) on 2003年02月07日 0時20分 (#253024) ホームページ
          ちょうど人工生命(有田隆也氏著)を最近勉強していて
          関連する話題を読んでたところでした。

          tit-for-tat より強い戦略として
          Pavlof 戦略というのが 1993年に Nowak らによって論文が
          書かれました。これは、しっぺ返しの一部を変えて

          前回の自分:前回の相手
          裏切り:協調 ⇒ 裏切り
          裏切り:裏切り ⇒ 協調
          という部分が違います。裏切り合った後に自分から
          仲直りするわけですね。
          Pavlof 戦略はそのように呼ばれる前から知られていて
          simpleton(おばかさん)と呼ばれていたそうです。
          でもシミュレーションしてみると全然 simpleton じゃなかったってわけ。

          それでもうこれ以上の戦略はないだろうと思われていたんですが、
          1996にDalahaye らが Gradural 戦略というさらに強力なものを
          発見しました。それは、

          最初は協調
          2回目以降は、相手が協調したら協調
          裏切った場合それがn回目ならn回裏切り返す
          そのあと2回協調する

          というもので、だんだん報復を重くしていき、
          そのあとちょっと冷却期間をおくというものです。

          # こんな感じなので、実はもっと強いやつがまた発見されたりして...
          # みんな考えてみたら??
          親コメント
        • 最強戦略ってありますか?
          サンタフェ研究所での複雑系の研究華やかなりし頃(つまり昔なので詳細は忘れたと言うこと)、出版されたArtificial Life (Proceedings of International Conference of AL)のどれかに、GAで生成したプレイヤーではESS(evolutional Stable Strategyだったけ?)は出現しなかった。chaoticな振る舞いを示した、というような報告があったと思うのですが。設定が違ったかな? 違ってたら(_ _)
          # いやー、懐かしい。
          親コメント
      • by 99 (10428) on 2003年02月06日 22時05分 (#252885)
        >時節柄、この話を見るとどうにも重い考えに及んでしまいます。

        つまり某chでは自分から煽らず、煽られたら煽られた回数だけ
        煽り返す、ということですね。
        親コメント
      • Re:ゲーム理論ですな (スコア:1, おもしろおかしい)

        by Anonymous Coward on 2003年02月06日 22時08分 (#252889)
        調教とも言えますね:-)
        親コメント
        • by G7 (3009) on 2003年02月08日 12時04分 (#254119)
          <単なる妄想>
          というか、それが有効であることを、生物は長い歴史の間に遺伝子に記憶しているんで、
          「調教」という行為が成立し得るように生物は出来ている…のかなと…
          </単なる妄想>
          親コメント
  • by Anonymous Coward on 2003年02月07日 2時02分 (#253103)
    ゲームかあ。もれは経済学やっててゲーム理論はよく使うから一カキコ。

    知らん人は全然知らんと思いますが、経済学ではゲーム理論の概念をよく使うし、
    ゲーム理論自体が経済学の一分野となっています (東大経済学部はゲーム理論家
    のすくつ)。

    経済学でゲーム理論を使う理由はいろいろあるんでしょうが、
    その一つの大きな理由は、人間・企業の行動についてなんらかの想定を置く必要が
    でてくるからだと思います。

    経済政策、例えば、発泡酒の増税がどういう効果を持つのか
    ということを分析しようとしたとき、これを手っ取り早くやる方法として、
    増税しても消費者の行動はなんにも変わらない、
    つまり今まで通り購入しつづけると想定するというやり方があると思います
    (実際、これに近い想定で政策の効果を分析することはまあよくあるんじゃないかと
    思います)。

    でも、(例えば) 増税がおこなわれたときには、多かれ少かれ消費者は行動を変えるのが
    普通でしょうから、消費者の行動が変わらないという想定を置いた分析は
    不完全なものでしかないでしょう。

    それで、この「消費者がどう反応するか」というところまでも考慮しよう
    ということになるのですが、それをするには、消費者が何を目的として
    どう行動しているのかということを考慮する必要がでてきます。

    それで、ゲーム理論はこの部分に応用されることが多いわけでゴンス
    (まあ、消費者の行動についてはゲームが応用される前から考えられてたけど、
    ゲーム理論によって進歩したってことで許すべし)。

    ここでは消費者の行動をモデル化するという例を使ったんですが、
    これは他の場合でも同じで、投資家であれ企業であれ、
    なんらかの意思を持って自律的に行動している主体が存在するような経済において、
    政策がどういう効果を持つかを考えるときには、
    それらの主体が政策に対しどう反応するかを考慮する、
    つまりそれらの主体の行動をモデル化するということが必要になると思います。

    もちろん、経済主体の行動について想定を置いて分析を進めるのではなく、
    その主体が「何を目的にとして、どう行動しているのか」ということ自体を
    明らかにすることを重視する人もいるかもしれませんです。
    が、経済学の場合は、結局のところ、政策がどういう効果を持つか、
    どういう政策が望ましいかを明らかにすることが最終的な目的としてあって、
    消費者、企業が何を目的にどう行動するかを明らかにすることは、
    そのために必要な作業にすぎないと言えると思います (たぶんよ)。

    まあ、そんなこんなで今じゃあ経済学ではゲーム理論の概念が
    どこの分野でも使われるようになっちまってるのですが、
    かといって現在使われているようなモデルがほんとに
    現実の人間、企業の行動を上手く捉えられているかと言うと....
    ??? (あと百個続く)

    まあ、問題があるからといってゲーム理論使わないで、
    もっとましな分析できるわけでもないし。

    囚人のジレンマと全然話が繋がらなくてスマソ。

    とりあえず、次は鳥じゃなくて人間での実験であることを期待してねる。
  • 私もよく判らないのでリンクだけ。

    Scienceのアブストラクト [sciencemag.org](要無料登録)とフルテキスト [sciencemag.org](要有料登録)。
    Abstract Club [ricoh.co.jp]によるアブストラクト日本語訳 [ricoh.co.jp]。
    論文著者のサイト [umn.edu]と著者が勝手に公開している展望記事のPDF [umn.edu]。(いいのかなぁ?)

    あとは識者にお任せします。
  • ジレンマー (スコア:2, すばらしい洞察)

    by Rifleman22 (13418) on 2003年02月07日 19時51分 (#253621)
    えーと何か間違ってるかもしれませんが

    もともとのジレンマでは相手の行動が分からないというのが
    キモであって、相手が自白しても黙秘しても、自分は自白した
    方が刑が軽い。だから「正解」は自白のはず。
    でも相手も同じように考えて自白した場合、双方黙秘した場合
    より刑が重い。さあどうしよう。

    という話だったような。
    この実験については、「協調が有利」である評価基準を作為的に
    設定してそこに生物を放り込めば、あるレベルの学習能力を
    備えた生物は協調しますよと、それだけの話じゃないのかと思います。

  • 元ネタの囚人のジレンマについてですが。
    「囚人のジレンマ自体は、実はウソで、初期条件の与え方で、いくらでも結果が変わる。協調型が生き残ったり、裏切り型が生き残ったりする」
    というハナシをどっかで見たことがあるのですが、ソレは一般的ではないハナシになっているのでしょうか?
    何分伝聞ですので真偽のほどは不明です(^^;

    --
    -----------------
    #そんなワタシはOS/2ユーザー:-)
    • by y_tambe (8218) on 2003年02月06日 21時35分 (#252852) ホームページ 日記
      シミュレーションではそうだと思います。

      でも進化的にどうこう言う場合には、とりあえず「どういう初期条件でもいいから『協調型が生き残るモデルが出来る』ということ」そのものが重要なのかもしれない

      もしも他に、生物の協調行動が生まれたことを合理的に説明できる考え方がないならば、なんだけど。
      親コメント
    • by yashichi (10118) on 2003年02月07日 2時47分 (#253124)
      囚人のジレンマというのは率直に言ってしまえばクレタ人のパラドクスなどと同様、
      合理的な解が存在しない論理体系が持つ非決定性を孕んだ問題であって
      それ以上でもそれ以下でもありません。
      # 鏡に映る自分に向かって「お前は嘘つきだ」と言ってみても、
      # 自分が嘘つきか否か、合理的には、いや合理的であるが故に解は得られません。
      # 解のないゲームに対して解がないと嘆くのはなんと非合理的なことか(笑)。

      つまり初期条件の与え方で結果が変わるという表現は適切ではありません。
      # 初期条件を変えるということは囚人のジレンマゲームの枠から抜け出ることです。
      また『協調型あるいは裏切り型が生き残る』という表現も多分にナイーブであって
      ルールが変われば結果が変わるということに過ぎません。
      協調(に見える)行動を発生させるルールはいくらでも考えることができます。
      この種の問題は『知性とは何か』という点が核心に来るような気がするのですが・・・
      なかなか踏み込みにくい領域ですね。

      親コメント
    • BIT 増刊か何だかの"ゲームプログラミング" に、
      囚人のジレンマの話題がありました。
      学生にいろいろなパターンの戦略をプログラムさせて戦わせてみると、
      条件によって成功する戦略が変わる、というものだったと思います。
      正確なリソースは失念してしまいました。
      まあ、一例として。
      親コメント
      • by teltel (1423) on 2003年02月07日 0時18分 (#253023) 日記
        自分で補足。
        くだんの本は、
        bit 別冊 ゲームプログラミング 共立出版 1997
        の中の星野力 [accsnet.ne.jp] 氏の章でした。
        専門家でもないので要約できませんが、ひとつだけ、
        しっぺ返し戦略(TfT) が強いというのは、どうやら

        ロバート アクセルロッド(Robert Axelrod)
        つきあい方の科学―バクテリアから国際関係まで
        ミネルヴァ書房

        が原典のようです。
        親コメント
    • 人間でも協調的な方が生き残らない場合も往々にしてありますし、初期条件次第なのはおそらく事実でしょう(笑)
      (実は結構、独善的な人間の方が生き残る場合も珍しくなかったりする)
      親コメント
    • あまりルールを理解しないで書いてますが、
      初期条件も結果に影響を与えるでしょうし、
      環境や終了条件も影響があるんではないかと。

       狭い箱に寿命が100日の生物を多数閉じ込めて、
       あと1日で死亡する程度に飢えた状態で開始。
       一粒で30日間生存できる餌を4粒放り込む。
       30分時点での生存者や一番長く生きた者が勝者なら、強調するのが一番お買い得で、
       30日時点での生存者が勝者なら、協調する意味があるかもしれない、
       100日時点での生存者が勝者なら、裏切らないと意味がない。

      なんてなるような気がするんだけど。
      どうなんでしょう?

      生き物は時間の呪縛からはなれられないしなあ。と。
      多少老化の進む自分をみて、思ったり思わなかったり。

      これって、
      全然ジレンマなんかじゃないなあ、と思ったりする。

      全ての人が同じ条件で生まれて、
      ルールが明文化されてて、
      時間がながれないものだったら、
      こういう状態をジレンマ、と呼ぶかもしれないけどさあ。

      #まとまってないなあ...
      --
      -- LightSpeed-J
      親コメント
      • by Anonymous Coward on 2003年02月07日 0時57分 (#253056)
        >あまりルールを理解しないで書いてますが、

        とりあえずルールを理解してください。
        ここ [u-ryukyu.ac.jp]とか。
        あなたが挙げられたのは囚人のジレンマとは別の話です。
        親コメント
    • by Anonymous Coward on 2003年02月07日 0時07分 (#253011)
      初期条件というか、利得行列ですね。
      各プレイヤーの戦略の結果得られる利得をちょっと
      組み替えるだけで結果が変わります。
      よく例に挙げられる囚人のジレンマでは、

      両方とも自白 → 懲役 10 年
      一方黙秘、他方自白 → 自白した方は司法取引と言うことで釈放、
                 黙秘した方は無期懲役。
      両方とも黙秘 → 懲役 20 年

      といったような結果を与えます。このとき、相手が黙っていて
      こっちが自白すれば一番得なのですが、相手も同じことを考える
      だろうと考えると証言せざるを得なくなります。よって、
      このゲームの最適解は「両者とも証言する」になります。
      しかし、例えば両方黙秘した場合に、証拠不十分で釈放とすると、
      自白するインセンティブが全くなくなるので最適解は両者黙秘に
      なります。つまり、与える刑罰 (= 利得行列) 次第でゲームの最適解は
      いくらでも変わるし、変えられるというわけです。

      # 適当にゲーム理論を勉強して卒論を書いてドツボにはまる
      # 学生なんてのもいるわけですな。
      親コメント
      • by Anonymous Coward on 2003年02月07日 0時50分 (#253053)
        >両方とも自白 → 懲役 10 年
        >一方黙秘、他方自白 → 自白した方は司法取引と言うことで釈放、
        >           黙秘した方は無期懲役。
        >両方とも黙秘 → 懲役 20 年

        こういうのを囚人のジレンマとは呼ばないでしょう。
        よく例に挙げられているなんてウソだと思うなあ。

        利得を
          両方とも自白 → R
          一方黙秘、他方自白 → 自白T, 黙秘S
          両方とも黙秘 → P
        としたときに
        T>R>P>S, R > (T + S)/2
        を満たすのが囚人のジレンマです。
        親コメント
        • by angela (12919) on 2003年02月07日 10時22分 (#253232)
          > T>R>P>S, R > (T + S)/2
          これって正しいのですか?T>P>R>Sという記憶。
          自白したほうがどう見ても得だと思うのですが。
          親コメントのを例にとると、両方黙秘=5年 にすればいいのではと思います。
          親コメント
          • by joshkata (4660) on 2003年02月07日 10時46分 (#253241)
            これって正しいのですか?T>P>R>Sという記憶。
            angela氏の言う通りですよね。T>R>P>Sではジレンマにならない。

            T>P>R>Sだと、

            • 双方とも黙秘すれば、双方とも自白するよりも利得が高い。
            • だからと言って黙秘して、相手に裏切られると利得が最低になる。
            • だからと言って双方裏切ると、双方黙秘より利得が低い。
            という状況になるので、ジレンマになると。

            親コメント
    • by Anonymous Coward
      そもそもゲーム理論というのは80年代初頭に流行した 数理生物学だか、行動学だかで発展したもので、 生き物の生態を、行動学的側面と数値シミュレーションで解析 してモデル化しようと言う試みだったと思います。 何もかもゲーム理論で説明してしまう乱暴さには負
      • ひどい誤解 (スコア:2, 参考になる)

        by cameria (2771) on 2003年02月07日 15時34分 (#253402)
        あまりにも初歩的な誤解がありますので,指摘しておきます。

        ゲーム理論は,数学者フォン・ノイマン(現在主流のノイマン型コンピュータの発明者)が理論化した数理モデルで,1944年に,ノイマンと経済学者モルゲンシュテルンの共著「ゲームの理論と経済行動」によって一般に知られるようになりました。その後,経済学を中心に応用されるようになっています。

        ゲーム理論は,”80年代初頭に流行した 数理生物学だか、行動学だかで発展したもの”ではなく,元々は,一般に利害の必ずしも一致しない状況における合理的意志決定や合理的配分方法とは何か,ということについて考えるための数学理論です。

        経済学では,映画「ブーティフル・マインド」の主人公として描かれた数学者ジョン・ナッシュが20才の時に編み出した「ナッシュの均衡」が有名で,その後の資本主義経済学理論の根幹を成しています。ナッシュは他2名の経済学者と共に,1994年にノーベル経済学賞を受賞しています。

        ゲーム理論で有名なタカ派・ハト派理論などは,イギリスの生態学者メイナードスミス(元航空力学屋さん)によって進化生態学に幅広く取り入れられ,ESS(進化的に安定な戦略)理論として行動生態学で有名になり,生物屋の間では,「ゲーム理論=数理生態学」というちょっとした誤解も生じるようになりました。上記の誤解はそのような日本における特殊状況に拠って生じたものと思われます。

        ゲーム理論が,進化生態学で何故もてはやされたか,ですが,(1)それまでうまく説明できなかった非血縁者間の利他的行動の進化をうまく説明できようになった(特殊解:血縁者間の利他的行動の進化は1964年にハミルトンによって証明されていました),(2)生物個体群に複数の行動型が存在する集団が安定な場合が多い(超人ばかりの集団は却って不安定),などなどの各種の面白い現象が導き出せるようになったからです。

        経済学でも,さなざまな取引動機を持ったタイプ(型)の参加者の存在が為替市場の安定に不可欠とされていますね。

        ”裏切りと協調”のジレンマで有名になった,ミシガン大学のロバート・アクセルロッドの著書は翻訳もされていて面白く,一読をお勧めします。
        --
        Cameria
        親コメント
      • by Anonymous Coward on 2003年02月06日 23時29分 (#252964)
         もともとはフォン・ノイマンと経済学者のモルゲンシュテルンが始めたのでは?で、主に経済方面で発展してきたのでは?もともとは、人々の経済行動を解き明かそうとしたのが始まりなわけで、そういう意味ではゲーム理論てのは、最初にモデルありきではないのです。
         なんでもゲーム理論で説明してしまった経済学書としては、ミクロ経済学戦略的アプローチ(通称ミク戦)という本があります。まあ入門書ですけど。この本を読むと、何もかもゲーム理論で説明するということは、物事を別の面から見るということなのだと思います。乱暴とは言い難いのではないかなあ。
         モデルというのは、複雑であろうが単純であろうが、多分に数理的なものです。モデルなくして仮説なし、仮説なくしてモデルなし。数学的だからダメってのは、モデルというものそのものを否定しているようなものですよ。
        親コメント
        • ジョン・メイナード・スミス『進化とゲーム理論 闘争の論理』(産業図書)ISBN:4-7828-1501-8

          ゲーム理論と進化論とくれば、まずはこのへんが有名でしょう。
          『利己的遺伝子』あたりでもさんざ参照されてたはずです。

          ジョン・メイナード・スミスで検索なさってみるといろいろ
          出てくるみたいです。一度お試しを。

          簡便な入門書としては
          『数学でみた生命と進化 生き残りゲームの勝者たち』(ブルーバックス)
          あたりがいいかもしれません。
          --

          世界人類が平和ボケでありますように
          親コメント
        • 確か冷戦の影響で予算がついて研究が盛んになったと記憶しています。ゲーム理論(囚人のジレンマ)は核のボタンを持ったもの同士の心理戦をシュミレートするにはうってつけでしたからね。フォンノイマンも相当没頭したらしい。まあフォンノ
  • 昔ブルーバックスの、ゲーム理論入門だっけ?
    そんな本でジレンマの事を初めて知りました、
    裏切るのは駄目だと、ピュアな心に響いたものですw(変な本で感動したもんだ
    --
    <ナイスな返事をいただいた方を、スラドモに指定する方針でいこうかと…恐縮ですが>
  • by Ryo.F (3896) on 2003年02月07日 15時38分 (#253405) 日記
    これは進化とか、生命史上実際に起こったということではないんだけれど、社会科学的には、自然状態から自然法に基づく協調に至る過程として説明されます。自然状態とは、すべての個人は自己保存、のみならず自己の欲求、意志のままに自由に振る舞う「自然権」を平等に持つが、その「自然権」に基づいて全員が自由に振る舞うならば、結果的には、相互の利害が衝突しあい、各個人の欲求の充足どころか生存さえも危うくなりうる状態のことを言います。つまり、協調の欠片も無い状態ですね。
    しかし、これでは自分がいつ殺されるか判らないので、互いの自由な行動の範囲を限定し合うという「自然法」が理性的な推論によって構想されます。しかし、自然法は、自然法に合意するものが十分多くないと機能しません。つまり、裏切り者がいれば、うまく行かない。これは囚人のジレンマと同じ、というわけですね。
    ホッブズ的には、この後、自然法を強制する国家の存在が... と続くのですが、おふとぴということで。
    • by G7 (3009) on 2003年02月08日 12時33分 (#254130)
      >結果的には、相互の利害が衝突

      士郎正宗氏の言葉(笑)を信じるならば、ネットだと「複数の覇者が同時に存在」出来るんでしたよね。
      すると、利益を求めまくっても利害は衝突しにくいわけで、囚人システムの機能の仕方は少なからず違ってきそう。

      #ネットに法律が要るとしても、それがオフラインのと何から何まで同じであるべきとは思えないんで、G7

      ところで逆にいえば、わざわざネットでオフラインの状況(覇者が1人しか居ないってことか?)をシミュレートする
      ってのは、なんだか勿体無いと思うし、同じ法を適用したいがためにオフラインをシミュレートするのは
      もっと不毛だし…
      親コメント
      • by Ryo.F (3896) on 2003年02月08日 21時41分 (#254407) 日記
        > >結果的には、相互の利害が衝突
        > 士郎正宗氏の言葉(笑)を信じるならば、ネットだと「複数の覇者
        > が同時に存在」出来るんでしたよね。

        士郎正宗氏が何を言ったかは知りませんが、ホッブズも複数の覇者の存在を否定してはいませんよ。
        むしろ、地理的制約を受けにくいネット上の方が覇者の淘汰が進んで、覇権の寡占が進みそうな気がします。
        親コメント
  • by Anonymous Coward on 2003年02月06日 20時51分 (#252821)
    とっても身近な話題に変化するのでは?

    # 下方向へ拡散させるためなのでAC
  • by Anonymous Coward on 2003年02月07日 13時22分 (#253352)
    行動生態学は専門外なのでよくわからんな…。
    とりあえず論文の説明だけでは妥当か否か判断するのに私には十分でないようで。

    『動物の社会―社会生物学・行動生態学入門』 [amazon.co.jp]伊藤嘉昭
    東海大学出版

    『行動生態学入門』 [amazon.co.jp]粕谷英一
    東海大学出版


    『進化とゲーム理論』
    [amazon.co.jp]J. メイナード-スミス
    産業図書

    にしても今西錦司がみたら喜びそうな内容だなぁ。
    っつってもこれは行動の進化の話であって形態や遺伝子の進化・種分化の話じゃないんだけれども。

    私的には、それが遺伝子進化、種分化にはどう影響するのかが知りたいですね。
typodupeerror

犯人は巨人ファンでA型で眼鏡をかけている -- あるハッカー

読み込み中...