パスワードを忘れた? アカウント作成

新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得」記事へのコメント

  • AlphaGO
    →囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
    強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
    AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」

    AlphaGO Zero
    →囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
    自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
    AI「俺の経験だと、この手が一番強い」

    • 囲碁のルールを実装していなかったら、ルール違反の手を置いてしまうのでは。

      • ルール違反の手は即座に負けと判定されて、それを学習するので、実戦ではそういう手はもう打たなくなるだけかと。

        AlphaGoはコードだけでは成り立たたず、学習データとセットで評価すべきでしょうから、いわば「コードとしてはルールは記述していないけど、データとしてルールを読み込んでいる」状態といえるでしょう。
        そういうものを「ルールは実装していない」って言うのは極論じゃね、って話は以前にも書きました [srad.jp]

        • by Anonymous Coward

          ルール違反の手を選択肢から最初に除外した方が効率的でしょ。

          • 「ニューラルネットを使う」場合には、「ルール違反の手を選択肢から最初に除外」するのは難しいでしょう。
            「今までにそのものずばりの盤面は遭遇したことないないけど、似た盤面では学習済み」な場合にでも答えを出せるのがニューラルネットの特徴なわけで、どんな状況でも「出力意味割り当てが同じ」にしないといけません。

            盤面の状況に応じて、それぞれの盤面で打てる選択肢だけを出力させるとなると、
            ある盤面ではニューラル出力の1番は1の二、2番は3の四、3番は3の六、…に対応させ
            別の盤面ではニューラル出力の1番は3の四、2番は3の六、3番は4の一、…に対応させる
            みたいなことになって、まともにニューラルネットで学習させることができません。

            そうではなく、盤面状況とは無関係に、どんな盤面でも共通して
            ニューラル出力の1番は1の1、2番は1の二、3番は1の三、…に対応
            させるしかないでしょう。

            で、こういう出力割り当てだと、普通の細かいルール違反どころか、「既に石があるところに打つ」ことすらニューラルネットの出力選択肢としてはありえる、ということになります。
            ニューラルネット使う以上は「打てない手を打とうとしたら、即座にマイナスの評価を与えて学習させる」しかない、ってことです。

「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常

処理中...