パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

囲碁世界レーティング1位の柯潔九段とAlphaGoが対局、第1局はAlphaGoが勝利」記事へのコメント

  • この手のソフトは用意したデータセットによって学習結果が大きく変わる。
    データセットを変えて学習しなおしたら、身体は一緒だけど中身が違う、ヒトで例えれば双子の片割れのようなものになる。おそらくはAplhaGoも学習リセットのようなことはしてるだろう。

    つまり「AlphaGoのレーティング」算出に用いたデータは大勢いるAlphaGo双生児vs棋士の勝負データなのかなと思う。AlphaGoのレーティングを決めるというのは人類のレーティングを決めるのに等しい行為なのかなw

    • AlphaGOって最初は棋譜を学習してある程度良い手を打てるようになったら
      自己対戦による強化学習してる(前回では500万回ww)から、与えた教材が~
      というよりも前回負けた原因でもあるモンテカルロ木探索のパラメーターを
      修正して再度強化学習したんだろうなーと。

      前回のタレコミでAlphaGOには囲碁のルールが実装されてないって言ったら
      フルボッコになったなー
      自己学習における勝敗判定の先生にはもちろんルールが仕込まれてるけど、
      AlphaGo自身には囲碁のルールなんて実装されてないって、もう一度ここで
      大声で言っておこう

      • by Anonymous Coward

        ルール実装しなかったら、最終的に出力された手が反則手でないことを100%保証できないと思うんだけど
        それは問題ないの?

        • 勝敗を判定する「先生」はルールはもちろん勝敗の基準も含めて実装してるけど、

          勝つための手を探索するときに囲碁のルールは使わない、という言い方のほうが合ってるかなorz

          • Re: (スコア:3, 参考になる)

            ルール違反の手は、学習の過程で負けと判定され、評価値最低の盤面と記録されているから、そのような手は出てこない、という状況でしょう。「探索処理を単純化するために、探索処理にルールを入れずに、データの方にルールを盛り込んでおく」という手法は、いわゆる 「番兵法」 [wikipedia.org]

人生unstable -- あるハッカー

処理中...