アカウント名:
パスワード:
この手のソフトは用意したデータセットによって学習結果が大きく変わる。データセットを変えて学習しなおしたら、身体は一緒だけど中身が違う、ヒトで例えれば双子の片割れのようなものになる。おそらくはAplhaGoも学習リセットのようなことはしてるだろう。
つまり「AlphaGoのレーティング」算出に用いたデータは大勢いるAlphaGo双生児vs棋士の勝負データなのかなと思う。AlphaGoのレーティングを決めるというのは人類のレーティングを決めるのに等しい行為なのかなw
AlphaGOって最初は棋譜を学習してある程度良い手を打てるようになったら自己対戦による強化学習してる(前回では500万回ww)から、与えた教材が~というよりも前回負けた原因でもあるモンテカルロ木探索のパラメーターを修正して再度強化学習したんだろうなーと。
前回のタレコミでAlphaGOには囲碁のルールが実装されてないって言ったらフルボッコになったなー自己学習における勝敗判定の先生にはもちろんルールが仕込まれてるけど、AlphaGo自身には囲碁のルールなんて実装されてないって、もう一度ここで大声で言っておこう
ゼビウスでおなじみの遠藤雅伸さんによるモンテカルロ木探索の解説http://ameblo.jp/evezoo/entry-10175289834.html [ameblo.jp]
これを囲碁に適用しようとしたのはAlphaGOが最初というわけじゃない「コンピュータ囲碁におけるモンテカルロ法~理論編~」 [uec.ac.jp] (pdf注意)
ずばりAlphaGoの解説「囲碁AI “AlphaGo” はなぜ強いのか?~ディープラーニング、モンテカルロ木探索、強化学習~」 [itscom.net] (pdf注意)
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
クラックを法規制強化で止められると思ってる奴は頭がおかしい -- あるアレゲ人
「AlphaGo」って何だろう (スコア:0)
この手のソフトは用意したデータセットによって学習結果が大きく変わる。
データセットを変えて学習しなおしたら、身体は一緒だけど中身が違う、ヒトで例えれば双子の片割れのようなものになる。おそらくはAplhaGoも学習リセットのようなことはしてるだろう。
つまり「AlphaGoのレーティング」算出に用いたデータは大勢いるAlphaGo双生児vs棋士の勝負データなのかなと思う。AlphaGoのレーティングを決めるというのは人類のレーティングを決めるのに等しい行為なのかなw
Re: (スコア:2)
AlphaGOって最初は棋譜を学習してある程度良い手を打てるようになったら
自己対戦による強化学習してる(前回では500万回ww)から、与えた教材が~
というよりも前回負けた原因でもあるモンテカルロ木探索のパラメーターを
修正して再度強化学習したんだろうなーと。
前回のタレコミでAlphaGOには囲碁のルールが実装されてないって言ったら
フルボッコになったなー
自己学習における勝敗判定の先生にはもちろんルールが仕込まれてるけど、
AlphaGo自身には囲碁のルールなんて実装されてないって、もう一度ここで
大声で言っておこう
Re: (スコア:0)
ルールが実装されてるといっても過言ではないんじゃない?
あと、将棋の詰将棋アルゴリズム的なものは入ってないのかな?
Re:「AlphaGo」って何だろう (スコア:1)
ゼビウスでおなじみの遠藤雅伸さんによるモンテカルロ木探索の解説
http://ameblo.jp/evezoo/entry-10175289834.html [ameblo.jp]
これを囲碁に適用しようとしたのはAlphaGOが最初というわけじゃない
「コンピュータ囲碁におけるモンテカルロ法~理論編~」 [uec.ac.jp] (pdf注意)
ずばりAlphaGoの解説
「囲碁AI “AlphaGo” はなぜ強いのか?~ディープラーニング、モンテカルロ木探索、強化学習~」 [itscom.net] (pdf注意)