アカウント名:
パスワード:
この手のソフトは用意したデータセットによって学習結果が大きく変わる。データセットを変えて学習しなおしたら、身体は一緒だけど中身が違う、ヒトで例えれば双子の片割れのようなものになる。おそらくはAplhaGoも学習リセットのようなことはしてるだろう。
つまり「AlphaGoのレーティング」算出に用いたデータは大勢いるAlphaGo双生児vs棋士の勝負データなのかなと思う。AlphaGoのレーティングを決めるというのは人類のレーティングを決めるのに等しい行為なのかなw
AlphaGOって最初は棋譜を学習してある程度良い手を打てるようになったら自己対戦による強化学習してる(前回では500万回ww)から、与えた教材が~というよりも前回負けた原因でもあるモンテカルロ木探索のパラメーターを修正して再度強化学習したんだろうなーと。
前回のタレコミでAlphaGOには囲碁のルールが実装されてないって言ったらフルボッコになったなー自己学習における勝敗判定の先生にはもちろんルールが仕込まれてるけど、AlphaGo自身には囲碁のルールなんて実装されてないって、もう一度ここで大声で言っておこう
ルール実装しなかったら、最終的に出力された手が反則手でないことを100%保証できないと思うんだけどそれは問題ないの?
勝敗を判定する「先生」はルールはもちろん勝敗の基準も含めて実装してるけど、
勝つための手を探索するときに囲碁のルールは使わない、という言い方のほうが合ってるかなorz
ルール違反の手は、学習の過程で負けと判定され、評価値最低の盤面と記録されているから、そのような手は出てこない、という状況でしょう。「探索処理を単純化するために、探索処理にルールを入れずに、データの方にルールを盛り込んでおく」という手法は、いわゆる 「番兵法」 [wikipedia.org]
確かに…食わせるものに最初から毒が入って無いって判ってるなら毒見役はいらんもんなあ(たとえ下手 _(:3 」∠)_
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
人生unstable -- あるハッカー
「AlphaGo」って何だろう (スコア:0)
この手のソフトは用意したデータセットによって学習結果が大きく変わる。
データセットを変えて学習しなおしたら、身体は一緒だけど中身が違う、ヒトで例えれば双子の片割れのようなものになる。おそらくはAplhaGoも学習リセットのようなことはしてるだろう。
つまり「AlphaGoのレーティング」算出に用いたデータは大勢いるAlphaGo双生児vs棋士の勝負データなのかなと思う。AlphaGoのレーティングを決めるというのは人類のレーティングを決めるのに等しい行為なのかなw
Re: (スコア:2)
AlphaGOって最初は棋譜を学習してある程度良い手を打てるようになったら
自己対戦による強化学習してる(前回では500万回ww)から、与えた教材が~
というよりも前回負けた原因でもあるモンテカルロ木探索のパラメーターを
修正して再度強化学習したんだろうなーと。
前回のタレコミでAlphaGOには囲碁のルールが実装されてないって言ったら
フルボッコになったなー
自己学習における勝敗判定の先生にはもちろんルールが仕込まれてるけど、
AlphaGo自身には囲碁のルールなんて実装されてないって、もう一度ここで
大声で言っておこう
Re: (スコア:0)
ルール実装しなかったら、最終的に出力された手が反則手でないことを100%保証できないと思うんだけど
それは問題ないの?
Re: (スコア:1)
勝敗を判定する「先生」はルールはもちろん勝敗の基準も含めて実装してるけど、
勝つための手を探索するときに囲碁のルールは使わない、という言い方のほうが合ってるかなorz
Re: (スコア:3, 参考になる)
ルール違反の手は、学習の過程で負けと判定され、評価値最低の盤面と記録されているから、そのような手は出てこない、という状況でしょう。「探索処理を単純化するために、探索処理にルールを入れずに、データの方にルールを盛り込んでおく」という手法は、いわゆる 「番兵法」 [wikipedia.org]
Re:「AlphaGo」って何だろう (スコア:1)
確かに…食わせるものに最初から毒が入って無いって判ってるなら
毒見役はいらんもんなあ(たとえ下手 _(:3 」∠)_