アカウント名:
パスワード:
AlphaGO→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。AI「俺の経験だと、この手が一番強い」
囲碁のルールを実装していなかったら、ルール違反の手を置いてしまうのでは。
ルール違反の手は即座に負けと判定されて、それを学習するので、実戦ではそういう手はもう打たなくなるだけかと。
AlphaGoはコードだけでは成り立たたず、学習データとセットで評価すべきでしょうから、いわば「コードとしてはルールは記述していないけど、データとしてルールを読み込んでいる」状態といえるでしょう。そういうものを「ルールは実装していない」って言うのは極論じゃね、って話は以前にも書きました [srad.jp]
ルール違反の手を選択肢から最初に除外した方が効率的でしょ。
学習のときは効率的(かどうかわからないけど)でも,対局のときはそうとは限らないんじゃないかな.一手打つごとに,違反の手を除外する複数の規則 (if-then)を処理するより,評価値の一番高い手を選ぶだけですむから.対局のときは時間勝負だし.
評価値の高い物から順にルール違反かどうかを判定していって、違反じゃ無いやつに当たったらそれを指す、でローコストに実装出来そうな気がしたけど、そのやり方だと、評価値の高い物からずらっと、「最強の反則手」が候補として並んじゃうか(笑)。もし打てたら強すぎるとか、千日手で永遠に負けなくなるから反則になってるんだし。
実際に打てない手ばっかり出てくるようじゃ、効率良く探索できるはずもないから、候補の探索に反則避けを組み込むのは必須か。
ああ,これ理解してもらえないパターンだ.
実際に打てない手に即時報酬として負の無限大を与えれば,その手の評価値は必然的に小さくなるから,候補に挙がってこない.それがおおもとのコメントの「ルール違反の手は即座に負け」の意味するところではないかと.なので,探索に反則負けを組み込む必要はありません.
いえ、「反則避け」と書きました。表現が紛らわしかったですが、避ける具体的な方法はそんな感じかなと。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
※ただしPHPを除く -- あるAdmin
AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
AI「俺の経験だと、この手が一番強い」
Re: (スコア:2)
囲碁のルールを実装していなかったら、ルール違反の手を置いてしまうのでは。
Re: (スコア:1)
ルール違反の手は即座に負けと判定されて、それを学習するので、実戦ではそういう手はもう打たなくなるだけかと。
AlphaGoはコードだけでは成り立たたず、学習データとセットで評価すべきでしょうから、いわば「コードとしてはルールは記述していないけど、データとしてルールを読み込んでいる」状態といえるでしょう。
そういうものを「ルールは実装していない」って言うのは極論じゃね、って話は以前にも書きました [srad.jp]
Re: (スコア:0)
ルール違反の手を選択肢から最初に除外した方が効率的でしょ。
Re: (スコア:0)
ルール違反の手を選択肢から最初に除外した方が効率的でしょ。
学習のときは効率的(かどうかわからないけど)でも,対局のときはそうとは限らないんじゃないかな.
一手打つごとに,違反の手を除外する複数の規則 (if-then)を処理するより,
評価値の一番高い手を選ぶだけですむから.
対局のときは時間勝負だし.
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
評価値の高い物から順にルール違反かどうかを判定していって、違反じゃ無いやつに当たったらそれを指す、
でローコストに実装出来そうな気がしたけど、そのやり方だと、評価値の高い物からずらっと、
「最強の反則手」が候補として並んじゃうか(笑)。もし打てたら強すぎるとか、千日手で永遠に負けなくなるから反則になってるんだし。
実際に打てない手ばっかり出てくるようじゃ、効率良く探索できるはずもないから、候補の探索に反則避けを組み込むのは必須か。
Re: (スコア:0)
ああ,これ理解してもらえないパターンだ.
実際に打てない手ばっかり出てくるようじゃ、効率良く探索できるはずもないから、候補の探索に反則避けを組み込むのは必須か。
実際に打てない手に即時報酬として負の無限大を与えれば,その手の評価値は必然的に小さくなるから,候補に挙がってこない.
それがおおもとのコメントの「ルール違反の手は即座に負け」の意味するところではないかと.
なので,探索に反則負けを組み込む必要はありません.
Re: (スコア:0)
いえ、「反則避け」と書きました。表現が紛らわしかったですが、避ける具体的な方法はそんな感じかなと。