アカウント名:
パスワード:
AlphaGO→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。AI「俺の経験だと、この手が一番強い」
「教師なし学習」はクラスタリング問題のための学習ですよね.動的計画法をベースとする狭義の強化学習は,何と呼ぶんでしょう?報酬あり学習?
元コメントの教師なし学習は間違いです.それに近い意味合いで,動的計画法により近似でなく厳密に解を求める狭義の強化学習なら,一般的ではありませんが,「マルコフ決定過程 [wikipedia.org]に基づく強化学習」と呼んで区別できるかもしれません.
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
弘法筆を選ばず、アレゲはキーボードを選ぶ -- アレゲ研究家
AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
AI「俺の経験だと、この手が一番強い」
Re: (スコア:0)
「教師なし学習」はクラスタリング問題のための学習ですよね.
動的計画法をベースとする狭義の強化学習は,何と呼ぶんでしょう?報酬あり学習?
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
「教師なし学習」はクラスタリング問題のための学習ですよね.
動的計画法をベースとする狭義の強化学習は,何と呼ぶんでしょう?報酬あり学習?
元コメントの教師なし学習は間違いです.
それに近い意味合いで,動的計画法により近似でなく厳密に解を求める狭義の強化学習なら,
一般的ではありませんが,「マルコフ決定過程 [wikipedia.org]に基づく強化学習」と呼んで区別できるかもしれません.