アカウント名:
パスワード:
AlphaGO→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。AI「俺の経験だと、この手が一番強い」
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
これは明らかな間違いです. 元記事 [itmedia.co.jp]に,
AlphaGo Zeroはそういったプロセスは経ずに、試行錯誤することで学ぶ「強化学習」の手法を取りました。
とあります.盤面(状態)における指手(行動)に対する評価値(報酬)が与えられる強化学習と,データだけが与えられる教師なし学習は,根本的に違います.
また教師なし学習は,教師あり学習,強化学習などと同じ機械学習の枠組の一つであり,
強化学習だけでしたらAlphaGO無印も自己対戦による強化学習を数千万回行ってます。その前に棋譜よる初期学習を必要としたAlphaGo無印と、それが不要になった今回のZeroという話なんですが、どこが明らかな間違いなのでしょう。
あとは…目指す目標が教師なし学習のAIというのは事実を言ってるわけでも無くこれが一般認識だと宣言しているわけでもなく、単純に個人の意見として言ってるんですがAIが目指す目標はそれとは違うというのなら、そちらの意見を上げるべきでしょう。
教師なし学習 [wikipedia.org]はデータだけが与えられます. 強化学習 [wikipedia.org]は,状態(盤面)と行動(指手)の組に対して,報酬が与えられ,遷移する状態に対して行動を繰り返し選ぶことで,報酬の(割引)和を最大化します.報酬という付加情報が与えられること,状態,行動,報酬を繰り返し処理することなどの点で,教師なし学習の枠組とは明らかに異なります.
棋譜が与えられなくても,強化学習をしているのなら,教師なし学習とは言
AlphaGO無印は学習の初期段階で棋譜を使っていました。これは教師あり学習で間違い無いですか?
それに対して今回のZeroは初期段階でも棋譜を使いませんでした。
ただ、無印は棋譜で学習した後で、Zeroはいきなり最初から、自己対戦を繰り返して学習していますが、これは教師あり/なしとかは関係なく強化学習ですよね?
そちらの認識だと強化学習をしているなら教師あり学習だということですが?
よくわからないのですが,このコメントが「Alpha Go Zero は教師なし学習」という間違いとどのように関係しているのか,わかるように説明していただけませんか?
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
ソースを見ろ -- ある4桁UID
AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
AI「俺の経験だと、この手が一番強い」
Re: (スコア:0)
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
これは明らかな間違いです.
元記事 [itmedia.co.jp]に,
AlphaGo Zeroはそういったプロセスは経ずに、試行錯誤することで学ぶ「強化学習」の手法を取りました。
とあります.
盤面(状態)における指手(行動)に対する評価値(報酬)が与えられる強化学習と,
データだけが与えられる教師なし学習は,根本的に違います.
また教師なし学習は,教師あり学習,強化学習などと同じ機械学習の枠組の一つであり,
Re: (スコア:0)
強化学習だけでしたらAlphaGO無印も自己対戦による強化学習を数千万回行ってます。
その前に棋譜よる初期学習を必要としたAlphaGo無印と、それが不要になった今回のZero
という話なんですが、どこが明らかな間違いなのでしょう。
あとは…目指す目標が教師なし学習のAIというのは事実を言ってるわけでも無く
これが一般認識だと宣言しているわけでもなく、単純に個人の意見として言ってるんですが
AIが目指す目標はそれとは違うというのなら、そちらの意見を上げるべきでしょう。
Re: (スコア:0)
教師なし学習 [wikipedia.org]はデータだけが与えられます.
強化学習 [wikipedia.org]は,状態(盤面)と行動(指手)の組に対して,報酬が与えられ,
遷移する状態に対して行動を繰り返し選ぶことで,報酬の(割引)和を最大化します.
報酬という付加情報が与えられること,状態,行動,報酬を繰り返し処理することなどの点で,
教師なし学習の枠組とは明らかに異なります.
棋譜が与えられなくても,強化学習をしているのなら,教師なし学習とは言
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
AlphaGO無印は学習の初期段階で棋譜を使っていました。これは教師あり学習で
間違い無いですか?
それに対して今回のZeroは初期段階でも棋譜を使いませんでした。
ただ、無印は棋譜で学習した後で、Zeroはいきなり最初から、
自己対戦を繰り返して学習していますが、これは教師あり/なしとかは関係なく
強化学習ですよね?
そちらの認識だと強化学習をしているなら教師あり学習だということですが?
Re: (スコア:0)
よくわからないのですが,このコメントが「Alpha Go Zero は教師なし学習」という間違いとどのように関係しているのか,わかるように説明していただけませんか?