アカウント名:
パスワード:
AlphaGO→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。AI「俺の経験だと、この手が一番強い」
AlphaGO→囲碁のルールは実装していない。→ほかのコメントにもあるとおりウソひたすら勝てる手を効率よく捜すことに特化。→どんな学習プログラムもそうなので、ウソではないが無意味な文強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。→ウソ。ディープニューラルネットで人間の棋譜学習をしている。強化学習はその後の微調整に使っているが、最終的なプログラムでは捨てられている。AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」→もはや意味不明。
AlphaGO Zero→囲碁のルールを実装している。→当たり前。いわば「教師なし学習」で、AIが目指すひとつの目標。→教師無し学習の意味さえ理解していない典型的な人。ウソ。自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。→自己学習なんて学習法はない。ディープニューラルネットを自己対戦で学習させている。AI「俺の経験だと、この手が一番強い」→もはや例えの機能をはたしていない文
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね・・・
自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど・・・
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。-> 良し、一つ覚えたな。これからはウソ書くなよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。→そう。何億回学習しようとも微調整にすらならない場合もある。この場合もそう。これからはウソ書くなよ。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)→今日は、モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節
モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節点に持つ。ルールを知らなければ子節点を一つも作れない。
モンテカルロ木探索はゲーム木探索じゃないですよ。可能手を子節点にしているのは棋譜による初期学習の結果です。そこから先はランダムに選んだ手を最後勝敗がつくまでシミュレートします。
http://pug.raph.free.fr/files/PowerOfForgetting.pdf [raph.free.fr]
でも全ての手についてシミュレートするのは時間的に不可能ですし、より強い手を選び出すために何らかの方針が必要となってきます。そこに畳み込みニューラルネットワークをつかってより有望な手を絞り込んでるんですがどこが微調整なんでしょう?
そこから先はランダムに選んだ手を最後勝敗がつくまでシミュレートします。
その手はどこから見つけた?
モンテカルロ木探索はゲーム木探索じゃないですよ。
これはまたけったいな珍説を主張する人もいたものだ。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
あつくて寝られない時はhackしろ! 386BSD(98)はそうやってつくられましたよ? -- あるハッカー
AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
AI「俺の経験だと、この手が一番強い」
Re: (スコア:0)
AlphaGO
→囲碁のルールは実装していない。→ほかのコメントにもあるとおりウソ
ひたすら勝てる手を効率よく捜すことに特化。→どんな学習プログラムもそうなので、ウソではないが無意味な文
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。→ウソ。ディープニューラルネットで人間の棋譜学習をしている。強化学習はその後の微調整に使っているが、最終的なプログラムでは捨てられている。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」→もはや意味不明。
AlphaGO Zero
→囲碁のルールを実装している。→当たり前。
いわば「教師なし学習」で、AIが目指すひとつの目標。→教師無し学習の意味さえ理解していない典型的な人。ウソ。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。→自己学習なんて学習法はない。ディープニューラルネットを自己対戦で学習させている。
AI「俺の経験だと、この手が一番強い」→もはや例えの機能をはたしていない文
Re: (スコア:1)
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね・・・
自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど・・・
Re: (スコア:0)
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。-> 良し、一つ覚えたな。これからはウソ書くなよ。
数百万回におよぶ強化学習って微調整レベルのものだったんですか。→そう。何億回学習しようとも微調整にすらならない場合もある。この場合もそう。これからはウソ書くなよ。
こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
→今日は、モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節点に持つ。ルールを知らなければ子節点を一つも作れない。
モンテカルロ木探索はゲーム木探索じゃないですよ。
可能手を子節点にしているのは棋譜による初期学習の結果です。
そこから先はランダムに選んだ手を最後勝敗がつくまでシミュレートします。
http://pug.raph.free.fr/files/PowerOfForgetting.pdf [raph.free.fr]
でも全ての手についてシミュレートするのは時間的に不可能ですし、より強い手を
選び出すために何らかの方針が必要となってきます。
そこに畳み込みニューラルネットワークをつかってより有望な手を絞り込んでるんですが
どこが微調整なんでしょう?
Re: (スコア:0)
そこから先はランダムに選んだ手を最後勝敗がつくまでシミュレートします。
その手はどこから見つけた?
Re: (スコア:0)
これはまたけったいな珍説を主張する人もいたものだ。