アカウント名:
パスワード:
AlphaGO→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。AI「俺の経験だと、この手が一番強い」
AlphaGO→囲碁のルールは実装していない。→ほかのコメントにもあるとおりウソひたすら勝てる手を効率よく捜すことに特化。→どんな学習プログラムもそうなので、ウソではないが無意味な文強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。→ウソ。ディープニューラルネットで人間の棋譜学習をしている。強化学習はその後の微調整に使っているが、最終的なプログラムでは捨てられている。AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」→もはや意味不明。
AlphaGO Zero→囲碁のルールを実装している。→当たり前。いわば「教師なし学習」で、AIが目指すひとつの目標。→教師無し学習の意味さえ理解していない典型的な人。ウソ。自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。→自己学習なんて学習法はない。ディープニューラルネットを自己対戦で学習させている。AI「俺の経験だと、この手が一番強い」→もはや例えの機能をはたしていない文
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね・・・
自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど・・・
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。-> 良し、一つ覚えたな。これからはウソ書くなよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。→そう。何億回学習しようとも微調整にすらならない場合もある。この場合もそう。これからはウソ書くなよ。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)→今日は、モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節
一つ覚えたな。これからはウソ書くなよ。
覚えたけど、その根拠となるウソじゃない記事あるいは論文ってどこにあります?
原論文を理解せずに聞きかじりの知識で元コメントを書き,自分が間違っていることを確かめもせず(できず)に,相手に情報源の提示を求める(相手を疑う).まったく参考になりませんね.
原論文 Mastering the Game of Go without Human Knowledge [deepmind.com] (PDF, DeepMind 社にある元原稿)2ページ目第1段落から翻訳抜粋.
Alpha Go: 2つの深層ニューラルネットを使用.1つは指し手の確率を出力する方針ネットワーク,もう1つは,盤面を評価する評価値
ありがとうございます。AlphaGoが盤面の評価をしていないというのが間違いだったんですね。
その原典をもう少し調べて読み解くと、学習そして実戦までに3つのニューラルネットを使っていました。
(1)既存棋譜の学習によって推論する方針ネットワーク (2)局面においてどちらが勝つかを推論する評価値ネットワーク (3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク
方針ネットワークは評価値ネットワークの強化学習のために学習段階で使いますが、実戦時の探索中にまったく新しいルートを評価するときに使用するぐらいで、評価値ネットワークの学習
AlphaGoが盤面の評価をしていないというのが間違いだったんですね。
違いますし,「AlphaGoが盤面の評価をしていない」という発言が以前に見当たりません.お手上げです.
まだなんか理解がまちがってるところってありますか?
qem_morioka 氏は自分で理解しているかどうかがわからないコメントを書いている,ということがほかの読者に伝われば十分です.
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
私は悩みをリストアップし始めたが、そのあまりの長さにいやけがさし、何も考えないことにした。-- Robert C. Pike
AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
AI「俺の経験だと、この手が一番強い」
Re: (スコア:0)
AlphaGO
→囲碁のルールは実装していない。→ほかのコメントにもあるとおりウソ
ひたすら勝てる手を効率よく捜すことに特化。→どんな学習プログラムもそうなので、ウソではないが無意味な文
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。→ウソ。ディープニューラルネットで人間の棋譜学習をしている。強化学習はその後の微調整に使っているが、最終的なプログラムでは捨てられている。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」→もはや意味不明。
AlphaGO Zero
→囲碁のルールを実装している。→当たり前。
いわば「教師なし学習」で、AIが目指すひとつの目標。→教師無し学習の意味さえ理解していない典型的な人。ウソ。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。→自己学習なんて学習法はない。ディープニューラルネットを自己対戦で学習させている。
AI「俺の経験だと、この手が一番強い」→もはや例えの機能をはたしていない文
Re: (スコア:1)
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね・・・
自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど・・・
Re: (スコア:0)
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。-> 良し、一つ覚えたな。これからはウソ書くなよ。
数百万回におよぶ強化学習って微調整レベルのものだったんですか。→そう。何億回学習しようとも微調整にすらならない場合もある。この場合もそう。これからはウソ書くなよ。
こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
→今日は、モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節
Re: (スコア:1)
一つ覚えたな。これからはウソ書くなよ。
覚えたけど、その根拠となるウソじゃない記事あるいは論文ってどこにあります?
Re: (スコア:0)
原論文を理解せずに聞きかじりの知識で元コメントを書き,
自分が間違っていることを確かめもせず(できず)に,
相手に情報源の提示を求める(相手を疑う).
まったく参考になりませんね.
原論文 Mastering the Game of Go without Human Knowledge [deepmind.com] (PDF, DeepMind 社にある元原稿)2ページ目第1段落から翻訳抜粋.
Alpha Go: 2つの深層ニューラルネットを使用.
1つは指し手の確率を出力する方針ネットワーク,
もう1つは,盤面を評価する評価値
Re: (スコア:1)
ありがとうございます。AlphaGoが盤面の評価をしていないというのが
間違いだったんですね。
その原典をもう少し調べて読み解くと、学習そして実戦までに
3つのニューラルネットを使っていました。
(1)既存棋譜の学習によって推論する方針ネットワーク
(2)局面においてどちらが勝つかを推論する評価値ネットワーク
(3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク
方針ネットワークは評価値ネットワークの強化学習のために
学習段階で使いますが、実戦時の探索中にまったく新しいルートを
評価するときに使用するぐらいで、評価値ネットワークの学習
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
AlphaGoが盤面の評価をしていないというのが間違いだったんですね。
違いますし,「AlphaGoが盤面の評価をしていない」という発言が以前に見当たりません.
お手上げです.
まだなんか理解がまちがってるところってありますか?
qem_morioka 氏は自分で理解しているかどうかがわからないコメントを書いている,ということがほかの読者に伝われば十分です.