論文の PDF Mastering the Game of Go without Human Knowledge [deepmind.com] の中に 3つ目の高速ネットワークの説明が全く見つかりません。 3, three, network といった検索語で探しても、該当しそうな部分がありません。 どこに書いてあるのでしょうか? 高速ネットワークは英語で何 network なのでしょうか? AlphaGo Zero の論文ではない、コメントの論文以外の資料に書いてあるのでしょうか?
(1) 前論文23ページにあるように rollout policy は盤面 s から指し手 a を選ぶ確率を求める関数 p(a|s) です. 方針ネットワークも同じ関数 p(a|s) です.違うのは関数の中身の複雑さ,計算コストです. 大枠で AlphaGo を理解するときに, 同じ関数である方針ネットワークと rollout policy を区別しなければならない理由はありません. 一方,rollout policy を区別するなら,前論文22ページで説明されている tree policy (rollout policy のように計算コストを抑えるための簡単な関数,ただしより多くの属性を使い, 探索木の中の指し手を選ぶ)に触れないその線引きはどうなのかな,と疑問が残ります. 実際最新の論文では,23ページに It does not use any rollout policy or tree policy と並んで記述して,計算コストを抑えるための関数は使っていないことを 明らかにしています.
AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
AI「俺の経験だと、この手が一番強い」
Re: (スコア:0)
AlphaGO
→囲碁のルールは実装していない。→ほかのコメントにもあるとおりウソ
ひたすら勝てる手を効率よく捜すことに特化。→どんな学習プログラムもそうなので、ウソではないが無意味な文
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。→ウソ。ディープニューラルネットで人間の棋譜学習をしている。強化学習はその後の微調整に使っているが、最終的なプログラムでは捨てられている。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」→もはや意味不明。
AlphaGO Zero
→囲碁のルールを実装している。→当たり前。
いわば「教師なし学習」で、AIが目指すひとつの目標。→教師無し学習の意味さえ理解していない典型的な人。ウソ。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。→自己学習なんて学習法はない。ディープニューラルネットを自己対戦で学習させている。
AI「俺の経験だと、この手が一番強い」→もはや例えの機能をはたしていない文
Re: (スコア:1)
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね・・・
自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど・・・
Re: (スコア:0)
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。-> 良し、一つ覚えたな。これからはウソ書くなよ。
数百万回におよぶ強化学習って微調整レベルのものだったんですか。→そう。何億回学習しようとも微調整にすらならない場合もある。この場合もそう。これからはウソ書くなよ。
こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
→今日は、モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節
Re: (スコア:1)
一つ覚えたな。これからはウソ書くなよ。
覚えたけど、その根拠となるウソじゃない記事あるいは論文ってどこにあります?
Re: (スコア:0)
原論文を理解せずに聞きかじりの知識で元コメントを書き,
自分が間違っていることを確かめもせず(できず)に,
相手に情報源の提示を求める(相手を疑う).
まったく参考になりませんね.
原論文 Mastering the Game of Go without Human Knowledge [deepmind.com] (PDF, DeepMind 社にある元原稿)2ページ目第1段落から翻訳抜粋.
Alpha Go: 2つの深層ニューラルネットを使用.
1つは指し手の確率を出力する方針ネットワーク,
もう1つは,盤面を評価する評価値
Re: (スコア:1)
ありがとうございます。AlphaGoが盤面の評価をしていないというのが
間違いだったんですね。
その原典をもう少し調べて読み解くと、学習そして実戦までに
3つのニューラルネットを使っていました。
(1)既存棋譜の学習によって推論する方針ネットワーク
(2)局面においてどちらが勝つかを推論する評価値ネットワーク
(3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク
方針ネットワークは評価値ネットワークの強化学習のために
学習段階で使いますが、実戦時の探索中にまったく新しいルートを
評価するときに使用するぐらいで、評価値ネットワークの学習
Re: (スコア:0)
論文の PDF Mastering the Game of Go without Human Knowledge [deepmind.com] の中に
3つ目の高速ネットワークの説明が全く見つかりません。
3, three, network といった検索語で探しても、該当しそうな部分がありません。
どこに書いてあるのでしょうか?
高速ネットワークは英語で何 network なのでしょうか?
AlphaGo Zero の論文ではない、コメントの論文以外の資料に書いてあるのでしょうか?
コメントを信じて探したのに、がっかりです。
Re: (スコア:1)
その原典をもう少し調べて、と私は書きましたが提示された論文「Mastering the Game of Go without Human Knowledge」は
AlphaGo Zeroの論文であってAlphaGo 無印の論文ではありませんでした。
私がAlphaGO無印についての認識が間違ってるという話なのにZeroについての
論文を提示されたようですが、そこの論文に書いてある言葉を何度かググって
AlphaGO無印についての論文にたどり着いたので、それを読み解いてます。
Mastering the Game of Go with Deep Neural Networks and Tree Search [airesearch.com]
fast rollout policyが高速(評価)ネットワークですね。
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
qem_morioka 氏のコメント(#3299497 [srad.jp], 3300024 [srad.jp])は,偶然の間違いではなく,
自分のために,読み手を誤解させて自分が正しいと思わせようと,事実を曲げて書いている,
という悪質なコメントの例だと思いました.
# 評価は qem_morioka 氏以外の読み手にお任せします.
以下が(長いですが)その理由になります.
私がAlphaGO無印についての認識が間違ってるという話なのにZeroについての
論文を提示されたようですが、そこの論文に書いてある言葉を何度かググって
AlphaGO無印についての論文にたどり着いたので、それを読み解いてます。
最新の論文では,AlphaGo について過去の研究としてまとめられた記述があります.
あなたのコメント「AlphaGO無印って初期学習は棋譜使ってるけど、
強化学習は微調整程度だったとは知りませんでしたよ。」の無知を指摘するには十分です.
別の論文をたどっても,無知なコメントであることに変わりありません.
fast rollout policyが高速(評価)ネットワークですね。
ひどい訳語ですね.
fast rollout policy を直訳すると高速展開方針です.
あなたの訳語「高速(評価)ネットワーク」では高速しか合っていないので,意味が通じません.
さらに高速 (fast) は説明の単語であり, 論文では fast が省略された rollout policy で一つの用語です.
特に 23ページの rollout policy という高速,評価,ネットワークのいずれも入っていない項目を,
高速ネットワークという訳語から見つけられるのは,訳語を作った本人だけです.
しかも原典の論文とだけしか書いていなければ,見つけるのは無理です.
qem_morioka 氏のコメントを読むと痛い目を見る,象徴的な例です.
なので,元の言葉と論文 PDF(Mastering the Game of Go with Deep Neural Networks and Tree Search [airesearch.com], 以下,前論文)の情報が得られてから,やっとコメントを読み始めることができました.
それでわかったことは,以前の間違いに加えて,
少なくとも次の3点で新しいコメントも間違っている,ということです.
(1) (fast) rollout policy だけを区別して3つ目のネットワークとして取り上げる理由が不明.
(2) 前論文の中では rollout policy に対して, network という単語が使われていない.
(3) AlphaGo と実際の棋士との対戦手順で,方針ネットワークは使われていた.
まだなんか理解がまちがってるところってありますか?
とありますが,理解していないことを参照情報を示さずにわかっている風に書いていて
実際は間違っている,あなたのコメントはアフィリエイトサイトのレベル以下です.
間違っているか尋ねる前に書き込まないという選択肢もあります.
(1) 前論文23ページにあるように rollout policy は盤面 s から指し手 a を選ぶ確率を求める関数 p(a|s) です.
方針ネットワークも同じ関数 p(a|s) です.違うのは関数の中身の複雑さ,計算コストです.
大枠で AlphaGo を理解するときに,
同じ関数である方針ネットワークと rollout policy を区別しなければならない理由はありません.
一方,rollout policy を区別するなら,前論文22ページで説明されている tree policy
(rollout policy のように計算コストを抑えるための簡単な関数,ただしより多くの属性を使い,
探索木の中の指し手を選ぶ)に触れないその線引きはどうなのかな,と疑問が残ります.
実際最新の論文では,23ページに
It does not use any rollout policy or tree policy
と並んで記述して,計算コストを抑えるための関数は使っていないことを
明らかにしています.
(2) シンプルな softmax 関数から成る方針の関数 rollout policy をネットワークと呼ばないと,
(1) が主張できないので,原文にはないネットワークという言葉をコメントでは無理やり足して,
3つ目のネットワークがあるように見せかけています.
または,同じ関数であることを理解できていません.
(3) 実際の棋士との対戦手順を説明している, 前論文12ページの図5では,
ステップ d で「教師付き学習を行った方針ネットワークから計算した確率が 0.1% より大きいなら,
それに基づいて手を指す」とあり,方針ネットワークが指し手を選ぶ手順に組み込まれています.
これは,コメントの
方針ネットワークは評価値ネットワークの強化学習のために
学習段階で使いますが、実戦時の探索中にまったく新しいルートを
評価するときに使用するぐらいで、評価値ネットワークの学習が終わった後は
ほとんど使用していません。
とは異なります.「方針ネットワークよりも rollout policy が重要で,
間違いの指摘ではその重要な部分が抜けていた」と qem_morioka 氏は
自分の都合の良いように事実を曲げて印象付けたかったように思えます.
コメント通りに理解しても,評価値ネットワークの学習に必要なら,全体では
方針ネットワークは十分に使用されているのですが.
本人が納得するかどうかなのでしょう.
前論文のどの部分をもとにしたのかわからないので,これ以上確認できませんが,
確かめる方法がないことを含め,このコメントが信頼に値しないことは確かです.
Re: (スコア:0)
難しいこと考えずに、他のコメントにもあるように"qem_morioka"と付いてるのは人工無能の落書きと認識した方がいいと思いますよ。
彼は事の真贋は完全に無視して、書きたいことを書く無能なんですから。
スラドを継続的に利用するなら、ID取ってフィルタしてしまうのがお勧めです。
彼に限らず、相手にするだけ無駄な人が数名いますが、みんな親切にもIDで書いてくれるのでフィルタしやすいのがここの利点。
Re: (スコア:0)
そうですね.彼のコメントを読んでしまったのが失敗でした.