アカウント名:
パスワード:
AlphaGO→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。AI「俺の経験だと、この手が一番強い」
AlphaGO→囲碁のルールは実装していない。→ほかのコメントにもあるとおりウソひたすら勝てる手を効率よく捜すことに特化。→どんな学習プログラムもそうなので、ウソではないが無意味な文強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。→ウソ。ディープニューラルネットで人間の棋譜学習をしている。強化学習はその後の微調整に使っているが、最終的なプログラムでは捨てられている。AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」→もはや意味不明。
AlphaGO Zero→囲碁のルールを実装している。→当たり前。いわば「教師なし学習」で、AIが目指すひとつの目標。→教師無し学習の意味さえ理解していない典型的な人。ウソ。自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。→自己学習なんて学習法はない。ディープニューラルネットを自己対戦で学習させている。AI「俺の経験だと、この手が一番強い」→もはや例えの機能をはたしていない文
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね・・・
自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど・・・
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。-> 良し、一つ覚えたな。これからはウソ書くなよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。→そう。何億回学習しようとも微調整にすらならない場合もある。この場合もそう。これからはウソ書くなよ。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)→今日は、モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節
一つ覚えたな。これからはウソ書くなよ。
覚えたけど、その根拠となるウソじゃない記事あるいは論文ってどこにあります?
原論文を理解せずに聞きかじりの知識で元コメントを書き,自分が間違っていることを確かめもせず(できず)に,相手に情報源の提示を求める(相手を疑う).まったく参考になりませんね.
原論文 Mastering the Game of Go without Human Knowledge [deepmind.com] (PDF, DeepMind 社にある元原稿)2ページ目第1段落から翻訳抜粋.
Alpha Go: 2つの深層ニューラルネットを使用.1つは指し手の確率を出力する方針ネットワーク,もう1つは,盤面を評価する評価値
ありがとうございます。AlphaGoが盤面の評価をしていないというのが間違いだったんですね。
その原典をもう少し調べて読み解くと、学習そして実戦までに3つのニューラルネットを使っていました。
(1)既存棋譜の学習によって推論する方針ネットワーク (2)局面においてどちらが勝つかを推論する評価値ネットワーク (3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク
方針ネットワークは評価値ネットワークの強化学習のために学習段階で使いますが、実戦時の探索中にまったく新しいルートを評価するときに使用するぐらいで、評価値ネットワークの学習が終わった後はほとんど使用していません。
実戦の時は評価値ネットワークの結果を高速ネットワークを使って勝敗が決するまで手をすすめて(プレイアウト)評価しています。
調整とか微調整だとか言っているのは、評価値ネットワークの学習段階で、自己対戦による強化学習の後、もう一度方針ネットワークと対戦させてその予測の違いをパラメーター調整しているので、そのことを指しているのだと思います。
まだなんか理解がまちがってるところってありますか?
よし。アルファ碁の解説文は合ってる。
この人自身のことで恐縮だが、専門用語をその意味を理解せずにもっともらしい適当なコメントを出すあたり、リアル中国人の部屋だな。このアルファ碁の解説についても、正しく理解できてないんだろうなと、想像せざるを得ないが反例がでるまでは仮説の更新無しのゴールドスタイルで見守ってやるしかないな。
AlphaGoが盤面の評価をしていないというのが間違いだったんですね。
違いますし,「AlphaGoが盤面の評価をしていない」という発言が以前に見当たりません.お手上げです.
qem_morioka 氏は自分で理解しているかどうかがわからないコメントを書いている,ということがほかの読者に伝われば十分です.
論文の PDF Mastering the Game of Go without Human Knowledge [deepmind.com] の中に3つ目の高速ネットワークの説明が全く見つかりません。3, three, network といった検索語で探しても、該当しそうな部分がありません。どこに書いてあるのでしょうか?高速ネットワークは英語で何 network なのでしょうか?AlphaGo Zero の論文ではない、コメントの論文以外の資料に書いてあるのでしょうか?
コメントを信じて探したのに、がっかりです。
その原典をもう少し調べて、と私は書きましたが提示された論文「Mastering the Game of Go without Human Knowledge」はAlphaGo Zeroの論文であってAlphaGo 無印の論文ではありませんでした。
私がAlphaGO無印についての認識が間違ってるという話なのにZeroについての論文を提示されたようですが、そこの論文に書いてある言葉を何度かググってAlphaGO無印についての論文にたどり着いたので、それを読み解いてます。
Mastering the Game of Go with Deep Neural Networks and Tree Search [airesearch.com]
fast rollout policyが高速(評価)ネットワークですね。
なんだ。リアル中国人の部屋じゃなくて、クレバーハンスか。
qem_morioka 氏のコメント(#3299497 [srad.jp], 3300024 [srad.jp])は,偶然の間違いではなく,自分のために,読み手を誤解させて自分が正しいと思わせようと,事実を曲げて書いている,という悪質なコメントの例だと思いました.# 評価は qem_morioka 氏以外の読み手にお任せします.以下が(長いですが)その理由になります.
最新の論文では,AlphaGo について過去の研究としてまとめられた記述があります.あなたのコメント「AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。」の無知を指摘するには十分です.別の論
難しいこと考えずに、他のコメントにもあるように"qem_morioka"と付いてるのは人工無能の落書きと認識した方がいいと思いますよ。彼は事の真贋は完全に無視して、書きたいことを書く無能なんですから。
スラドを継続的に利用するなら、ID取ってフィルタしてしまうのがお勧めです。彼に限らず、相手にするだけ無駄な人が数名いますが、みんな親切にもIDで書いてくれるのでフィルタしやすいのがここの利点。
そうですね.彼のコメントを読んでしまったのが失敗でした.
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
アレゲはアレゲを呼ぶ -- ある傍観者
AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
AI「俺の経験だと、この手が一番強い」
Re: (スコア:0)
AlphaGO
→囲碁のルールは実装していない。→ほかのコメントにもあるとおりウソ
ひたすら勝てる手を効率よく捜すことに特化。→どんな学習プログラムもそうなので、ウソではないが無意味な文
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。→ウソ。ディープニューラルネットで人間の棋譜学習をしている。強化学習はその後の微調整に使っているが、最終的なプログラムでは捨てられている。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」→もはや意味不明。
AlphaGO Zero
→囲碁のルールを実装している。→当たり前。
いわば「教師なし学習」で、AIが目指すひとつの目標。→教師無し学習の意味さえ理解していない典型的な人。ウソ。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。→自己学習なんて学習法はない。ディープニューラルネットを自己対戦で学習させている。
AI「俺の経験だと、この手が一番強い」→もはや例えの機能をはたしていない文
Re: (スコア:1)
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね・・・
自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど・・・
Re: (スコア:0)
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。-> 良し、一つ覚えたな。これからはウソ書くなよ。
数百万回におよぶ強化学習って微調整レベルのものだったんですか。→そう。何億回学習しようとも微調整にすらならない場合もある。この場合もそう。これからはウソ書くなよ。
こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
→今日は、モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節
Re: (スコア:1)
一つ覚えたな。これからはウソ書くなよ。
覚えたけど、その根拠となるウソじゃない記事あるいは論文ってどこにあります?
Re: (スコア:0)
原論文を理解せずに聞きかじりの知識で元コメントを書き,
自分が間違っていることを確かめもせず(できず)に,
相手に情報源の提示を求める(相手を疑う).
まったく参考になりませんね.
原論文 Mastering the Game of Go without Human Knowledge [deepmind.com] (PDF, DeepMind 社にある元原稿)2ページ目第1段落から翻訳抜粋.
Alpha Go: 2つの深層ニューラルネットを使用.
1つは指し手の確率を出力する方針ネットワーク,
もう1つは,盤面を評価する評価値
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
ありがとうございます。AlphaGoが盤面の評価をしていないというのが
間違いだったんですね。
その原典をもう少し調べて読み解くと、学習そして実戦までに
3つのニューラルネットを使っていました。
(1)既存棋譜の学習によって推論する方針ネットワーク
(2)局面においてどちらが勝つかを推論する評価値ネットワーク
(3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク
方針ネットワークは評価値ネットワークの強化学習のために
学習段階で使いますが、実戦時の探索中にまったく新しいルートを
評価するときに使用するぐらいで、評価値ネットワークの学習が終わった後は
ほとんど使用していません。
実戦の時は評価値ネットワークの結果を高速ネットワークを使って
勝敗が決するまで手をすすめて(プレイアウト)評価しています。
調整とか微調整だとか言っているのは、評価値ネットワークの学習段階で、
自己対戦による強化学習の後、もう一度方針ネットワークと対戦させて
その予測の違いをパラメーター調整しているので、そのことを指しているのだと
思います。
まだなんか理解がまちがってるところってありますか?
Re: (スコア:0)
よし。アルファ碁の解説文は合ってる。
この人自身のことで恐縮だが、専門用語をその意味を理解せずにもっともらしい
適当なコメントを出すあたり、リアル中国人の部屋だな。
このアルファ碁の解説についても、正しく理解できてないんだろうなと、想像せざるを得ないが
反例がでるまでは仮説の更新無しのゴールドスタイルで見守ってやるしかないな。
Re: (スコア:0)
AlphaGoが盤面の評価をしていないというのが間違いだったんですね。
違いますし,「AlphaGoが盤面の評価をしていない」という発言が以前に見当たりません.
お手上げです.
まだなんか理解がまちがってるところってありますか?
qem_morioka 氏は自分で理解しているかどうかがわからないコメントを書いている,ということがほかの読者に伝われば十分です.
Re: (スコア:0)
論文の PDF Mastering the Game of Go without Human Knowledge [deepmind.com] の中に
3つ目の高速ネットワークの説明が全く見つかりません。
3, three, network といった検索語で探しても、該当しそうな部分がありません。
どこに書いてあるのでしょうか?
高速ネットワークは英語で何 network なのでしょうか?
AlphaGo Zero の論文ではない、コメントの論文以外の資料に書いてあるのでしょうか?
コメントを信じて探したのに、がっかりです。
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
その原典をもう少し調べて、と私は書きましたが提示された論文「Mastering the Game of Go without Human Knowledge」は
AlphaGo Zeroの論文であってAlphaGo 無印の論文ではありませんでした。
私がAlphaGO無印についての認識が間違ってるという話なのにZeroについての
論文を提示されたようですが、そこの論文に書いてある言葉を何度かググって
AlphaGO無印についての論文にたどり着いたので、それを読み解いてます。
Mastering the Game of Go with Deep Neural Networks and Tree Search [airesearch.com]
fast rollout policyが高速(評価)ネットワークですね。
Re: (スコア:0)
なんだ。リアル中国人の部屋じゃなくて、クレバーハンスか。
Re: (スコア:0)
qem_morioka 氏のコメント(#3299497 [srad.jp], 3300024 [srad.jp])は,偶然の間違いではなく,
自分のために,読み手を誤解させて自分が正しいと思わせようと,事実を曲げて書いている,
という悪質なコメントの例だと思いました.
# 評価は qem_morioka 氏以外の読み手にお任せします.
以下が(長いですが)その理由になります.
私がAlphaGO無印についての認識が間違ってるという話なのにZeroについての
論文を提示されたようですが、そこの論文に書いてある言葉を何度かググって
AlphaGO無印についての論文にたどり着いたので、それを読み解いてます。
最新の論文では,AlphaGo について過去の研究としてまとめられた記述があります.
あなたのコメント「AlphaGO無印って初期学習は棋譜使ってるけど、
強化学習は微調整程度だったとは知りませんでしたよ。」の無知を指摘するには十分です.
別の論
Re: (スコア:0)
難しいこと考えずに、他のコメントにもあるように"qem_morioka"と付いてるのは人工無能の落書きと認識した方がいいと思いますよ。
彼は事の真贋は完全に無視して、書きたいことを書く無能なんですから。
スラドを継続的に利用するなら、ID取ってフィルタしてしまうのがお勧めです。
彼に限らず、相手にするだけ無駄な人が数名いますが、みんな親切にもIDで書いてくれるのでフィルタしやすいのがここの利点。
Re: (スコア:0)
そうですね.彼のコメントを読んでしまったのが失敗でした.