Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (#3300024) | 新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得

「新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得」記事へのコメント

記事ページを表示すべてのコメント取得

検索119コメント Log In/Create an Account

AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:0)

by qem_morioka (30932)

AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
AI「俺の経験だと、この手が一番強い」
- Re: (スコア:0)
  
  by Anonymous Coward
  
  AlphaGO
  →囲碁のルールは実装していない。→ほかのコメントにもあるとおりウソ
  ひたすら勝てる手を効率よく捜すことに特化。→どんな学習プログラムもそうなので、ウソではないが無意味な文
  強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。→ウソ。ディープニューラルネットで人間の棋譜学習をしている。強化学習はその後の微調整に使っているが、最終的なプログラムでは捨てられている。
  AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」→もはや意味不明。
  AlphaGO Zero
  →囲碁のルールを実装している。→当たり前。
  いわば「教師なし学習」で、AIが目指すひとつの目標。→教師無し学習の意味さえ理解していない典型的な人。ウソ。
  自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。→自己学習なんて学習法はない。ディープニューラルネットを自己対戦で学習させている。
  AI「俺の経験だと、この手が一番強い」→もはや例えの機能をはたしていない文
  - Re: (スコア:1)
    
    by qem_morioka (30932)
    
    AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
    AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね･･･
    自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど･･･
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。-> 良し、一つ覚えたな。これからはウソ書くなよ。
      数百万回におよぶ強化学習って微調整レベルのものだったんですか。→そう。何億回学習しようとも微調整にすらならない場合もある。この場合もそう。これからはウソ書くなよ。
      こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
      →今日は、モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節
      - Re: (スコア:1)
        
        by qem_morioka (30932)
        
        一つ覚えたな。これからはウソ書くなよ。
        覚えたけど、その根拠となるウソじゃない記事あるいは論文ってどこにあります?
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        原論文を理解せずに聞きかじりの知識で元コメントを書き，
        自分が間違っていることを確かめもせず（できず）に，
        相手に情報源の提示を求める（相手を疑う）．
        まったく参考になりませんね．
        原論文 Mastering the Game of Go without Human Knowledge [deepmind.com] (PDF, DeepMind 社にある元原稿）2ページ目第1段落から翻訳抜粋.
        Alpha Go: 2つの深層ニューラルネットを使用．
        1つは指し手の確率を出力する方針ネットワーク，
        もう1つは，盤面を評価する評価値
        
        Re: (スコア:1)
        
        by qem_morioka (30932)
        
        ありがとうございます。AlphaGoが盤面の評価をしていないというのが
        間違いだったんですね。
        その原典をもう少し調べて読み解くと、学習そして実戦までに
        3つのニューラルネットを使っていました。
        (1)既存棋譜の学習によって推論する方針ネットワーク
        (2)局面においてどちらが勝つかを推論する評価値ネットワーク
        (3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク
        方針ネットワークは評価値ネットワークの強化学習のために
        学習段階で使いますが、実戦時の探索中にまったく新しいルートを
        評価するときに使用するぐらいで、評価値ネットワークの学習
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        論文の PDF Mastering the Game of Go without Human Knowledge [deepmind.com] の中に
        3つ目の高速ネットワークの説明が全く見つかりません。
        3, three, network といった検索語で探しても、該当しそうな部分がありません。
        どこに書いてあるのでしょうか？
        高速ネットワークは英語で何 network なのでしょうか？
        AlphaGo Zero の論文ではない、コメントの論文以外の資料に書いてあるのでしょうか？
        コメントを信じて探したのに、がっかりです。
        
        Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:1)
        
        by qem_morioka (30932) on 2017年10月22日 22時46分 (#3300024) 日記
        
        その原典をもう少し調べて、と私は書きましたが提示された論文「Mastering the Game of Go without Human Knowledge」は
        AlphaGo Zeroの論文であってAlphaGo 無印の論文ではありませんでした。
        私がAlphaGO無印についての認識が間違ってるという話なのにZeroについての
        論文を提示されたようですが、そこの論文に書いてある言葉を何度かググって
        AlphaGO無印についての論文にたどり着いたので、それを読み解いてます。
        Mastering the Game of Go with Deep Neural Networks and Tree Search [airesearch.com]
        fast rollout policyが高速(評価)ネットワークですね。
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        なんだ。リアル中国人の部屋じゃなくて、クレバーハンスか。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        qem_morioka 氏のコメント（#3299497 [srad.jp], 3300024 [srad.jp]）は，偶然の間違いではなく，
        自分のために，読み手を誤解させて自分が正しいと思わせようと，事実を曲げて書いている，
        という悪質なコメントの例だと思いました．
        # 評価は qem_morioka 氏以外の読み手にお任せします．
        以下が（長いですが）その理由になります．
        私がAlphaGO無印についての認識が間違ってるという話なのにZeroについての
        論文を提示されたようですが、そこの論文に書いてある言葉を何度かググって
        AlphaGO無印についての論文にたどり着いたので、それを読み解いてます。
        最新の論文では，AlphaGo について過去の研究としてまとめられた記述があります．
        あなたのコメント「AlphaGO無印って初期学習は棋譜使ってるけど、
        強化学習は微調整程度だったとは知りませんでしたよ。」の無知を指摘するには十分です．
        別の論
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        難しいこと考えずに、他のコメントにもあるように"qem_morioka"と付いてるのは人工無能の落書きと認識した方がいいと思いますよ。
        彼は事の真贋は完全に無視して、書きたいことを書く無能なんですから。
        スラドを継続的に利用するなら、ID取ってフィルタしてしまうのがお勧めです。
        彼に限らず、相手にするだけ無駄な人が数名いますが、みんな親切にもIDで書いてくれるのでフィルタしやすいのがここの利点。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        そうですね．彼のコメントを読んでしまったのが失敗でした．

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得 More ログイン

「新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得」記事へのコメント

AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:0)

Re: (スコア:0)

Re: (スコア:1)

Re: (スコア:0)

Re: (スコア:1)

Re: (スコア:0)

Re: (スコア:1)

Re: (スコア:0)

Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)