Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (#3299322) | 新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得

「新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得」記事へのコメント

記事ページを表示すべてのコメント取得

検索119コメント Log In/Create an Account

AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:0)

by qem_morioka (30932)

AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
AI「俺の経験だと、この手が一番強い」
- Re: (スコア:0)
  
  by Anonymous Coward
  
  AlphaGO
  →囲碁のルールは実装していない。→ほかのコメントにもあるとおりウソ
  ひたすら勝てる手を効率よく捜すことに特化。→どんな学習プログラムもそうなので、ウソではないが無意味な文
  強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。→ウソ。ディープニューラルネットで人間の棋譜学習をしている。強化学習はその後の微調整に使っているが、最終的なプログラムでは捨てられている。
  AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」→もはや意味不明。
  AlphaGO Zero
  →囲碁のルールを実装している。→当たり前。
  いわば「教師なし学習」で、AIが目指すひとつの目標。→教師無し学習の意味さえ理解していない典型的な人。ウソ。
  自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。→自己学習なんて学習法はない。ディープニューラルネットを自己対戦で学習させている。
  AI「俺の経験だと、この手が一番強い」→もはや例えの機能をはたしていない文
  - Re: (スコア:1)
    
    by qem_morioka (30932)
    
    AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
    AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね･･･
    自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど･･･
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。-> 良し、一つ覚えたな。これからはウソ書くなよ。
      数百万回におよぶ強化学習って微調整レベルのものだったんですか。→そう。何億回学習しようとも微調整にすらならない場合もある。この場合もそう。これからはウソ書くなよ。
      こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
      →今日は、モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節
      - Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:1)
        
        by qem_morioka (30932) on 2017年10月21日 0時48分 (#3299322) 日記
        
        モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節点に持つ。ルールを知らなければ子節点を一つも作れない。
        モンテカルロ木探索はゲーム木探索じゃないですよ。
        可能手を子節点にしているのは棋譜による初期学習の結果です。
        そこから先はランダムに選んだ手を最後勝敗がつくまでシミュレートします。
        http://pug.raph.free.fr/files/PowerOfForgetting.pdf [raph.free.fr]
        でも全ての手についてシミュレートするのは時間的に不可能ですし、より強い手を
        選び出すために何らかの方針が必要となってきます。
        そこに畳み込みニューラルネットワークをつかってより有望な手を絞り込んでるんですが
        どこが微調整なんでしょう?
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        そこから先はランダムに選んだ手を最後勝敗がつくまでシミュレートします。
        その手はどこから見つけた？
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        モンテカルロ木探索はゲーム木探索じゃないですよ。
        これはまたけったいな珍説を主張する人もいたものだ。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得 More ログイン

「新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得」記事へのコメント

AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:0)

Re: (スコア:0)

Re: (スコア:1)

Re: (スコア:0)

Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

スラド