パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得」記事へのコメント

  • AlphaGO
    →囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
    強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
    AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」

    AlphaGO Zero
    →囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
    自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
    AI「俺の経験だと、この手が一番強い」

    • by Anonymous Coward

      AlphaGO
      →囲碁のルールは実装していない。→ほかのコメントにもあるとおりウソ
      ひたすら勝てる手を効率よく捜すことに特化。→どんな学習プログラムもそうなので、ウソではないが無意味な文
      強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。→ウソ。ディープニューラルネットで人間の棋譜学習をしている。強化学習はその後の微調整に使っているが、最終的なプログラムでは捨てられている。
      AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」→もはや意味不明。

      AlphaGO Zero
      →囲碁のルールを実装している。→当たり前。
      いわば「教師なし学習」で、AIが目指すひとつの目標。→教師無し学習の意味さえ理解していない典型的な人。ウソ。
      自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。→自己学習なんて学習法はない。ディープニューラルネットを自己対戦で学習させている。
      AI「俺の経験だと、この手が一番強い」→もはや例えの機能をはたしていない文

      • AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)

        AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね・・・

        自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど・・・

        • by Anonymous Coward

          AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。-> 良し、一つ覚えたな。これからはウソ書くなよ。
          数百万回におよぶ強化学習って微調整レベルのものだったんですか。→そう。何億回学習しようとも微調整にすらならない場合もある。この場合もそう。これからはウソ書くなよ。
          こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
          →今日は、モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節

          • 一つ覚えたな。これからはウソ書くなよ。

            覚えたけど、その根拠となるウソじゃない記事あるいは論文ってどこにあります?

            • 原論文を理解せずに聞きかじりの知識で元コメントを書き,
              自分が間違っていることを確かめもせず(できず)に,
              相手に情報源の提示を求める(相手を疑う).
              まったく参考になりませんね.

              原論文 Mastering the Game of Go without Human Knowledge [deepmind.com] (PDF, DeepMind 社にある元原稿)2ページ目第1段落から翻訳抜粋.

              Alpha Go: 2つの深層ニューラルネットを使用.
              1つは指し手の確率を出力する方針ネットワーク,
              もう1つは,盤面を評価する評価値ネットワーク.
              方針ネットワークは,まず棋士の棋譜を正確に予測するように教師付き学習を行う.そのあと,方針勾配強化学習により,その方針ネットワークに磨きをかける (refine).

              この refine を微調整とするより,微を除いた調整のほうが適切だと思いますが,大筋では正しいと思います.

              親コメント
              • ありがとうございます。AlphaGoが盤面の評価をしていないというのが
                間違いだったんですね。

                その原典をもう少し調べて読み解くと、学習そして実戦までに
                3つのニューラルネットを使っていました。

                  (1)既存棋譜の学習によって推論する方針ネットワーク
                  (2)局面においてどちらが勝つかを推論する評価値ネットワーク
                  (3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク

                方針ネットワークは評価値ネットワークの強化学習のために
                学習段階で使いますが、実戦時の探索中にまったく新しいルートを
                評価するときに使用するぐらいで、評価値ネットワークの学習が終わった後は
                ほとんど使用していません。

                実戦の時は評価値ネットワークの結果を高速ネットワークを使って
                勝敗が決するまで手をすすめて(プレイアウト)評価しています。

                調整とか微調整だとか言っているのは、評価値ネットワークの学習段階で、
                自己対戦による強化学習の後、もう一度方針ネットワークと対戦させて
                その予測の違いをパラメーター調整しているので、そのことを指しているのだと
                思います。

                まだなんか理解がまちがってるところってありますか?

                親コメント
              • by Anonymous Coward

                よし。アルファ碁の解説文は合ってる。

                この人自身のことで恐縮だが、専門用語をその意味を理解せずにもっともらしい
                適当なコメントを出すあたり、リアル中国人の部屋だな。
                このアルファ碁の解説についても、正しく理解できてないんだろうなと、想像せざるを得ないが
                反例がでるまでは仮説の更新無しのゴールドスタイルで見守ってやるしかないな。

              • by Anonymous Coward

                AlphaGoが盤面の評価をしていないというのが間違いだったんですね。

                違いますし,「AlphaGoが盤面の評価をしていない」という発言が以前に見当たりません.
                お手上げです.

                まだなんか理解がまちがってるところってありますか?

                qem_morioka 氏は自分で理解しているかどうかがわからないコメントを書いている,ということがほかの読者に伝われば十分です.

              • by Anonymous Coward

                論文の PDF Mastering the Game of Go without Human Knowledge [deepmind.com] の中に
                3つ目の高速ネットワークの説明が全く見つかりません。
                3, three, network といった検索語で探しても、該当しそうな部分がありません。
                どこに書いてあるのでしょうか?
                高速ネットワークは英語で何 network なのでしょうか?
                AlphaGo Zero の論文ではない、コメントの論文以外の資料に書いてあるのでしょうか?

                コメントを信じて探したのに、がっかりです。

              • その原典をもう少し調べて、と私は書きましたが提示された論文「Mastering the Game of Go without Human Knowledge」は
                AlphaGo Zeroの論文であってAlphaGo 無印の論文ではありませんでした。

                私がAlphaGO無印についての認識が間違ってるという話なのにZeroについての
                論文を提示されたようですが、そこの論文に書いてある言葉を何度かググって
                AlphaGO無印についての論文にたどり着いたので、それを読み解いてます。

                Mastering the Game of Go with Deep Neural Networks and Tree Search [airesearch.com]

                fast rollout policyが高速(評価)ネットワークですね。

                親コメント
              • by Anonymous Coward

                なんだ。リアル中国人の部屋じゃなくて、クレバーハンスか。

              • by Anonymous Coward

                qem_morioka 氏のコメント(#3299497 [srad.jp], 3300024 [srad.jp])は,偶然の間違いではなく,
                自分のために,読み手を誤解させて自分が正しいと思わせようと,事実を曲げて書いている,
                という悪質なコメントの例だと思いました.
                # 評価は qem_morioka 氏以外の読み手にお任せします.
                以下が(長いですが)その理由になります.

                私がAlphaGO無印についての認識が間違ってるという話なのにZeroについての
                論文を提示されたようですが、そこの論文に書いてある言葉を何度かググって
                AlphaGO無印についての論文にたどり着いたので、それを読み解いてます。

                最新の論文では,AlphaGo について過去の研究としてまとめられた記述があります.
                あなたのコメント「AlphaGO無印って初期学習は棋譜使ってるけど、
                強化学習は微調整程度だったとは知りませんでしたよ。」の無知を指摘するには十分です.
                別の論

              • by Anonymous Coward

                難しいこと考えずに、他のコメントにもあるように"qem_morioka"と付いてるのは人工無能の落書きと認識した方がいいと思いますよ。
                彼は事の真贋は完全に無視して、書きたいことを書く無能なんですから。

                スラドを継続的に利用するなら、ID取ってフィルタしてしまうのがお勧めです。
                彼に限らず、相手にするだけ無駄な人が数名いますが、みんな親切にもIDで書いてくれるのでフィルタしやすいのがここの利点。

              • by Anonymous Coward

                そうですね.彼のコメントを読んでしまったのが失敗でした.

犯人は巨人ファンでA型で眼鏡をかけている -- あるハッカー

処理中...