パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得」記事へのコメント

  • AlphaGO
    →囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
    強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
    AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」

    AlphaGO Zero
    →囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
    自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
    AI「俺の経験だと、この手が一番強い」

    • 暫くスラドを見てなかったので、コメントを書く時期を逃してしまいました。

      qem_moriokaさんの言葉が不十分で総叩きに合っていますが、基本的にはqem_moriokaさんのおっしゃっている事は納得できます。

      Zeroではない方のAlphaGo (AlphaGo Lee) のポリシーネットワークは、与えられた局面から次に指す手を予測するように、
      人間の棋譜から教師あり学習をさせて作られています。

      このネットワークの入力になる「与えられた局面」というのは、碁盤の黒石、白石の配置やルール上打てない点、次に敵に打たれると石が取られる点、等を
      別々に分解して作られる48枚の19x19の画像です。
      また、教師として与える情報は、その局面から人間がどの点に打ったかという情報です。
      そして、ネットワークの出力は、19x19の各点に対して割り振られた、その点に打つべき確率になっています。

      入力として与える48枚の画像は、碁のルールを踏まえて前処理で生成されていますが、ニューラルネットはこれをただの画像と考えているので、
      そういう意味では、ネットワークは碁のルールを実装していません。また、出力として出て来る確率も、
      ルール上打ってはいけない場所の確率がほとんど0と言うだけです。学習の初期段階では、打ってはいけない所の確率も他に比べて低くはないはずです。

      これに対し、AlphaGo Zeroの方は、全く人間の棋譜なしで、自分自身で対戦しながら自分を鍛えたので、碁のルールを実装している、という言葉を使っているのだと思います。
      そうは言っても、ニューラルネットそのものは、ただの画像を処理して出力する、という意味では AlphaGo Leeと同じくルールを知りません。
      ただし、AlphaGo Zeroのネットワークの入力画像は、AlphaGo Leeよりもずっと単純で、黒石と白石の8手前までの配置と自分の手番が黒か白か、
      という17枚の19x19の画像だけで、ルール上打てない場所などが入っていません。

      また、モンテカルロ木探索に関しては、AlphaGo Lee, Zeroどちらも行っていて、これは碁のルールに基いて行われます。

      親コメント
      • まず bubon 氏が擁護している qem_morioka 氏についての指摘をまとめておきます.
        先週の平日5日間に70近いコメントをしているので,考えてコメントを書けない (#3300037 [srad.jp])
        事実と意見を書き分けられない (#3299332 [srad.jp])
        自分の間違いは認めない,間違っていても反論するのが良いと考えている (#3299495 [srad.jp])
        自分の間違いを認めないので,読み手を誤解させて自分が正しいと思わせようと,事実を曲げてコメントを書く (#3300402 [srad.jp])

        bubon 氏のコメントも,擁護している qem_morioka 氏と同じく,確かめられる情報を出さず,
        要点をまとめられずに自分の主張だけを書くスタイルなのは趣深いです.

        qem_moriokaさんの言葉が不十分で総叩きに合っていますが、基本的にはqem_moriokaさんのおっしゃっている事は納得できます。

        漠然と「基本的に」といって具体的な個所を示していただけないのは残念です.
        読む人を誤解させるためでしょうか.
        その後で qem_morioka 氏の言っていない新しい話題に移ると,なお理解が難しいですね.

        そもそも AlphaGo, AlphaGo Zero において,
        プログラム側が囲碁のルールを知っているかどうかは重要ではありません.
        ルールについて qem_morioka 氏が以前書いたコメントの不十分さを,taka2 氏に極端だと指摘された [srad.jp]のが,
        qem_morioka 氏にはしゃくに触ったものの,その指摘が理解できなかったのでしょう.
        今回 AlphaGo が再び話題になったので,同じ間違いを繰り返し,反論できないので,
        話を反らしては間違いの上塗りを重ねた結果が qem_morioka 氏の一連のコメントでしょう.

        qem_morioka 氏が

        AlphaGO
        →囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
        強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。

        と強化学習と書いたのに対して,

        Zeroではない方のAlphaGo (AlphaGo Lee) のポリシーネットワークは、与えられた局面から次に指す手を予測するように、
        人間の棋譜から教師あり学習をさせて作られています。

        のように強化学習に触れない,という食い違いがあります.
        自分の書いていることと食い違うコメントに納得できるのは,なかなか味わい深いですね.

        そして,

        AlphaGo Zeroの方は、全く人間の棋譜なしで、自分自身で対戦しながら自分を鍛えたので、碁のルールを実装している、という言葉を使っているのだと思います。

        において,棋譜なしの自己対戦から碁のルールの実装へはつながりません.
        qem_morioka 氏以外がわかるのは素晴らしいですね.

        あなたの納得はさておき,ほかの読み手が誤解しないように,
        AC でスコア0 に沈んでいる, qem_morioka 氏の基本的な間違いへの指摘をまとめておきます.

        教師なし学習という用語を理解せずに使う: #3299023 [srad.jp] by qem_morioka

        AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。

        AlphaGo Zero は教師なし学習を使っていない(#3299279 [srad.jp], #3299332 [srad.jp])

        AlphaGo での強化学習の役割を誤解している: #3299117 by qem_morioka

        AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。

        方針ネットワークは,まず棋士の棋譜を正確に予測するように教師付き学習を行う.
        そのあと,方針勾配強化学習により,その方針ネットワークを調整している (#3299476 [srad.jp])

        相手の指摘が違うというために,細かな違いを大げさに取り上げる: [srad.jp] by qem_morioka

        その原典をもう少し調べて読み解くと、学習そして実戦までに3つのニューラルネットを使っていました。
        (省略)
        (3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク

        (3) は方針ネットワークと同じ種類の関数で,概要を理解するために区別する必要のない,細かい部分 (#2200402 [srad.jp])

        元情報をたどれない,意味不明の訳語を使う: #3300024 [srad.jp] by qem_morioka

        fast rollout policyが高速(評価)ネットワークですね。

        fast は説明の単語で rollout policy が正しい用語.
        rollout policy には,高速/評価/ネットワークのどの意味も入っていない,
        通じない訳語 () [srad.jp]

        使っているネットワークを使っていないと間違える: #3299497 [srad.jp] by qem_morioka

        方針ネットワークは評価値ネットワークの強化学習のために
        学習段階で使いますが、実戦時の探索中にまったく新しいルートを
        評価するときに使用するぐらいで、評価値ネットワークの学習が終わった後は
        ほとんど使用していません。

        (3) 実際の棋士との対戦手順を説明している, 前論文12ページの図5では,
        ステップ d で方針ネットワークが指し手を選ぶ手順に組み込まれている (#3300402 [srad.jp])

        親コメント
      • by Anonymous Coward

        そのID番号でその見識ならば、ある程度は後進の教育に携わっているはずと見受けられますが、
        その立場で、qem_moriokaさんのような、何も理解せずにそれっぽい組み立てを頭の中で
        している人に、「そうとも言える」なんて解釈をしてあげるのが、
        qem_moriokaさんにとっても周りにとっても悪影響なのは理解しましょう。

        結局、あなたの言っている解釈じゃ、ニューラルネットはルールを実装していない、
        モンテカルロ木探索にはルールが必要といっているだけですよね。
        それは、ニューラルネットやゲーム木探索を知っている人ならば、全員、今時なら高校生程度で、
        火を見るより明確に知っています。

        僕も、嘘八百で展開した雑談は好きなんだけど、間違いや不理解を指摘されてもそのままにして展開しても、
        何も生まれないからつまんないんだよね。

物事のやり方は一つではない -- Perlな人

処理中...