パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

東ロボくん、東大を断念」記事へのコメント

  • 食わせる正解が少ない場合は(記事のを引用すれば)寒いという言葉の意味を
    どこかで教える必要がでてくるってことか。

    AlphaGOみたいに囲碁のルール教えなくても、とにかく大量にデータ食わせて
    さらに自己対戦して学習を深化させれば、もう意味(囲碁のルール)なんて
    関係なくなる、いわゆる無我の境地にたっ(回線が切れました

    • by Anonymous Coward on 2016年11月09日 16時16分 (#3111558)

      AlphaGoでも囲碁の「ルール」は教えてるんじゃね.
      教えてないのは定石や評価関数や、可能性の高い次の手の予想など。

      しかし自然言語理解においてはその覚えるべきルールが、即ち「常識」があまりに多すぎるんだな。
      これはもう「未来の二つの顔」のネタの一つになってたくらいの古典的問題の一つ。

      親コメント
      • AlphaGOに囲碁のルールは全く教えてないよ。

        良いとされる棋譜を大量に読み込ませ(教師付き学習)、
        ある程度勝つ結果が出てきたら自分自身対戦させて学習を深化(強化学習)させた。

        対象のルールを教えなくても学習を深化させれば良い結果を出す、
        ということで、AlphaGOの学習に偏った方法も話題になったと思ったけど…

        親コメント
        • by Anonymous Coward on 2016年11月09日 17時27分 (#3111613)

          囲碁のルールを知らずに、勝ち負け判定とかコウ争いとかできるの?

          >良いとされる棋譜を大量に読み込ませ(教師付き学習)、
          >ある程度勝つ結果が出てきたら自分自身対戦させて学習を深化(強化学習)させた。
          それ「囲碁のルール」の話じゃねえよ。

          親コメント
        • by Anonymous Coward on 2016年11月09日 18時39分 (#3111707)

          ルールしならなきゃ勝ち負けも判定できないじゃん
          交互に打つというルールも知らないの??
          ルールと定石、棋譜あたりが混同されているような…

          親コメント
          • 交互に打つルールを犯して勝った棋譜が大量にあれば
            AlphaGoはそのように打つでしょうね _(:3」∠)_

            反則がどのようなものかは理解していなくても
            こうやったら反則になる、ということは学習している

            ということです。

            親コメント
            • by Anonymous Coward

              同様に「勝ったかどうかは教師信号に含めるが、「どうやったら勝ちか」は教えてない」ってことか??
              ははぁ、反則にしても「ルール違反かどうかを判定して教師信号に含めている」わけね。
              それを「教えていない」と言ってると…
              微妙やな…
              ・ 「「どうやったら勝ちか」を判定している教師」はシステムの一部ではないのか?
              ・ 一部ではないとすれば、DLシステムに「ルールを教える」とはどういう状況を指すのか?

              私は前者だと思っていたので「ルールは知ってるだろう」と思ったけど、
              後者ととらえれば…。
              なるほどおっしゃることはわかりました。

              「AlphaGOプログラムには教えていない」が「学習データには教えている」と言う感じか…
              しかも「教える」と言っても「例を大量に出して間接的に教えてる」だけでその論理は説明してないよねと。

              そう考えると「ルールは知らない」と言うのもうなづけるなぁ…

              うーんなるほどねぇ…表現する単語が足りん気分ですな

              • そうです…
                囲碁のルール、打ち方、定石などは解らない(それ自体アルゴリズムに無い)。
                ただ、勝利と呼ばれる状態に近づける確率が高くなる手を探索し、選択している。

                要は「理屈はわからんが、こうすれば良くなるってオレ知ってるんだ! (と、
                故障したテレビに斜め45度からチョップを振り下ろす)」

                とあまり変わらないんですよ(えーw

                親コメント
              • by Anonymous Coward

                よくもまぁ、こんな嘘を思いつくもんだ。
                適当な嘘を想像して書く暇があったら、少しWebで調べればいいのに。

              • おなじNature論文を元ネタとする紹介するblog
                「AlphaGo の論文をざっくり紹介」
                http://technocrat.hatenablog.com/entry/2016/03/14/011152 [hatenablog.com]

                1.教師あり方策ネットワーク
                 人の指し手(棋譜)を教師としていかに真似るかを目指す
                2.強化学習方策ネットワーク
                 1.を基として自分自身と対戦してより勝利できるようパラメータを更新
                3.状態価値関数ネットワーク
                 盤面の局面に対する価値、1.に従って打ち続けると勝利できる確率の期待値
                 自己対戦3000万回の局面と勝敗データで学習
                 
                で、実際の対局はこいつらをもとにMCTSで打つ手を探索している。
                (負けた回はこの探索枝から漏れている手だった)
                 
                もともとのGoogleによるBlog
                「AlphaGo: マシンラーニングで囲碁を」
                https://japan.googleblog.com/2016/01/alphago.html [googleblog.com]

                ここを引用しよう。

                私たちは、コンピューターが囲碁をマスターし、AI にとって最難関といわれた問題を解くことに成功したことを喜んでいます。しかしながら、この結果の最も重要なことは、AlphaGo が人間の手によって作られたルールに基づいた「エキスパートシステム」ではなく、普遍的な機械学習技術を使って、囲碁を自らマスターした、という点です。

                親コメント
              • by Anonymous Coward

                引用してるblogでも、しっかりと
                「実際に局面sに対してどのように手aを出すかはモンテカルロ法に基づきます。」
                って書いてあるじゃん。

                MCTSって何かわかってる?
                それでもまだ、囲碁のルールを自ら学習して獲得したというのか。

              • そんなにカジノが好きだと言うので
                モンテカルロ法ってどういうものなのか調べてみました(゚∀゚)!
                wikiからの引用になりますが

                行動によって得られた報酬経験だけを頼りに状態価値、行動価値を推定する方法のことを指す

                AlphaGoの場合囲碁のルールを教えた(つまり従来のこうすれば~こうするという分岐を多数含んだエキスパートシステム)わけじゃない。

                モンテカルロ法はある状態 s から何らかの方策で次の行動を選び、 Rt が収束するまでそれを繰り返した後、V(s) と Q(s, a) を更新するという行動を繰り返して最適な状態および行動を学習する。

                囲碁のルールに則って次の行動を選んでいるわけじゃないです。
                あくまで選んだ結果が囲碁のルールに則っているだけです。

                それでもまだ、囲碁のルールを自ら学習して獲得したというのか。

                そうですよ?

                親コメント
              • by Anonymous Coward

                >行動によって得られた報酬経験
                ルール知らなかったら、どうやって行動を起こすのよ。
                黒番なのに白石打ってみたり、石とってみたりするのか?
                その後どうやって勝ち負けを判断して、報酬経験を得るんだ?
                言葉尻だけじゃなくて、ちゃんと理解してから出直してね。

              • ルール知らなかったら、どうやって行動を起こすのよ。

                ルール知らなくても、こうすれば勝つ確率が高くなるという学習結果を
                ランダムで探索して打つ手を決めるんです。そこに囲碁のルールも
                定石も定跡も存在しないんですよ。

                モンテカルロって名前の意味、どうしてモンテカルロなのかまず調べようぜ。

                黒番なのに白石打って勝った棋譜があるのなら、それを学習して
                そう打つようになったと思うけど、そんな棋譜があるの?

                親コメント
              • by Anonymous Coward

                言葉尻だけじゃなくて、ちゃんと理解してから出直してね。

        • by Anonymous Coward on 2016年11月09日 21時20分 (#3111837)

          こういうデマを広げちゃ駄目よ。
          AlphaGoの基本は、既存のMCTSであって、当然囲碁のルール通りに打つ仕組みが根幹にある。
          ルールを知らなかったら、ランダムにプレイアウトを作るMCTSが動作するわけがない。
          そのうえで、どの手がよさそうか評価するところにDeepLearningを使ってるだけ。

          親コメント
          • 囲碁のルールは教えていないです。教えているのはこれが良い棋譜、これが
            悪い棋譜というものだけ(教師付き学習)で、ランダムプレイさせてるわけじゃない。

            # MCTSの漏れで負けたのは確かだけどね

            親コメント
            • by Anonymous Coward on 2016年11月10日 11時24分 (#3112102)

              ちゃんとネイチャーの記事読め。
              MCTSと言っている時点でルールが前提なのは当たり前。
              あなたMCTSも全然分かってないでしょ。

              さらに強化学習の部分もうそ。
              自己対戦で強化学習の部分は、かえって精度落とすから、バッサリ限定利用にしている。

              親コメント
              • by Anonymous Coward

                プレイアウトがあるからMCTSが使えるとか、最初聞いた時は「その発想はなかった!」だったわ。
                これ、チェスとか将棋だと使えないたぶんテクニックなんだよね。

                そもそも「黒と白が交互に差す」「相手のコマに触ったり動かしたりしてはダメ」
                「一度打ったコマは動かしちゃダメ」みたいなのも、かなり特殊なルールだけど、この辺も
                棋譜だけ与えて学習しろと言われてもお手上げだろうね。基本だけでも囲碁を知ってる人間なら、
                その辺は「常識」なのでルールの範疇だと意識してないかもしれない。

                #麻雀なら「一定条件を満たせば相手の捨てた牌を取ることができる」というルールがあったり。

目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond

処理中...