アカウント名:
パスワード:
食わせる正解が少ない場合は(記事のを引用すれば)寒いという言葉の意味をどこかで教える必要がでてくるってことか。
AlphaGOみたいに囲碁のルール教えなくても、とにかく大量にデータ食わせてさらに自己対戦して学習を深化させれば、もう意味(囲碁のルール)なんて関係なくなる、いわゆる無我の境地にたっ(回線が切れました
AlphaGoでも囲碁の「ルール」は教えてるんじゃね.教えてないのは定石や評価関数や、可能性の高い次の手の予想など。
しかし自然言語理解においてはその覚えるべきルールが、即ち「常識」があまりに多すぎるんだな。これはもう「未来の二つの顔」のネタの一つになってたくらいの古典的問題の一つ。
AlphaGOに囲碁のルールは全く教えてないよ。
良いとされる棋譜を大量に読み込ませ(教師付き学習)、ある程度勝つ結果が出てきたら自分自身対戦させて学習を深化(強化学習)させた。
対象のルールを教えなくても学習を深化させれば良い結果を出す、ということで、AlphaGOの学習に偏った方法も話題になったと思ったけど…
囲碁のルールを知らずに、勝ち負け判定とかコウ争いとかできるの?
>良いとされる棋譜を大量に読み込ませ(教師付き学習)、>ある程度勝つ結果が出てきたら自分自身対戦させて学習を深化(強化学習)させた。それ「囲碁のルール」の話じゃねえよ。
ルールしならなきゃ勝ち負けも判定できないじゃん交互に打つというルールも知らないの??ルールと定石、棋譜あたりが混同されているような…
交互に打つルールを犯して勝った棋譜が大量にあればAlphaGoはそのように打つでしょうね _(:3」∠)_
反則がどのようなものかは理解していなくてもこうやったら反則になる、ということは学習している
ということです。
同様に「勝ったかどうかは教師信号に含めるが、「どうやったら勝ちか」は教えてない」ってことか??ははぁ、反則にしても「ルール違反かどうかを判定して教師信号に含めている」わけね。それを「教えていない」と言ってると…微妙やな…・ 「「どうやったら勝ちか」を判定している教師」はシステムの一部ではないのか?・ 一部ではないとすれば、DLシステムに「ルールを教える」とはどういう状況を指すのか?
私は前者だと思っていたので「ルールは知ってるだろう」と思ったけど、後者ととらえれば…。なるほどおっしゃることはわかりました。
「AlphaGOプログラムには教えていない」が「学習データには教えている」と言う感じか…しかも「教える」と言っても「例を大量に出して間接的に教えてる」だけでその論理は説明してないよねと。
そう考えると「ルールは知らない」と言うのもうなづけるなぁ…
うーんなるほどねぇ…表現する単語が足りん気分ですな
そうです…囲碁のルール、打ち方、定石などは解らない(それ自体アルゴリズムに無い)。ただ、勝利と呼ばれる状態に近づける確率が高くなる手を探索し、選択している。
要は「理屈はわからんが、こうすれば良くなるってオレ知ってるんだ! (と、故障したテレビに斜め45度からチョップを振り下ろす)」
とあまり変わらないんですよ(えーw
よくもまぁ、こんな嘘を思いつくもんだ。適当な嘘を想像して書く暇があったら、少しWebで調べればいいのに。
おなじNature論文を元ネタとする紹介するblog「AlphaGo の論文をざっくり紹介」http://technocrat.hatenablog.com/entry/2016/03/14/011152 [hatenablog.com]
1.教師あり方策ネットワーク 人の指し手(棋譜)を教師としていかに真似るかを目指す2.強化学習方策ネットワーク 1.を基として自分自身と対戦してより勝利できるようパラメータを更新3.状態価値関数ネットワーク 盤面の局面に対する価値、1.に従って打ち続けると勝利できる確率の期待値 自己対戦3000万回の局面と勝敗データで学習 で、実際の対局はこいつらをもとにMCTSで打つ手を探索している。(負けた回はこの探索枝から漏れている手だった) もともとのGoogleによるBlog「AlphaGo: マシンラーニングで囲碁を」https://japan.googleblog.com/2016/01/alphago.html [googleblog.com]
ここを引用しよう。
私たちは、コンピューターが囲碁をマスターし、AI にとって最難関といわれた問題を解くことに成功したことを喜んでいます。しかしながら、この結果の最も重要なことは、AlphaGo が人間の手によって作られたルールに基づいた「エキスパートシステム」ではなく、普遍的な機械学習技術を使って、囲碁を自らマスターした、という点です。
引用してるblogでも、しっかりと「実際に局面sに対してどのように手aを出すかはモンテカルロ法に基づきます。」って書いてあるじゃん。
MCTSって何かわかってる?それでもまだ、囲碁のルールを自ら学習して獲得したというのか。
そんなにカジノが好きだと言うのでモンテカルロ法ってどういうものなのか調べてみました(゚∀゚)!wikiからの引用になりますが
行動によって得られた報酬経験だけを頼りに状態価値、行動価値を推定する方法のことを指す
AlphaGoの場合囲碁のルールを教えた(つまり従来のこうすれば~こうするという分岐を多数含んだエキスパートシステム)わけじゃない。
モンテカルロ法はある状態 s から何らかの方策で次の行動を選び、 Rt が収束するまでそれを繰り返した後、V(s) と Q(s, a) を更新するという行動を繰り返して最適な状態および行動を学習する。
囲碁のルールに則って次の行動を選んでいるわけじゃないです。あくまで選んだ結果が囲碁のルールに則っているだけです。
それでもまだ、囲碁のルールを自ら学習して獲得したというのか。
そうですよ?
>行動によって得られた報酬経験ルール知らなかったら、どうやって行動を起こすのよ。黒番なのに白石打ってみたり、石とってみたりするのか?その後どうやって勝ち負けを判断して、報酬経験を得るんだ?言葉尻だけじゃなくて、ちゃんと理解してから出直してね。
ルール知らなかったら、どうやって行動を起こすのよ。
ルール知らなくても、こうすれば勝つ確率が高くなるという学習結果をランダムで探索して打つ手を決めるんです。そこに囲碁のルールも定石も定跡も存在しないんですよ。
モンテカルロって名前の意味、どうしてモンテカルロなのかまず調べようぜ。
黒番なのに白石打って勝った棋譜があるのなら、それを学習してそう打つようになったと思うけど、そんな棋譜があるの?
言葉尻だけじゃなくて、ちゃんと理解してから出直してね。
こういうデマを広げちゃ駄目よ。AlphaGoの基本は、既存のMCTSであって、当然囲碁のルール通りに打つ仕組みが根幹にある。ルールを知らなかったら、ランダムにプレイアウトを作るMCTSが動作するわけがない。そのうえで、どの手がよさそうか評価するところにDeepLearningを使ってるだけ。
囲碁のルールは教えていないです。教えているのはこれが良い棋譜、これが悪い棋譜というものだけ(教師付き学習)で、ランダムプレイさせてるわけじゃない。
# MCTSの漏れで負けたのは確かだけどね
ちゃんとネイチャーの記事読め。MCTSと言っている時点でルールが前提なのは当たり前。あなたMCTSも全然分かってないでしょ。
さらに強化学習の部分もうそ。自己対戦で強化学習の部分は、かえって精度落とすから、バッサリ限定利用にしている。
プレイアウトがあるからMCTSが使えるとか、最初聞いた時は「その発想はなかった!」だったわ。これ、チェスとか将棋だと使えないたぶんテクニックなんだよね。
そもそも「黒と白が交互に差す」「相手のコマに触ったり動かしたりしてはダメ」「一度打ったコマは動かしちゃダメ」みたいなのも、かなり特殊なルールだけど、この辺も棋譜だけ与えて学習しろと言われてもお手上げだろうね。基本だけでも囲碁を知ってる人間なら、その辺は「常識」なのでルールの範疇だと意識してないかもしれない。
#麻雀なら「一定条件を満たせば相手の捨てた牌を取ることができる」というルールがあったり。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs
AIが自ら判断して断念したというのなら評価する (スコア:1)
食わせる正解が少ない場合は(記事のを引用すれば)寒いという言葉の意味を
どこかで教える必要がでてくるってことか。
AlphaGOみたいに囲碁のルール教えなくても、とにかく大量にデータ食わせて
さらに自己対戦して学習を深化させれば、もう意味(囲碁のルール)なんて
関係なくなる、いわゆる無我の境地にたっ(回線が切れました
Re: (スコア:1)
AlphaGoでも囲碁の「ルール」は教えてるんじゃね.
教えてないのは定石や評価関数や、可能性の高い次の手の予想など。
しかし自然言語理解においてはその覚えるべきルールが、即ち「常識」があまりに多すぎるんだな。
これはもう「未来の二つの顔」のネタの一つになってたくらいの古典的問題の一つ。
Re:AIが自ら判断して断念したというのなら評価する (スコア:1)
AlphaGOに囲碁のルールは全く教えてないよ。
良いとされる棋譜を大量に読み込ませ(教師付き学習)、
ある程度勝つ結果が出てきたら自分自身対戦させて学習を深化(強化学習)させた。
対象のルールを教えなくても学習を深化させれば良い結果を出す、
ということで、AlphaGOの学習に偏った方法も話題になったと思ったけど…
Re:AIが自ら判断して断念したというのなら評価する (スコア:1)
囲碁のルールを知らずに、勝ち負け判定とかコウ争いとかできるの?
>良いとされる棋譜を大量に読み込ませ(教師付き学習)、
>ある程度勝つ結果が出てきたら自分自身対戦させて学習を深化(強化学習)させた。
それ「囲碁のルール」の話じゃねえよ。
Re:AIが自ら判断して断念したというのなら評価する (スコア:2)
Re:AIが自ら判断して断念したというのなら評価する (スコア:1)
ルールしならなきゃ勝ち負けも判定できないじゃん
交互に打つというルールも知らないの??
ルールと定石、棋譜あたりが混同されているような…
Re:AIが自ら判断して断念したというのなら評価する (スコア:1)
交互に打つルールを犯して勝った棋譜が大量にあれば
AlphaGoはそのように打つでしょうね _(:3」∠)_
反則がどのようなものかは理解していなくても
こうやったら反則になる、ということは学習している
ということです。
Re: (スコア:0)
同様に「勝ったかどうかは教師信号に含めるが、「どうやったら勝ちか」は教えてない」ってことか??
ははぁ、反則にしても「ルール違反かどうかを判定して教師信号に含めている」わけね。
それを「教えていない」と言ってると…
微妙やな…
・ 「「どうやったら勝ちか」を判定している教師」はシステムの一部ではないのか?
・ 一部ではないとすれば、DLシステムに「ルールを教える」とはどういう状況を指すのか?
私は前者だと思っていたので「ルールは知ってるだろう」と思ったけど、
後者ととらえれば…。
なるほどおっしゃることはわかりました。
「AlphaGOプログラムには教えていない」が「学習データには教えている」と言う感じか…
しかも「教える」と言っても「例を大量に出して間接的に教えてる」だけでその論理は説明してないよねと。
そう考えると「ルールは知らない」と言うのもうなづけるなぁ…
うーんなるほどねぇ…表現する単語が足りん気分ですな
Re:AIが自ら判断して断念したというのなら評価する (スコア:2)
そうです…
囲碁のルール、打ち方、定石などは解らない(それ自体アルゴリズムに無い)。
ただ、勝利と呼ばれる状態に近づける確率が高くなる手を探索し、選択している。
要は「理屈はわからんが、こうすれば良くなるってオレ知ってるんだ! (と、
故障したテレビに斜め45度からチョップを振り下ろす)」
とあまり変わらないんですよ(えーw
Re: (スコア:0)
よくもまぁ、こんな嘘を思いつくもんだ。
適当な嘘を想像して書く暇があったら、少しWebで調べればいいのに。
Re:AIが自ら判断して断念したというのなら評価する (スコア:1)
おなじNature論文を元ネタとする紹介するblog
「AlphaGo の論文をざっくり紹介」
http://technocrat.hatenablog.com/entry/2016/03/14/011152 [hatenablog.com]
1.教師あり方策ネットワーク
人の指し手(棋譜)を教師としていかに真似るかを目指す
2.強化学習方策ネットワーク
1.を基として自分自身と対戦してより勝利できるようパラメータを更新
3.状態価値関数ネットワーク
盤面の局面に対する価値、1.に従って打ち続けると勝利できる確率の期待値
自己対戦3000万回の局面と勝敗データで学習
で、実際の対局はこいつらをもとにMCTSで打つ手を探索している。
(負けた回はこの探索枝から漏れている手だった)
もともとのGoogleによるBlog
「AlphaGo: マシンラーニングで囲碁を」
https://japan.googleblog.com/2016/01/alphago.html [googleblog.com]
ここを引用しよう。
私たちは、コンピューターが囲碁をマスターし、AI にとって最難関といわれた問題を解くことに成功したことを喜んでいます。しかしながら、この結果の最も重要なことは、AlphaGo が人間の手によって作られたルールに基づいた「エキスパートシステム」ではなく、普遍的な機械学習技術を使って、囲碁を自らマスターした、という点です。
Re: (スコア:0)
引用してるblogでも、しっかりと
「実際に局面sに対してどのように手aを出すかはモンテカルロ法に基づきます。」
って書いてあるじゃん。
MCTSって何かわかってる?
それでもまだ、囲碁のルールを自ら学習して獲得したというのか。
Re:AIが自ら判断して断念したというのなら評価する (スコア:1)
そんなにカジノが好きだと言うので
モンテカルロ法ってどういうものなのか調べてみました(゚∀゚)!
wikiからの引用になりますが
行動によって得られた報酬経験だけを頼りに状態価値、行動価値を推定する方法のことを指す
AlphaGoの場合囲碁のルールを教えた(つまり従来のこうすれば~こうするという分岐を多数含んだエキスパートシステム)わけじゃない。
モンテカルロ法はある状態 s から何らかの方策で次の行動を選び、 Rt が収束するまでそれを繰り返した後、V(s) と Q(s, a) を更新するという行動を繰り返して最適な状態および行動を学習する。
囲碁のルールに則って次の行動を選んでいるわけじゃないです。
あくまで選んだ結果が囲碁のルールに則っているだけです。
それでもまだ、囲碁のルールを自ら学習して獲得したというのか。
そうですよ?
Re: (スコア:0)
>行動によって得られた報酬経験
ルール知らなかったら、どうやって行動を起こすのよ。
黒番なのに白石打ってみたり、石とってみたりするのか?
その後どうやって勝ち負けを判断して、報酬経験を得るんだ?
言葉尻だけじゃなくて、ちゃんと理解してから出直してね。
Re:AIが自ら判断して断念したというのなら評価する (スコア:1)
ルール知らなかったら、どうやって行動を起こすのよ。
ルール知らなくても、こうすれば勝つ確率が高くなるという学習結果を
ランダムで探索して打つ手を決めるんです。そこに囲碁のルールも
定石も定跡も存在しないんですよ。
モンテカルロって名前の意味、どうしてモンテカルロなのかまず調べようぜ。
黒番なのに白石打って勝った棋譜があるのなら、それを学習して
そう打つようになったと思うけど、そんな棋譜があるの?
Re: (スコア:0)
言葉尻だけじゃなくて、ちゃんと理解してから出直してね。
Re:AIが自ら判断して断念したというのなら評価する (スコア:1)
こういうデマを広げちゃ駄目よ。
AlphaGoの基本は、既存のMCTSであって、当然囲碁のルール通りに打つ仕組みが根幹にある。
ルールを知らなかったら、ランダムにプレイアウトを作るMCTSが動作するわけがない。
そのうえで、どの手がよさそうか評価するところにDeepLearningを使ってるだけ。
Re:AIが自ら判断して断念したというのなら評価する (スコア:1)
囲碁のルールは教えていないです。教えているのはこれが良い棋譜、これが
悪い棋譜というものだけ(教師付き学習)で、ランダムプレイさせてるわけじゃない。
# MCTSの漏れで負けたのは確かだけどね
Re:AIが自ら判断して断念したというのなら評価する (スコア:1)
ちゃんとネイチャーの記事読め。
MCTSと言っている時点でルールが前提なのは当たり前。
あなたMCTSも全然分かってないでしょ。
さらに強化学習の部分もうそ。
自己対戦で強化学習の部分は、かえって精度落とすから、バッサリ限定利用にしている。
Re: (スコア:0)
プレイアウトがあるからMCTSが使えるとか、最初聞いた時は「その発想はなかった!」だったわ。
これ、チェスとか将棋だと使えないたぶんテクニックなんだよね。
そもそも「黒と白が交互に差す」「相手のコマに触ったり動かしたりしてはダメ」
「一度打ったコマは動かしちゃダメ」みたいなのも、かなり特殊なルールだけど、この辺も
棋譜だけ与えて学習しろと言われてもお手上げだろうね。基本だけでも囲碁を知ってる人間なら、
その辺は「常識」なのでルールの範疇だと意識してないかもしれない。
#麻雀なら「一定条件を満たせば相手の捨てた牌を取ることができる」というルールがあったり。