アカウント名:
パスワード:
食わせる正解が少ない場合は(記事のを引用すれば)寒いという言葉の意味をどこかで教える必要がでてくるってことか。
AlphaGOみたいに囲碁のルール教えなくても、とにかく大量にデータ食わせてさらに自己対戦して学習を深化させれば、もう意味(囲碁のルール)なんて関係なくなる、いわゆる無我の境地にたっ(回線が切れました
AlphaGoでも囲碁の「ルール」は教えてるんじゃね.教えてないのは定石や評価関数や、可能性の高い次の手の予想など。
しかし自然言語理解においてはその覚えるべきルールが、即ち「常識」があまりに多すぎるんだな。これはもう「未来の二つの顔」のネタの一つになってたくらいの古典的問題の一つ。
AlphaGOに囲碁のルールは全く教えてないよ。
良いとされる棋譜を大量に読み込ませ(教師付き学習)、ある程度勝つ結果が出てきたら自分自身対戦させて学習を深化(強化学習)させた。
対象のルールを教えなくても学習を深化させれば良い結果を出す、ということで、AlphaGOの学習に偏った方法も話題になったと思ったけど…
ルールしならなきゃ勝ち負けも判定できないじゃん交互に打つというルールも知らないの??ルールと定石、棋譜あたりが混同されているような…
交互に打つルールを犯して勝った棋譜が大量にあればAlphaGoはそのように打つでしょうね _(:3」∠)_
反則がどのようなものかは理解していなくてもこうやったら反則になる、ということは学習している
ということです。
同様に「勝ったかどうかは教師信号に含めるが、「どうやったら勝ちか」は教えてない」ってことか??ははぁ、反則にしても「ルール違反かどうかを判定して教師信号に含めている」わけね。それを「教えていない」と言ってると…微妙やな…・ 「「どうやったら勝ちか」を判定している教師」はシステムの一部ではないのか?・ 一部ではないとすれば、DLシステムに「ルールを教える」とはどういう状況を指すのか?
私は前者だと思っていたので「ルールは知ってるだろう」と思ったけど、後者ととらえれば…。なるほどおっしゃることはわかりました。
「AlphaGOプログラムには教えていない」が「学習データには教えている」と言う感じか…しかも「教える」と言っても「例を大量に出して間接的に教えてる」だけでその論理は説明してないよねと。
そう考えると「ルールは知らない」と言うのもうなづけるなぁ…
うーんなるほどねぇ…表現する単語が足りん気分ですな
そうです…囲碁のルール、打ち方、定石などは解らない(それ自体アルゴリズムに無い)。ただ、勝利と呼ばれる状態に近づける確率が高くなる手を探索し、選択している。
要は「理屈はわからんが、こうすれば良くなるってオレ知ってるんだ! (と、故障したテレビに斜め45度からチョップを振り下ろす)」
とあまり変わらないんですよ(えーw
よくもまぁ、こんな嘘を思いつくもんだ。適当な嘘を想像して書く暇があったら、少しWebで調べればいいのに。
おなじNature論文を元ネタとする紹介するblog「AlphaGo の論文をざっくり紹介」http://technocrat.hatenablog.com/entry/2016/03/14/011152 [hatenablog.com]
1.教師あり方策ネットワーク 人の指し手(棋譜)を教師としていかに真似るかを目指す2.強化学習方策ネットワーク 1.を基として自分自身と対戦してより勝利できるようパラメータを更新3.状態価値関数ネットワーク 盤面の局面に対する価値、1.に従って打ち続けると勝利できる確率の期待値 自己対戦3000万回の局面と勝敗データで学習 で、実際の対局はこいつらをもとにMCTSで打つ手を探索している。(負けた回はこの探索枝から漏れている手だった) もともとのGoogleによるBlog「AlphaGo: マシンラーニングで囲碁を」https://japan.googleblog.com/2016/01/alphago.html [googleblog.com]
ここを引用しよう。
私たちは、コンピューターが囲碁をマスターし、AI にとって最難関といわれた問題を解くことに成功したことを喜んでいます。しかしながら、この結果の最も重要なことは、AlphaGo が人間の手によって作られたルールに基づいた「エキスパートシステム」ではなく、普遍的な機械学習技術を使って、囲碁を自らマスターした、という点です。
引用してるblogでも、しっかりと「実際に局面sに対してどのように手aを出すかはモンテカルロ法に基づきます。」って書いてあるじゃん。
MCTSって何かわかってる?それでもまだ、囲碁のルールを自ら学習して獲得したというのか。
そんなにカジノが好きだと言うのでモンテカルロ法ってどういうものなのか調べてみました(゚∀゚)!wikiからの引用になりますが
行動によって得られた報酬経験だけを頼りに状態価値、行動価値を推定する方法のことを指す
AlphaGoの場合囲碁のルールを教えた(つまり従来のこうすれば~こうするという分岐を多数含んだエキスパートシステム)わけじゃない。
モンテカルロ法はある状態 s から何らかの方策で次の行動を選び、 Rt が収束するまでそれを繰り返した後、V(s) と Q(s, a) を更新するという行動を繰り返して最適な状態および行動を学習する。
囲碁のルールに則って次の行動を選んでいるわけじゃないです。あくまで選んだ結果が囲碁のルールに則っているだけです。
それでもまだ、囲碁のルールを自ら学習して獲得したというのか。
そうですよ?
>行動によって得られた報酬経験ルール知らなかったら、どうやって行動を起こすのよ。黒番なのに白石打ってみたり、石とってみたりするのか?その後どうやって勝ち負けを判断して、報酬経験を得るんだ?言葉尻だけじゃなくて、ちゃんと理解してから出直してね。
ルール知らなかったら、どうやって行動を起こすのよ。
ルール知らなくても、こうすれば勝つ確率が高くなるという学習結果をランダムで探索して打つ手を決めるんです。そこに囲碁のルールも定石も定跡も存在しないんですよ。
モンテカルロって名前の意味、どうしてモンテカルロなのかまず調べようぜ。
黒番なのに白石打って勝った棋譜があるのなら、それを学習してそう打つようになったと思うけど、そんな棋譜があるの?
言葉尻だけじゃなくて、ちゃんと理解してから出直してね。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
犯人はmoriwaka -- Anonymous Coward
AIが自ら判断して断念したというのなら評価する (スコア:1)
食わせる正解が少ない場合は(記事のを引用すれば)寒いという言葉の意味を
どこかで教える必要がでてくるってことか。
AlphaGOみたいに囲碁のルール教えなくても、とにかく大量にデータ食わせて
さらに自己対戦して学習を深化させれば、もう意味(囲碁のルール)なんて
関係なくなる、いわゆる無我の境地にたっ(回線が切れました
Re: (スコア:1)
AlphaGoでも囲碁の「ルール」は教えてるんじゃね.
教えてないのは定石や評価関数や、可能性の高い次の手の予想など。
しかし自然言語理解においてはその覚えるべきルールが、即ち「常識」があまりに多すぎるんだな。
これはもう「未来の二つの顔」のネタの一つになってたくらいの古典的問題の一つ。
Re: (スコア:1)
AlphaGOに囲碁のルールは全く教えてないよ。
良いとされる棋譜を大量に読み込ませ(教師付き学習)、
ある程度勝つ結果が出てきたら自分自身対戦させて学習を深化(強化学習)させた。
対象のルールを教えなくても学習を深化させれば良い結果を出す、
ということで、AlphaGOの学習に偏った方法も話題になったと思ったけど…
Re: (スコア:1)
ルールしならなきゃ勝ち負けも判定できないじゃん
交互に打つというルールも知らないの??
ルールと定石、棋譜あたりが混同されているような…
Re: (スコア:1)
交互に打つルールを犯して勝った棋譜が大量にあれば
AlphaGoはそのように打つでしょうね _(:3」∠)_
反則がどのようなものかは理解していなくても
こうやったら反則になる、ということは学習している
ということです。
Re: (スコア:0)
同様に「勝ったかどうかは教師信号に含めるが、「どうやったら勝ちか」は教えてない」ってことか??
ははぁ、反則にしても「ルール違反かどうかを判定して教師信号に含めている」わけね。
それを「教えていない」と言ってると…
微妙やな…
・ 「「どうやったら勝ちか」を判定している教師」はシステムの一部ではないのか?
・ 一部ではないとすれば、DLシステムに「ルールを教える」とはどういう状況を指すのか?
私は前者だと思っていたので「ルールは知ってるだろう」と思ったけど、
後者ととらえれば…。
なるほどおっしゃることはわかりました。
「AlphaGOプログラムには教えていない」が「学習データには教えている」と言う感じか…
しかも「教える」と言っても「例を大量に出して間接的に教えてる」だけでその論理は説明してないよねと。
そう考えると「ルールは知らない」と言うのもうなづけるなぁ…
うーんなるほどねぇ…表現する単語が足りん気分ですな
Re: (スコア:2)
そうです…
囲碁のルール、打ち方、定石などは解らない(それ自体アルゴリズムに無い)。
ただ、勝利と呼ばれる状態に近づける確率が高くなる手を探索し、選択している。
要は「理屈はわからんが、こうすれば良くなるってオレ知ってるんだ! (と、
故障したテレビに斜め45度からチョップを振り下ろす)」
とあまり変わらないんですよ(えーw
Re: (スコア:0)
よくもまぁ、こんな嘘を思いつくもんだ。
適当な嘘を想像して書く暇があったら、少しWebで調べればいいのに。
Re:AIが自ら判断して断念したというのなら評価する (スコア:1)
おなじNature論文を元ネタとする紹介するblog
「AlphaGo の論文をざっくり紹介」
http://technocrat.hatenablog.com/entry/2016/03/14/011152 [hatenablog.com]
1.教師あり方策ネットワーク
人の指し手(棋譜)を教師としていかに真似るかを目指す
2.強化学習方策ネットワーク
1.を基として自分自身と対戦してより勝利できるようパラメータを更新
3.状態価値関数ネットワーク
盤面の局面に対する価値、1.に従って打ち続けると勝利できる確率の期待値
自己対戦3000万回の局面と勝敗データで学習
で、実際の対局はこいつらをもとにMCTSで打つ手を探索している。
(負けた回はこの探索枝から漏れている手だった)
もともとのGoogleによるBlog
「AlphaGo: マシンラーニングで囲碁を」
https://japan.googleblog.com/2016/01/alphago.html [googleblog.com]
ここを引用しよう。
私たちは、コンピューターが囲碁をマスターし、AI にとって最難関といわれた問題を解くことに成功したことを喜んでいます。しかしながら、この結果の最も重要なことは、AlphaGo が人間の手によって作られたルールに基づいた「エキスパートシステム」ではなく、普遍的な機械学習技術を使って、囲碁を自らマスターした、という点です。
Re: (スコア:0)
引用してるblogでも、しっかりと
「実際に局面sに対してどのように手aを出すかはモンテカルロ法に基づきます。」
って書いてあるじゃん。
MCTSって何かわかってる?
それでもまだ、囲碁のルールを自ら学習して獲得したというのか。
Re:AIが自ら判断して断念したというのなら評価する (スコア:1)
そんなにカジノが好きだと言うので
モンテカルロ法ってどういうものなのか調べてみました(゚∀゚)!
wikiからの引用になりますが
行動によって得られた報酬経験だけを頼りに状態価値、行動価値を推定する方法のことを指す
AlphaGoの場合囲碁のルールを教えた(つまり従来のこうすれば~こうするという分岐を多数含んだエキスパートシステム)わけじゃない。
モンテカルロ法はある状態 s から何らかの方策で次の行動を選び、 Rt が収束するまでそれを繰り返した後、V(s) と Q(s, a) を更新するという行動を繰り返して最適な状態および行動を学習する。
囲碁のルールに則って次の行動を選んでいるわけじゃないです。
あくまで選んだ結果が囲碁のルールに則っているだけです。
それでもまだ、囲碁のルールを自ら学習して獲得したというのか。
そうですよ?
Re: (スコア:0)
>行動によって得られた報酬経験
ルール知らなかったら、どうやって行動を起こすのよ。
黒番なのに白石打ってみたり、石とってみたりするのか?
その後どうやって勝ち負けを判断して、報酬経験を得るんだ?
言葉尻だけじゃなくて、ちゃんと理解してから出直してね。
Re:AIが自ら判断して断念したというのなら評価する (スコア:1)
ルール知らなかったら、どうやって行動を起こすのよ。
ルール知らなくても、こうすれば勝つ確率が高くなるという学習結果を
ランダムで探索して打つ手を決めるんです。そこに囲碁のルールも
定石も定跡も存在しないんですよ。
モンテカルロって名前の意味、どうしてモンテカルロなのかまず調べようぜ。
黒番なのに白石打って勝った棋譜があるのなら、それを学習して
そう打つようになったと思うけど、そんな棋譜があるの?
Re: (スコア:0)
言葉尻だけじゃなくて、ちゃんと理解してから出直してね。