アカウント名:
パスワード:
AlphaGO→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。AI「俺の経験だと、この手が一番強い」
あなたの人工知能の解釈、以前からウソだらけ。だれか彼を教育する学習法を開発してくれ。俺には思いつかん。
1行目の囲碁のルールは実装していないって、なんだそりゃ。一度に百石置く場合とかから学習しているのか?ケッサクだな。ちなみに囲碁のルールって、一石ごと交互に置く以外はコウと自死ぐらいしかないのくらいはいい加減そろそろ調べて覚えてくれ。
本論はわからんけど囲碁のルールって細かいところは難しいよ隅のマガリ四目はそういうもんだとは覚えているけどちゃんと説明するのはでけんあと中国ルールだと半目勝ちなのに日本ルールだと半目負けとか
隅のマガリ四目は日本ルールだと「ルールの一部」になっているけど、中国ルールでは、ルールの一部ではなく、「ルールから導ける帰結」だから、コウ付き隅のマガリ四目とか、コウ材が消せない場合も含めて、双方の対局者が納得する結果になるよ。トラズ三目も同様。
その点で、中国ルールの方が優れている。個人的には、中国ルールの偶数ダメの問題を修正した台湾ルールが最も美しいと思う。
一度に百石置く場合とかから学習しているのか?ケッサクだな。
人間が与えた棋譜がそういうものであれば、そう学習する、そういうものです。もちろん食わせた棋譜は勝ったという実績のある棋譜ですから、それには囲碁のルールも内包してます。でもそれは棋譜に含まれてるというだけでAI自身はルールを持っていない、それがAlphaGO(今回のZeroじゃない方)です。
なので教師つき学習というのは初期学習をどのようにすればより早くより強くなるのかそのAIチューナーみたいな技能が・・・と思っていたらその教師すら不要となったよというのが今回の話。
安心してください、今回のZeroはちゃんと囲碁のルールを知ってますよwwwww
基本的なルールくらい与えないとコウの取り番間違えて反則負けになりそうなもんだが。コウとられた直後って盤面だけみりゃ取り返すのが最善手なんだし。
で、そんなもん既存の棋譜に内包してるのかね。反則負けになった棋譜があればいいの?第5期名人戦第4局でやらかした例があるけど、無勝負扱いだし(直接やらかしたのはチクンだけど、記録係の彦坂直人が間違えたため)https://games.yahoo.co.jp/qa/detail?qid=13134953508 [yahoo.co.jp]
コウとられた直後って盤面だけみりゃ取り返すのが最善手なんだし。
その場その場の評価によって次の手を決めるのはAIを導入する前、なかなか囲碁ソフトが強くなれなかった頃のことです。盤面の評価って人によって様々で正確な評価が行える数式モデルを作り出せなかったんですよ。
あと学習しているのはあくまで勝利している棋譜ですから、負けていた棋譜を学習させてもそのような打ち筋はしなくなるだけですよね。
もはやあなたの考えの中には、ディープニューラルネットさえ無いのな。かわいそうなalphaGoとzero.....
その横文字がどういう意味か良く分からないんで説明してくれませんかね。モンテカルロ木探索だって使いたくなかった言葉なのにー
囲碁のルールを実装していなかったら、ルール違反の手を置いてしまうのでは。
ルール違反の手は即座に負けと判定されて、それを学習するので、実戦ではそういう手はもう打たなくなるだけかと。
AlphaGoはコードだけでは成り立たたず、学習データとセットで評価すべきでしょうから、いわば「コードとしてはルールは記述していないけど、データとしてルールを読み込んでいる」状態といえるでしょう。そういうものを「ルールは実装していない」って言うのは極論じゃね、って話は以前にも書きました [srad.jp]
ルール違反の手を選択肢から最初に除外した方が効率的でしょ。
「ニューラルネットを使う」場合には、「ルール違反の手を選択肢から最初に除外」するのは難しいでしょう。「今までにそのものずばりの盤面は遭遇したことないないけど、似た盤面では学習済み」な場合にでも答えを出せるのがニューラルネットの特徴なわけで、どんな状況でも「出力意味割り当てが同じ」にしないといけません。
盤面の状況に応じて、それぞれの盤面で打てる選択肢だけを出力させるとなると、ある盤面ではニューラル出力の1番は1の二、2番は3の四、3番は3の六、…に対応させ別の盤面ではニューラル出力の1番は3の四、2番は3の六、3番は4の一、…に対応させるみたいなことになって、まともにニューラルネットで学習させることができません。
そうではなく、盤面状況とは無関係に、どんな盤面でも共通してニューラル出力の1番は1の1、2番は1の二、3番は1の三、…に対応させるしかないでしょう。
で、こういう出力割り当てだと、普通の細かいルール違反どころか、「既に石があるところに打つ」ことすらニューラルネットの出力選択肢としてはありえる、ということになります。ニューラルネット使う以上は「打てない手を打とうとしたら、即座にマイナスの評価を与えて学習させる」しかない、ってことです。
学習のときは効率的(かどうかわからないけど)でも,対局のときはそうとは限らないんじゃないかな.一手打つごとに,違反の手を除外する複数の規則 (if-then)を処理するより,評価値の一番高い手を選ぶだけですむから.対局のときは時間勝負だし.
評価値の高い物から順にルール違反かどうかを判定していって、違反じゃ無いやつに当たったらそれを指す、でローコストに実装出来そうな気がしたけど、そのやり方だと、評価値の高い物からずらっと、「最強の反則手」が候補として並んじゃうか(笑)。もし打てたら強すぎるとか、千日手で永遠に負けなくなるから反則になってるんだし。
実際に打てない手ばっかり出てくるようじゃ、効率良く探索できるはずもないから、候補の探索に反則避けを組み込むのは必須か。
ああ,これ理解してもらえないパターンだ.
実際に打てない手に即時報酬として負の無限大を与えれば,その手の評価値は必然的に小さくなるから,候補に挙がってこない.それがおおもとのコメントの「ルール違反の手は即座に負け」の意味するところではないかと.なので,探索に反則負けを組み込む必要はありません.
いえ、「反則避け」と書きました。表現が紛らわしかったですが、避ける具体的な方法はそんな感じかなと。
「ルール違反の手は即座に負けと判定されて、それを学習する」という風にはなってません。アルファベータとか知らないんですか?
暫くスラドを見てなかったので、コメントを書く時期を逃してしまいました。
qem_moriokaさんの言葉が不十分で総叩きに合っていますが、基本的にはqem_moriokaさんのおっしゃっている事は納得できます。
Zeroではない方のAlphaGo (AlphaGo Lee) のポリシーネットワークは、与えられた局面から次に指す手を予測するように、人間の棋譜から教師あり学習をさせて作られています。
このネットワークの入力になる「与えられた局面」というのは、碁盤の黒石、白石の配置やルール上打てない点、次に敵に打たれると石が取られる点、等を別々に分解して作られる48枚の19x19の画像です。また、教師として与える情報は、その局面から人間がどの点に打ったかという情報です。そして、ネットワークの出力は、19x19の各点に対して割り振られた、その点に打つべき確率になっています。
入力として与える48枚の画像は、碁のルールを踏まえて前処理で生成されていますが、ニューラルネットはこれをただの画像と考えているので、そういう意味では、ネットワークは碁のルールを実装していません。また、出力として出て来る確率も、ルール上打ってはいけない場所の確率がほとんど0と言うだけです。学習の初期段階では、打ってはいけない所の確率も他に比べて低くはないはずです。
これに対し、AlphaGo Zeroの方は、全く人間の棋譜なしで、自分自身で対戦しながら自分を鍛えたので、碁のルールを実装している、という言葉を使っているのだと思います。そうは言っても、ニューラルネットそのものは、ただの画像を処理して出力する、という意味では AlphaGo Leeと同じくルールを知りません。ただし、AlphaGo Zeroのネットワークの入力画像は、AlphaGo Leeよりもずっと単純で、黒石と白石の8手前までの配置と自分の手番が黒か白か、という17枚の19x19の画像だけで、ルール上打てない場所などが入っていません。
また、モンテカルロ木探索に関しては、AlphaGo Lee, Zeroどちらも行っていて、これは碁のルールに基いて行われます。
まず bubon 氏が擁護している qem_morioka 氏についての指摘をまとめておきます.先週の平日5日間に70近いコメントをしているので,考えてコメントを書けない (#3300037 [srad.jp])事実と意見を書き分けられない (#3299332 [srad.jp])自分の間違いは認めない,間違っていても反論するのが良いと考えている (#3299495 [srad.jp])自分の間違いを認めないので,読み手を誤解させて自分が正しいと思わせようと,事実を曲げてコメントを書く (#3300402 [srad.jp])
bubon 氏のコメントも,擁護している qem_morioka 氏と同じく,確かめられる情報を出さず,要点をまとめられずに自分の主張だけを書くスタイルなのは趣深いです.
漠然と「基本的に」といって具体的な個所を示していただけないのは残念です.読む人を誤解させるためでしょうか.その後で qem_morioka 氏の言っていない新しい話題に移ると,なお理解が難しいですね.
そもそも AlphaGo, AlphaGo Zero において,プログラム側が囲碁のルールを知っているかどうかは重要ではありません.ルールについて qem_morioka 氏が以前書いたコメントの不十分さを,taka2 氏に極端だと指摘された [srad.jp]のが,qem_morioka 氏にはしゃくに触ったものの,その指摘が理解できなかったのでしょう.今回 AlphaGo が再び話題になったので,同じ間違いを繰り返し,反論できないので,話を反らしては間違いの上塗りを重ねた結果が qem_morioka 氏の一連のコメントでしょう.
qem_morioka 氏が
AlphaGO→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
と強化学習と書いたのに対して,
のように強化学習に触れない,という食い違いがあります.自分の書いていることと食い違うコメントに納得できるのは,なかなか味わい深いですね.
そして,
AlphaGo Zeroの方は、全く人間の棋譜なしで、自分自身で対戦しながら自分を鍛えたので、碁のルールを実装している、という言葉を使っているのだと思います。
において,棋譜なしの自己対戦から碁のルールの実装へはつながりません.qem_morioka 氏以外がわかるのは素晴らしいですね.
あなたの納得はさておき,ほかの読み手が誤解しないように,AC でスコア0 に沈んでいる, qem_morioka 氏の基本的な間違いへの指摘をまとめておきます.
教師なし学習という用語を理解せずに使う: #3299023 [srad.jp] by qem_morioka
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
AlphaGo Zero は教師なし学習を使っていない(#3299279 [srad.jp], #3299332 [srad.jp])
AlphaGo での強化学習の役割を誤解している: #3299117 by qem_morioka
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。
方針ネットワークは,まず棋士の棋譜を正確に予測するように教師付き学習を行う.そのあと,方針勾配強化学習により,その方針ネットワークを調整している (#3299476 [srad.jp])
相手の指摘が違うというために,細かな違いを大げさに取り上げる: [srad.jp] by qem_morioka
その原典をもう少し調べて読み解くと、学習そして実戦までに3つのニューラルネットを使っていました。(省略)(3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク
(3) は方針ネットワークと同じ種類の関数で,概要を理解するために区別する必要のない,細かい部分 (#2200402 [srad.jp])
元情報をたどれない,意味不明の訳語を使う: #3300024 [srad.jp] by qem_morioka
fast rollout policyが高速(評価)ネットワークですね。
fast は説明の単語で rollout policy が正しい用語.rollout policy には,高速/評価/ネットワークのどの意味も入っていない,通じない訳語 () [srad.jp]
使っているネットワークを使っていないと間違える: #3299497 [srad.jp] by qem_morioka
方針ネットワークは評価値ネットワークの強化学習のために学習段階で使いますが、実戦時の探索中にまったく新しいルートを評価するときに使用するぐらいで、評価値ネットワークの学習が終わった後はほとんど使用していません。
(3) 実際の棋士との対戦手順を説明している, 前論文12ページの図5では,ステップ d で方針ネットワークが指し手を選ぶ手順に組み込まれている (#3300402 [srad.jp])
「教師なし学習」はクラスタリング問題のための学習ですよね.動的計画法をベースとする狭義の強化学習は,何と呼ぶんでしょう?報酬あり学習?
元コメントの教師なし学習は間違いです.それに近い意味合いで,動的計画法により近似でなく厳密に解を求める狭義の強化学習なら,一般的ではありませんが,「マルコフ決定過程 [wikipedia.org]に基づく強化学習」と呼んで区別できるかもしれません.
AlphaGO→囲碁のルールは実装していない。→ほかのコメントにもあるとおりウソひたすら勝てる手を効率よく捜すことに特化。→どんな学習プログラムもそうなので、ウソではないが無意味な文強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。→ウソ。ディープニューラルネットで人間の棋譜学習をしている。強化学習はその後の微調整に使っているが、最終的なプログラムでは捨てられている。AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」→もはや意味不明。
AlphaGO Zero→囲碁のルールを実装している。→当たり前。いわば「教師なし学習」で、AIが目指すひとつの目標。→教師無し学習の意味さえ理解していない典型的な人。ウソ。自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。→自己学習なんて学習法はない。ディープニューラルネットを自己対戦で学習させている。AI「俺の経験だと、この手が一番強い」→もはや例えの機能をはたしていない文
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね・・・
自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど・・・
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。-> 良し、一つ覚えたな。これからはウソ書くなよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。→そう。何億回学習しようとも微調整にすらならない場合もある。この場合もそう。これからはウソ書くなよ。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)→今日は、モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節
一つ覚えたな。これからはウソ書くなよ。
覚えたけど、その根拠となるウソじゃない記事あるいは論文ってどこにあります?
こいつひょっとして人工無能じゃないか?
qem_morioka に対する過去のコメントにあるように,以前から自分の間違いは認めない,間違っていても反論するのが良いと考えている ID です.気を付けましょう.
by Anonymous Coward on 2017年08月09日 16時26分 (#3258648) [srad.jp]
人からの反論にはどこまでも返信するのに、自分の間違いは認める事なく、ここまで話をそらして行くところに病的なものすら感じる。
by Anonymous Coward on 2017年08月09日 17時16分 (#3258701) [srad.jp]
普段、人の間違いにえらいこだわっているのは貴殿ではないかと。このツリーに限らないが、貴殿が普段延々と食いついているのは十分病的だと思いますよ。
by qem_morioka (30932) on 2017年08月09日 17時34分 (#3258715) [srad.jp]
まあ、言いっぱなしの吐き捨てよりはいいだろって思ってるのでそれが病気だと言われれば、病気なんでしょうね。
#お前の中ではな!
by Anonymous Coward on 2017年08月09日 17時39分 (#3258720) [srad.jp]
確かに言いっ放しの吐き捨てとは比べ物にならない誠意ある態度だと思うけど、それが高じて、屁理屈こねてでも言い返す事の方が多くなっているように思います。それが病的なレベルだと思います。私の中だけでなく、一定程度の人がそう思ってるんじゃないかと思います。「お前の中」は、文脈上、またネットスラングの用法上、「お前の中だけ」の意だと思いますが、その発想こそ病気かと。
こうなると必死だな... かわいそうになってきた。
これは,相手の重箱の隅をつついて,自分の間違いを誤魔化すやつですね.
かの有名なネイチャーの論文。
原論文を理解せずに聞きかじりの知識で元コメントを書き,自分が間違っていることを確かめもせず(できず)に,相手に情報源の提示を求める(相手を疑う).まったく参考になりませんね.
原論文 Mastering the Game of Go without Human Knowledge [deepmind.com] (PDF, DeepMind 社にある元原稿)2ページ目第1段落から翻訳抜粋.
Alpha Go: 2つの深層ニューラルネットを使用.1つは指し手の確率を出力する方針ネットワーク,もう1つは,盤面を評価する評価値
ありがとうございます。AlphaGoが盤面の評価をしていないというのが間違いだったんですね。
その原典をもう少し調べて読み解くと、学習そして実戦までに3つのニューラルネットを使っていました。
(1)既存棋譜の学習によって推論する方針ネットワーク (2)局面においてどちらが勝つかを推論する評価値ネットワーク (3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク
実戦の時は評価値ネットワークの結果を高速ネットワークを使って勝敗が決するまで手をすすめて(プレイアウト)評価しています。
調整とか微調整だとか言っているのは、評価値ネットワークの学習段階で、自己対戦による強化学習の後、もう一度方針ネットワークと対戦させてその予測の違いをパラメーター調整しているので、そのことを指しているのだと思います。
まだなんか理解がまちがってるところってありますか?
よし。アルファ碁の解説文は合ってる。
この人自身のことで恐縮だが、専門用語をその意味を理解せずにもっともらしい適当なコメントを出すあたり、リアル中国人の部屋だな。このアルファ碁の解説についても、正しく理解できてないんだろうなと、想像せざるを得ないが反例がでるまでは仮説の更新無しのゴールドスタイルで見守ってやるしかないな。
AlphaGoが盤面の評価をしていないというのが間違いだったんですね。
違いますし,「AlphaGoが盤面の評価をしていない」という発言が以前に見当たりません.お手上げです.
qem_morioka 氏は自分で理解しているかどうかがわからないコメントを書いている,ということがほかの読者に伝われば十分です.
論文の PDF Mastering the Game of Go without Human Knowledge [deepmind.com] の中に3つ目の高速ネットワークの説明が全く見つかりません。3, three, network といった検索語で探しても、該当しそうな部分がありません。どこに書いてあるのでしょうか?高速ネットワークは英語で何 network なのでしょうか?AlphaGo Zero の論文ではない、コメントの論文以外の資料に書いてあるのでしょうか?
コメントを信じて探したのに、がっかりです。
その原典をもう少し調べて、と私は書きましたが提示された論文「Mastering the Game of Go without Human Knowledge」はAlphaGo Zeroの論文であってAlphaGo 無印の論文ではありませんでした。
私がAlphaGO無印についての認識が間違ってるという話なのにZeroについての論文を提示されたようですが、そこの論文に書いてある言葉を何度かググってAlphaGO無印についての論文にたどり着いたので、それを読み解いてます。
Mastering the Game of Go with Deep Neural Networks and Tree Search [airesearch.com]
モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節点に持つ。ルールを知らなければ子節点を一つも作れない。
モンテカルロ木探索はゲーム木探索じゃないですよ。可能手を子節点にしているのは棋譜による初期学習の結果です。そこから先はランダムに選んだ手を最後勝敗がつくまでシミュレートします。
http://pug.raph.free.fr/files/PowerOfForgetting.pdf [raph.free.fr]
でも全ての手についてシミュレートするのは時間的に不可能ですし、より強い手を選び出すために何らかの方針が必要となってきます。そこに畳み込みニューラルネットワークをつかってより有望な手を絞り込んでるんですがどこが微調整なんでしょう?
そこから先はランダムに選んだ手を最後勝敗がつくまでシミュレートします。
その手はどこから見つけた?
モンテカルロ木探索はゲーム木探索じゃないですよ。
これはまたけったいな珍説を主張する人もいたものだ。
これは明らかな間違いです. 元記事 [itmedia.co.jp]に,
AlphaGo Zeroはそういったプロセスは経ずに、試行錯誤することで学ぶ「強化学習」の手法を取りました。
とあります.盤面(状態)における指手(行動)に対する評価値(報酬)が与えられる強化学習と,データだけが与えられる教師なし学習は,根本的に違います.
また教師なし学習は,教師あり学習,強化学習などと同じ機械学習の枠組の一つであり,
強化学習だけでしたらAlphaGO無印も自己対戦による強化学習を数千万回行ってます。その前に棋譜よる初期学習を必要としたAlphaGo無印と、それが不要になった今回のZeroという話なんですが、どこが明らかな間違いなのでしょう。
あとは…目指す目標が教師なし学習のAIというのは事実を言ってるわけでも無くこれが一般認識だと宣言しているわけでもなく、単純に個人の意見として言ってるんですがAIが目指す目標はそれとは違うというのなら、そちらの意見を上げるべきでしょう。
教師なし学習 [wikipedia.org]はデータだけが与えられます. 強化学習 [wikipedia.org]は,状態(盤面)と行動(指手)の組に対して,報酬が与えられ,遷移する状態に対して行動を繰り返し選ぶことで,報酬の(割引)和を最大化します.報酬という付加情報が与えられること,状態,行動,報酬を繰り返し処理することなどの点で,教師なし学習の枠組とは明らかに異なります.
棋譜が与えられなくても,強化学習をしているのなら,教師なし学習とは言
AlphaGO無印は学習の初期段階で棋譜を使っていました。これは教師あり学習で間違い無いですか?
それに対して今回のZeroは初期段階でも棋譜を使いませんでした。
ただ、無印は棋譜で学習した後で、Zeroはいきなり最初から、自己対戦を繰り返して学習していますが、これは教師あり/なしとかは関係なく強化学習ですよね?
そちらの認識だと強化学習をしているなら教師あり学習だということですが?
よくわからないのですが,このコメントが「Alpha Go Zero は教師なし学習」という間違いとどのように関係しているのか,わかるように説明していただけませんか?
リンク先のnatureの概要から
> AlphaGo becomes its own teacher: a neural network is trained to predict AlphaGo’s own move selections and also the winner of AlphaGo’s games.
どうみても教師ありですありがとうございました
自分が対戦相手になって先生の役割を担っていても, 教師あり学習 [wikipedia.org]とは意味が異なります.
教師あり学習は,それぞれのデータに対してラベル(そのデータが正しい/正しくないとか,データを引数としたときの関数の値)がついていて,その関係を学習することを指します.それに対して,今回の AlphaGo Zero は教師あり学習/教師なし学習のどちらでもない,強化学習を用いています.
教師あり学習でも教師なし学習でもない別のものがあるのは,日常の用語としては不思議ですが,専門用語としてそのように定義され
アカウントを作成しなくても、ユーザースタイルシートで何とかできるかもしれない。
情報ありがとうございました.複雑そうですが,調べてみます.できるといいな.
hasセレクタがまだないのでスタイルシートじゃ無理じゃないですかね?Javascriptなら、 javascript:$('a[href*=qem_morioka]').parents('.comment-item').hide();こんな感じのブックマークレットで行けます。名前の所を変えると他の人も消せます。毎回ページ開くたびに実行しないとダメですが。それが、面倒ならお猿さんにでも頼んでください。
# こういう人も含めてコメント欄の楽しみと言う気もしますが……
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
私は悩みをリストアップし始めたが、そのあまりの長さにいやけがさし、何も考えないことにした。-- Robert C. Pike
AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
AI「俺の経験だと、この手が一番強い」
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:2, 興味深い)
あなたの人工知能の解釈、以前からウソだらけ。
だれか彼を教育する学習法を開発してくれ。俺には思いつかん。
1行目の囲碁のルールは実装していないって、なんだそりゃ。
一度に百石置く場合とかから学習しているのか?ケッサクだな。
ちなみに囲碁のルールって、一石ごと交互に置く以外はコウと自死ぐらいしかないのくらいは
いい加減そろそろ調べて覚えてくれ。
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
本論はわからんけど囲碁のルールって細かいところは難しいよ
隅のマガリ四目はそういうもんだとは覚えているけどちゃんと説明するのはでけん
あと中国ルールだと半目勝ちなのに日本ルールだと半目負けとか
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
隅のマガリ四目は日本ルールだと「ルールの一部」になっているけど、
中国ルールでは、ルールの一部ではなく、「ルールから導ける帰結」
だから、コウ付き隅のマガリ四目とか、コウ材が消せない場合も含めて、
双方の対局者が納得する結果になるよ。トラズ三目も同様。
その点で、中国ルールの方が優れている。個人的には、中国ルールの
偶数ダメの問題を修正した台湾ルールが最も美しいと思う。
Re: (スコア:0)
一度に百石置く場合とかから学習しているのか?ケッサクだな。
人間が与えた棋譜がそういうものであれば、そう学習する、そういうものです。
もちろん食わせた棋譜は勝ったという実績のある棋譜ですから、それには
囲碁のルールも内包してます。でもそれは棋譜に含まれてるというだけで
AI自身はルールを持っていない、それがAlphaGO(今回のZeroじゃない方)です。
なので教師つき学習というのは初期学習をどのようにすればより早くより強くなるのか
そのAIチューナーみたいな技能が・・・と思っていたらその教師すら不要となったよ
というのが今回の話。
安心してください、今回のZeroはちゃんと囲碁のルールを知ってますよwwwww
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
基本的なルールくらい与えないとコウの取り番間違えて反則負けになりそうなもんだが。
コウとられた直後って盤面だけみりゃ取り返すのが最善手なんだし。
で、そんなもん既存の棋譜に内包してるのかね。
反則負けになった棋譜があればいいの?
第5期名人戦第4局でやらかした例があるけど、無勝負扱いだし
(直接やらかしたのはチクンだけど、記録係の彦坂直人が間違えたため)
https://games.yahoo.co.jp/qa/detail?qid=13134953508 [yahoo.co.jp]
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
コウとられた直後って盤面だけみりゃ取り返すのが最善手なんだし。
その場その場の評価によって次の手を決めるのはAIを導入する前、なかなか
囲碁ソフトが強くなれなかった頃のことです。盤面の評価って人によって様々で
正確な評価が行える数式モデルを作り出せなかったんですよ。
あと学習しているのはあくまで勝利している棋譜ですから、負けていた棋譜を
学習させてもそのような打ち筋はしなくなるだけですよね。
Re: (スコア:0)
もはやあなたの考えの中には、ディープニューラルネットさえ無いのな。かわいそうなalphaGoとzero.....
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1, 荒らし)
もはやあなたの考えの中には、ディープニューラルネットさえ無いのな。かわいそうなalphaGoとzero.....
その横文字がどういう意味か良く分からないんで説明してくれませんかね。
モンテカルロ木探索だって使いたくなかった言葉なのにー
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:2)
囲碁のルールを実装していなかったら、ルール違反の手を置いてしまうのでは。
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
ルール違反の手は即座に負けと判定されて、それを学習するので、実戦ではそういう手はもう打たなくなるだけかと。
AlphaGoはコードだけでは成り立たたず、学習データとセットで評価すべきでしょうから、いわば「コードとしてはルールは記述していないけど、データとしてルールを読み込んでいる」状態といえるでしょう。
そういうものを「ルールは実装していない」って言うのは極論じゃね、って話は以前にも書きました [srad.jp]
Re: (スコア:0)
ルール違反の手を選択肢から最初に除外した方が効率的でしょ。
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
「ニューラルネットを使う」場合には、「ルール違反の手を選択肢から最初に除外」するのは難しいでしょう。
「今までにそのものずばりの盤面は遭遇したことないないけど、似た盤面では学習済み」な場合にでも答えを出せるのがニューラルネットの特徴なわけで、どんな状況でも「出力意味割り当てが同じ」にしないといけません。
盤面の状況に応じて、それぞれの盤面で打てる選択肢だけを出力させるとなると、
ある盤面ではニューラル出力の1番は1の二、2番は3の四、3番は3の六、…に対応させ
別の盤面ではニューラル出力の1番は3の四、2番は3の六、3番は4の一、…に対応させる
みたいなことになって、まともにニューラルネットで学習させることができません。
そうではなく、盤面状況とは無関係に、どんな盤面でも共通して
ニューラル出力の1番は1の1、2番は1の二、3番は1の三、…に対応
させるしかないでしょう。
で、こういう出力割り当てだと、普通の細かいルール違反どころか、「既に石があるところに打つ」ことすらニューラルネットの出力選択肢としてはありえる、ということになります。
ニューラルネット使う以上は「打てない手を打とうとしたら、即座にマイナスの評価を与えて学習させる」しかない、ってことです。
Re: (スコア:0)
ルール違反の手を選択肢から最初に除外した方が効率的でしょ。
学習のときは効率的(かどうかわからないけど)でも,対局のときはそうとは限らないんじゃないかな.
一手打つごとに,違反の手を除外する複数の規則 (if-then)を処理するより,
評価値の一番高い手を選ぶだけですむから.
対局のときは時間勝負だし.
Re: (スコア:0)
評価値の高い物から順にルール違反かどうかを判定していって、違反じゃ無いやつに当たったらそれを指す、
でローコストに実装出来そうな気がしたけど、そのやり方だと、評価値の高い物からずらっと、
「最強の反則手」が候補として並んじゃうか(笑)。もし打てたら強すぎるとか、千日手で永遠に負けなくなるから反則になってるんだし。
実際に打てない手ばっかり出てくるようじゃ、効率良く探索できるはずもないから、候補の探索に反則避けを組み込むのは必須か。
Re: (スコア:0)
ああ,これ理解してもらえないパターンだ.
実際に打てない手ばっかり出てくるようじゃ、効率良く探索できるはずもないから、候補の探索に反則避けを組み込むのは必須か。
実際に打てない手に即時報酬として負の無限大を与えれば,その手の評価値は必然的に小さくなるから,候補に挙がってこない.
それがおおもとのコメントの「ルール違反の手は即座に負け」の意味するところではないかと.
なので,探索に反則負けを組み込む必要はありません.
Re: (スコア:0)
いえ、「反則避け」と書きました。表現が紛らわしかったですが、避ける具体的な方法はそんな感じかなと。
Re: (スコア:0)
「ルール違反の手は即座に負けと判定されて、それを学習する」という風にはなってません。
アルファベータとか知らないんですか?
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
暫くスラドを見てなかったので、コメントを書く時期を逃してしまいました。
qem_moriokaさんの言葉が不十分で総叩きに合っていますが、基本的にはqem_moriokaさんのおっしゃっている事は納得できます。
Zeroではない方のAlphaGo (AlphaGo Lee) のポリシーネットワークは、与えられた局面から次に指す手を予測するように、
人間の棋譜から教師あり学習をさせて作られています。
このネットワークの入力になる「与えられた局面」というのは、碁盤の黒石、白石の配置やルール上打てない点、次に敵に打たれると石が取られる点、等を
別々に分解して作られる48枚の19x19の画像です。
また、教師として与える情報は、その局面から人間がどの点に打ったかという情報です。
そして、ネットワークの出力は、19x19の各点に対して割り振られた、その点に打つべき確率になっています。
入力として与える48枚の画像は、碁のルールを踏まえて前処理で生成されていますが、ニューラルネットはこれをただの画像と考えているので、
そういう意味では、ネットワークは碁のルールを実装していません。また、出力として出て来る確率も、
ルール上打ってはいけない場所の確率がほとんど0と言うだけです。学習の初期段階では、打ってはいけない所の確率も他に比べて低くはないはずです。
これに対し、AlphaGo Zeroの方は、全く人間の棋譜なしで、自分自身で対戦しながら自分を鍛えたので、碁のルールを実装している、という言葉を使っているのだと思います。
そうは言っても、ニューラルネットそのものは、ただの画像を処理して出力する、という意味では AlphaGo Leeと同じくルールを知りません。
ただし、AlphaGo Zeroのネットワークの入力画像は、AlphaGo Leeよりもずっと単純で、黒石と白石の8手前までの配置と自分の手番が黒か白か、
という17枚の19x19の画像だけで、ルール上打てない場所などが入っていません。
また、モンテカルロ木探索に関しては、AlphaGo Lee, Zeroどちらも行っていて、これは碁のルールに基いて行われます。
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
まず bubon 氏が擁護している qem_morioka 氏についての指摘をまとめておきます.
先週の平日5日間に70近いコメントをしているので,考えてコメントを書けない (#3300037 [srad.jp])
事実と意見を書き分けられない (#3299332 [srad.jp])
自分の間違いは認めない,間違っていても反論するのが良いと考えている (#3299495 [srad.jp])
自分の間違いを認めないので,読み手を誤解させて自分が正しいと思わせようと,事実を曲げてコメントを書く (#3300402 [srad.jp])
bubon 氏のコメントも,擁護している qem_morioka 氏と同じく,確かめられる情報を出さず,
要点をまとめられずに自分の主張だけを書くスタイルなのは趣深いです.
qem_moriokaさんの言葉が不十分で総叩きに合っていますが、基本的にはqem_moriokaさんのおっしゃっている事は納得できます。
漠然と「基本的に」といって具体的な個所を示していただけないのは残念です.
読む人を誤解させるためでしょうか.
その後で qem_morioka 氏の言っていない新しい話題に移ると,なお理解が難しいですね.
そもそも AlphaGo, AlphaGo Zero において,
プログラム側が囲碁のルールを知っているかどうかは重要ではありません.
ルールについて qem_morioka 氏が以前書いたコメントの不十分さを,taka2 氏に極端だと指摘された [srad.jp]のが,
qem_morioka 氏にはしゃくに触ったものの,その指摘が理解できなかったのでしょう.
今回 AlphaGo が再び話題になったので,同じ間違いを繰り返し,反論できないので,
話を反らしては間違いの上塗りを重ねた結果が qem_morioka 氏の一連のコメントでしょう.
qem_morioka 氏が
AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
と強化学習と書いたのに対して,
Zeroではない方のAlphaGo (AlphaGo Lee) のポリシーネットワークは、与えられた局面から次に指す手を予測するように、
人間の棋譜から教師あり学習をさせて作られています。
のように強化学習に触れない,という食い違いがあります.
自分の書いていることと食い違うコメントに納得できるのは,なかなか味わい深いですね.
そして,
AlphaGo Zeroの方は、全く人間の棋譜なしで、自分自身で対戦しながら自分を鍛えたので、碁のルールを実装している、という言葉を使っているのだと思います。
において,棋譜なしの自己対戦から碁のルールの実装へはつながりません.
qem_morioka 氏以外がわかるのは素晴らしいですね.
あなたの納得はさておき,ほかの読み手が誤解しないように,
AC でスコア0 に沈んでいる, qem_morioka 氏の基本的な間違いへの指摘をまとめておきます.
教師なし学習という用語を理解せずに使う: #3299023 [srad.jp] by qem_morioka
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
AlphaGo Zero は教師なし学習を使っていない(#3299279 [srad.jp], #3299332 [srad.jp])
AlphaGo での強化学習の役割を誤解している: #3299117 by qem_morioka
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。
方針ネットワークは,まず棋士の棋譜を正確に予測するように教師付き学習を行う.
そのあと,方針勾配強化学習により,その方針ネットワークを調整している (#3299476 [srad.jp])
相手の指摘が違うというために,細かな違いを大げさに取り上げる: [srad.jp] by qem_morioka
その原典をもう少し調べて読み解くと、学習そして実戦までに3つのニューラルネットを使っていました。
(省略)
(3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク
(3) は方針ネットワークと同じ種類の関数で,概要を理解するために区別する必要のない,細かい部分 (#2200402 [srad.jp])
元情報をたどれない,意味不明の訳語を使う: #3300024 [srad.jp] by qem_morioka
fast rollout policyが高速(評価)ネットワークですね。
fast は説明の単語で rollout policy が正しい用語.
rollout policy には,高速/評価/ネットワークのどの意味も入っていない,
通じない訳語 () [srad.jp]
使っているネットワークを使っていないと間違える: #3299497 [srad.jp] by qem_morioka
方針ネットワークは評価値ネットワークの強化学習のために
学習段階で使いますが、実戦時の探索中にまったく新しいルートを
評価するときに使用するぐらいで、評価値ネットワークの学習が終わった後は
ほとんど使用していません。
(3) 実際の棋士との対戦手順を説明している, 前論文12ページの図5では,
ステップ d で方針ネットワークが指し手を選ぶ手順に組み込まれている (#3300402 [srad.jp])
Re: (スコア:0)
「教師なし学習」はクラスタリング問題のための学習ですよね.
動的計画法をベースとする狭義の強化学習は,何と呼ぶんでしょう?報酬あり学習?
Re: (スコア:0)
「教師なし学習」はクラスタリング問題のための学習ですよね.
動的計画法をベースとする狭義の強化学習は,何と呼ぶんでしょう?報酬あり学習?
元コメントの教師なし学習は間違いです.
それに近い意味合いで,動的計画法により近似でなく厳密に解を求める狭義の強化学習なら,
一般的ではありませんが,「マルコフ決定過程 [wikipedia.org]に基づく強化学習」と呼んで区別できるかもしれません.
Re: (スコア:0)
AlphaGO
→囲碁のルールは実装していない。→ほかのコメントにもあるとおりウソ
ひたすら勝てる手を効率よく捜すことに特化。→どんな学習プログラムもそうなので、ウソではないが無意味な文
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。→ウソ。ディープニューラルネットで人間の棋譜学習をしている。強化学習はその後の微調整に使っているが、最終的なプログラムでは捨てられている。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」→もはや意味不明。
AlphaGO Zero
→囲碁のルールを実装している。→当たり前。
いわば「教師なし学習」で、AIが目指すひとつの目標。→教師無し学習の意味さえ理解していない典型的な人。ウソ。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。→自己学習なんて学習法はない。ディープニューラルネットを自己対戦で学習させている。
AI「俺の経験だと、この手が一番強い」→もはや例えの機能をはたしていない文
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね・・・
自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど・・・
Re: (スコア:0)
AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。-> 良し、一つ覚えたな。これからはウソ書くなよ。
数百万回におよぶ強化学習って微調整レベルのものだったんですか。→そう。何億回学習しようとも微調整にすらならない場合もある。この場合もそう。これからはウソ書くなよ。
こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
→今日は、モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
一つ覚えたな。これからはウソ書くなよ。
覚えたけど、その根拠となるウソじゃない記事あるいは論文ってどこにあります?
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:2, おもしろおかしい)
こいつひょっとして人工無能じゃないか?
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
qem_morioka に対する過去のコメントにあるように,
以前から自分の間違いは認めない,間違っていても反論するのが良いと考えている ID です.
気を付けましょう.
by Anonymous Coward on 2017年08月09日 16時26分 (#3258648) [srad.jp]
人からの反論にはどこまでも返信するのに、自分の間違いは認める事なく、ここまで話をそらして行くところに病的なものすら感じる。
by Anonymous Coward on 2017年08月09日 17時16分 (#3258701) [srad.jp]
普段、人の間違いにえらいこだわっているのは貴殿ではないかと。
このツリーに限らないが、貴殿が普段延々と食いついているのは十分病的だと思いますよ。
by qem_morioka (30932) on 2017年08月09日 17時34分 (#3258715) [srad.jp]
まあ、言いっぱなしの吐き捨てよりはいいだろって思ってるので
それが病気だと言われれば、病気なんでしょうね。
#お前の中ではな!
by Anonymous Coward on 2017年08月09日 17時39分 (#3258720) [srad.jp]
確かに言いっ放しの吐き捨てとは比べ物にならない誠意ある態度だと思うけど、それが高じて、屁理屈こねてでも言い返す事の方が多くなっているように思います。
それが病的なレベルだと思います。
私の中だけでなく、一定程度の人がそう思ってるんじゃないかと思います。「お前の中」は、文脈上、またネットスラングの用法上、「お前の中だけ」の意だと思いますが、その発想こそ病気かと。
Re: (スコア:0)
こうなると必死だな... かわいそうになってきた。
Re: (スコア:0)
これは,相手の重箱の隅をつついて,自分の間違いを誤魔化すやつですね.
Re: (スコア:0)
かの有名なネイチャーの論文。
Re: (スコア:0)
原論文を理解せずに聞きかじりの知識で元コメントを書き,
自分が間違っていることを確かめもせず(できず)に,
相手に情報源の提示を求める(相手を疑う).
まったく参考になりませんね.
原論文 Mastering the Game of Go without Human Knowledge [deepmind.com] (PDF, DeepMind 社にある元原稿)2ページ目第1段落から翻訳抜粋.
Alpha Go: 2つの深層ニューラルネットを使用.
1つは指し手の確率を出力する方針ネットワーク,
もう1つは,盤面を評価する評価値
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
ありがとうございます。AlphaGoが盤面の評価をしていないというのが
間違いだったんですね。
その原典をもう少し調べて読み解くと、学習そして実戦までに
3つのニューラルネットを使っていました。
(1)既存棋譜の学習によって推論する方針ネットワーク
(2)局面においてどちらが勝つかを推論する評価値ネットワーク
(3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク
方針ネットワークは評価値ネットワークの強化学習のために
学習段階で使いますが、実戦時の探索中にまったく新しいルートを
評価するときに使用するぐらいで、評価値ネットワークの学習が終わった後は
ほとんど使用していません。
実戦の時は評価値ネットワークの結果を高速ネットワークを使って
勝敗が決するまで手をすすめて(プレイアウト)評価しています。
調整とか微調整だとか言っているのは、評価値ネットワークの学習段階で、
自己対戦による強化学習の後、もう一度方針ネットワークと対戦させて
その予測の違いをパラメーター調整しているので、そのことを指しているのだと
思います。
まだなんか理解がまちがってるところってありますか?
Re: (スコア:0)
よし。アルファ碁の解説文は合ってる。
この人自身のことで恐縮だが、専門用語をその意味を理解せずにもっともらしい
適当なコメントを出すあたり、リアル中国人の部屋だな。
このアルファ碁の解説についても、正しく理解できてないんだろうなと、想像せざるを得ないが
反例がでるまでは仮説の更新無しのゴールドスタイルで見守ってやるしかないな。
Re: (スコア:0)
AlphaGoが盤面の評価をしていないというのが間違いだったんですね。
違いますし,「AlphaGoが盤面の評価をしていない」という発言が以前に見当たりません.
お手上げです.
まだなんか理解がまちがってるところってありますか?
qem_morioka 氏は自分で理解しているかどうかがわからないコメントを書いている,ということがほかの読者に伝われば十分です.
Re: (スコア:0)
論文の PDF Mastering the Game of Go without Human Knowledge [deepmind.com] の中に
3つ目の高速ネットワークの説明が全く見つかりません。
3, three, network といった検索語で探しても、該当しそうな部分がありません。
どこに書いてあるのでしょうか?
高速ネットワークは英語で何 network なのでしょうか?
AlphaGo Zero の論文ではない、コメントの論文以外の資料に書いてあるのでしょうか?
コメントを信じて探したのに、がっかりです。
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
その原典をもう少し調べて、と私は書きましたが提示された論文「Mastering the Game of Go without Human Knowledge」は
AlphaGo Zeroの論文であってAlphaGo 無印の論文ではありませんでした。
私がAlphaGO無印についての認識が間違ってるという話なのにZeroについての
論文を提示されたようですが、そこの論文に書いてある言葉を何度かググって
AlphaGO無印についての論文にたどり着いたので、それを読み解いてます。
Mastering the Game of Go with Deep Neural Networks and Tree Search [airesearch.com]
fast rollout policyが高速(評価)ネットワークですね。
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節点に持つ。ルールを知らなければ子節点を一つも作れない。
モンテカルロ木探索はゲーム木探索じゃないですよ。
可能手を子節点にしているのは棋譜による初期学習の結果です。
そこから先はランダムに選んだ手を最後勝敗がつくまでシミュレートします。
http://pug.raph.free.fr/files/PowerOfForgetting.pdf [raph.free.fr]
でも全ての手についてシミュレートするのは時間的に不可能ですし、より強い手を
選び出すために何らかの方針が必要となってきます。
そこに畳み込みニューラルネットワークをつかってより有望な手を絞り込んでるんですが
どこが微調整なんでしょう?
Re: (スコア:0)
そこから先はランダムに選んだ手を最後勝敗がつくまでシミュレートします。
その手はどこから見つけた?
Re: (スコア:0)
これはまたけったいな珍説を主張する人もいたものだ。
Re: (スコア:0)
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
これは明らかな間違いです.
元記事 [itmedia.co.jp]に,
AlphaGo Zeroはそういったプロセスは経ずに、試行錯誤することで学ぶ「強化学習」の手法を取りました。
とあります.
盤面(状態)における指手(行動)に対する評価値(報酬)が与えられる強化学習と,
データだけが与えられる教師なし学習は,根本的に違います.
また教師なし学習は,教師あり学習,強化学習などと同じ機械学習の枠組の一つであり,
Re: (スコア:0)
強化学習だけでしたらAlphaGO無印も自己対戦による強化学習を数千万回行ってます。
その前に棋譜よる初期学習を必要としたAlphaGo無印と、それが不要になった今回のZero
という話なんですが、どこが明らかな間違いなのでしょう。
あとは…目指す目標が教師なし学習のAIというのは事実を言ってるわけでも無く
これが一般認識だと宣言しているわけでもなく、単純に個人の意見として言ってるんですが
AIが目指す目標はそれとは違うというのなら、そちらの意見を上げるべきでしょう。
Re: (スコア:0)
教師なし学習 [wikipedia.org]はデータだけが与えられます.
強化学習 [wikipedia.org]は,状態(盤面)と行動(指手)の組に対して,報酬が与えられ,
遷移する状態に対して行動を繰り返し選ぶことで,報酬の(割引)和を最大化します.
報酬という付加情報が与えられること,状態,行動,報酬を繰り返し処理することなどの点で,
教師なし学習の枠組とは明らかに異なります.
棋譜が与えられなくても,強化学習をしているのなら,教師なし学習とは言
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
AlphaGO無印は学習の初期段階で棋譜を使っていました。これは教師あり学習で
間違い無いですか?
それに対して今回のZeroは初期段階でも棋譜を使いませんでした。
ただ、無印は棋譜で学習した後で、Zeroはいきなり最初から、
自己対戦を繰り返して学習していますが、これは教師あり/なしとかは関係なく
強化学習ですよね?
そちらの認識だと強化学習をしているなら教師あり学習だということですが?
Re: (スコア:0)
よくわからないのですが,このコメントが「Alpha Go Zero は教師なし学習」という間違いとどのように関係しているのか,わかるように説明していただけませんか?
Re: (スコア:0)
リンク先のnatureの概要から
> AlphaGo becomes its own teacher: a neural network is trained to predict AlphaGo’s own move selections and also the winner of AlphaGo’s games.
どうみても教師ありです
ありがとうございました
Re: (スコア:0)
自分が対戦相手になって先生の役割を担っていても, 教師あり学習 [wikipedia.org]とは意味が異なります.
教師あり学習は,それぞれのデータに対してラベル(そのデータが正しい/正しくないとか,データを引数としたときの関数の値)がついていて,その関係を学習することを指します.それに対して,今回の AlphaGo Zero は教師あり学習/教師なし学習のどちらでもない,強化学習を用いています.
教師あり学習でも教師なし学習でもない別のものがあるのは,日常の用語としては不思議ですが,専門用語としてそのように定義され
Re: (スコア:0)
アカウントを作成しなくても、ユーザースタイルシートで何とかできるかもしれない。
Re: (スコア:0)
情報ありがとうございました.
複雑そうですが,調べてみます.できるといいな.
Re: (スコア:0)
hasセレクタがまだないのでスタイルシートじゃ無理じゃないですかね?
Javascriptなら、
javascript:$('a[href*=qem_morioka]').parents('.comment-item').hide();
こんな感じのブックマークレットで行けます。名前の所を変えると他の人も消せます。
毎回ページ開くたびに実行しないとダメですが。それが、面倒ならお猿さんにでも頼んでください。
# こういう人も含めてコメント欄の楽しみと言う気もしますが……