パスワードを忘れた? アカウント作成
13437474 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1) 119

その原典をもう少し調べて、と私は書きましたが提示された論文「Mastering the Game of Go without Human Knowledge」は
AlphaGo Zeroの論文であってAlphaGo 無印の論文ではありませんでした。

私がAlphaGO無印についての認識が間違ってるという話なのにZeroについての
論文を提示されたようですが、そこの論文に書いてある言葉を何度かググって
AlphaGO無印についての論文にたどり着いたので、それを読み解いてます。

Mastering the Game of Go with Deep Neural Networks and Tree Search

fast rollout policyが高速(評価)ネットワークですね。

13436612 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1) 119

ありがとうございます。AlphaGoが盤面の評価をしていないというのが
間違いだったんですね。

その原典をもう少し調べて読み解くと、学習そして実戦までに
3つのニューラルネットを使っていました。

  (1)既存棋譜の学習によって推論する方針ネットワーク
  (2)局面においてどちらが勝つかを推論する評価値ネットワーク
  (3)方針ネットワークは計算に時間がかかるので高速評価のための高速ネットワーク

方針ネットワークは評価値ネットワークの強化学習のために
学習段階で使いますが、実戦時の探索中にまったく新しいルートを
評価するときに使用するぐらいで、評価値ネットワークの学習が終わった後は
ほとんど使用していません。

実戦の時は評価値ネットワークの結果を高速ネットワークを使って
勝敗が決するまで手をすすめて(プレイアウト)評価しています。

調整とか微調整だとか言っているのは、評価値ネットワークの学習段階で、
自己対戦による強化学習の後、もう一度方針ネットワークと対戦させて
その予測の違いをパラメーター調整しているので、そのことを指しているのだと
思います。

まだなんか理解がまちがってるところってありますか?

13436505 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1) 119

AlphaGO無印は学習の初期段階で棋譜を使っていました。これは教師あり学習で
間違い無いですか?

それに対して今回のZeroは初期段階でも棋譜を使いませんでした。

ただ、無印は棋譜で学習した後で、Zeroはいきなり最初から、
自己対戦を繰り返して学習していますが、これは教師あり/なしとかは関係なく
強化学習ですよね?

そちらの認識だと強化学習をしているなら教師あり学習だということですが?

13436327 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1) 119

モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節点に持つ。ルールを知らなければ子節点を一つも作れない。

モンテカルロ木探索はゲーム木探索じゃないですよ。
可能手を子節点にしているのは棋譜による初期学習の結果です。
そこから先はランダムに選んだ手を最後勝敗がつくまでシミュレートします。

http://pug.raph.free.fr/files/PowerOfForgetting.pdf

でも全ての手についてシミュレートするのは時間的に不可能ですし、より強い手を
選び出すために何らかの方針が必要となってきます。
そこに畳み込みニューラルネットワークをつかってより有望な手を絞り込んでるんですが
どこが微調整なんでしょう?

13436324 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 0) 119

強化学習だけでしたらAlphaGO無印も自己対戦による強化学習を数千万回行ってます。
その前に棋譜よる初期学習を必要としたAlphaGo無印と、それが不要になった今回のZero
という話なんですが、どこが明らかな間違いなのでしょう。

あとは…目指す目標が教師なし学習のAIというのは事実を言ってるわけでも無く
これが一般認識だと宣言しているわけでもなく、単純に個人の意見として言ってるんですが
AIが目指す目標はそれとは違うというのなら、そちらの意見を上げるべきでしょう。

13436304 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1) 119

一つ覚えたな。これからはウソ書くなよ。

覚えたけど、その根拠となるウソじゃない記事あるいは論文ってどこにあります?

13436303 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1) 119

コウとられた直後って盤面だけみりゃ取り返すのが最善手なんだし。

その場その場の評価によって次の手を決めるのはAIを導入する前、なかなか
囲碁ソフトが強くなれなかった頃のことです。盤面の評価って人によって様々で
正確な評価が行える数式モデルを作り出せなかったんですよ。

あと学習しているのはあくまで勝利している棋譜ですから、負けていた棋譜を
学習させてもそのような打ち筋はしなくなるだけですよね。

13436286 comment

qem_moriokaのコメント: Re:このプロジェクトが失敗すると (スコア 1) 76

君、最近よくコメントしてるけど趣旨のとらえにくい(趣旨の無い?)コメントばかりだね。
もう少しよく考えてからコメントしたらどう?

アンドロメダ病原体

# 君が知らないのも無理は無い。小説は1969年、映画は71年だ。

13436092 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1, 荒らし) 119

もはやあなたの考えの中には、ディープニューラルネットさえ無いのな。かわいそうなalphaGoとzero.....

その横文字がどういう意味か良く分からないんで説明してくれませんかね。
モンテカルロ木探索だって使いたくなかった言葉なのにー

13436090 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 1) 119

AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)

AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね・・・

自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど・・・

13436076 comment

qem_moriokaのコメント: Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 0) 119

一度に百石置く場合とかから学習しているのか?ケッサクだな。

人間が与えた棋譜がそういうものであれば、そう学習する、そういうものです。
もちろん食わせた棋譜は勝ったという実績のある棋譜ですから、それには
囲碁のルールも内包してます。でもそれは棋譜に含まれてるというだけで
AI自身はルールを持っていない、それがAlphaGO(今回のZeroじゃない方)です。

なので教師つき学習というのは初期学習をどのようにすればより早くより強くなるのか
そのAIチューナーみたいな技能が・・・と思っていたらその教師すら不要となったよ
というのが今回の話。

安心してください、今回のZeroはちゃんと囲碁のルールを知ってますよwwwww

13436005 comment

qem_moriokaのコメント: Re:この世界がなぜ「3次元」なのかの説明になっているのが面白い (スコア 1) 48

バイストンウェルが海と陸の狭間とか、絶対領域とぱんつの狭間とかいう表現なのは、
ものすごく言いえて妙だと思ったのですよ

# え?

13435971 comment

qem_moriokaのコメント: AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア 0) 119

AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」

AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
AI「俺の経験だと、この手が一番強い」

typodupeerror

私はプログラマです。1040 formに私の職業としてそう書いています -- Ken Thompson

読み込み中...