囲碁世界レーティング1位の柯潔九段とAlphaGoが対局、第1局はAlphaGoが勝利 31
ストーリー by hylom
さてどうなるか 部門より
さてどうなるか 部門より
あるAnonymous Coward 曰く、
現時点でGoRatings.orgによる囲碁のレーティング1位である柯潔九段と、Google傘下のDeepMindが開発するコンピュータ囲碁ソフトウェア「AlphaGo」の対局が5月23日に行われた。第1局はAlpheGoが半目差で勝利(ITmedia)。
AlphaGoは、現在レーティング7位の李世ドル九段と昨年対局し4勝1敗で勝ち越し、レーティング2位となった。その後AlphaGoは一時柯潔九段を抜きレーティング1位となったが、現在GoRatings.orgによるレーティング対象からは外れている。
計算能力を1/10程度に削減したらしい (スコア:1)
http://imgur.com/a/hLIYw [imgur.com]
前回はCPU+GPUのサーバを1ラック使ったところ、今回はCPU+TPUで1ノードに削減してきたようだ。大雑把な話で計算能力は1/10とも言われている。
Re: (スコア:0)
計算能力が上がったから削減できたのでは…
Re: (スコア:0)
1ラックから1ノード、しかも1RUに複数入っているタイプのノードではちょっと削減できすぎだと思う。 人間を超えられるかではなくコスパの話になっているということでは?
Re: (スコア:0)
TPUのデモに世界チャンピオンがかませ犬ってこと
「AlphaGo」って何だろう (スコア:0)
この手のソフトは用意したデータセットによって学習結果が大きく変わる。
データセットを変えて学習しなおしたら、身体は一緒だけど中身が違う、ヒトで例えれば双子の片割れのようなものになる。おそらくはAplhaGoも学習リセットのようなことはしてるだろう。
つまり「AlphaGoのレーティング」算出に用いたデータは大勢いるAlphaGo双生児vs棋士の勝負データなのかなと思う。AlphaGoのレーティングを決めるというのは人類のレーティングを決めるのに等しい行為なのかなw
Re:「AlphaGo」って何だろう (スコア:2)
AlphaGOって最初は棋譜を学習してある程度良い手を打てるようになったら
自己対戦による強化学習してる(前回では500万回ww)から、与えた教材が~
というよりも前回負けた原因でもあるモンテカルロ木探索のパラメーターを
修正して再度強化学習したんだろうなーと。
前回のタレコミでAlphaGOには囲碁のルールが実装されてないって言ったら
フルボッコになったなー
自己学習における勝敗判定の先生にはもちろんルールが仕込まれてるけど、
AlphaGo自身には囲碁のルールなんて実装されてないって、もう一度ここで
大声で言っておこう
Re: (スコア:0)
ルールが実装されてるといっても過言ではないんじゃない?
あと、将棋の詰将棋アルゴリズム的なものは入ってないのかな?
Re:「AlphaGo」って何だろう (スコア:1)
ゼビウスでおなじみの遠藤雅伸さんによるモンテカルロ木探索の解説
http://ameblo.jp/evezoo/entry-10175289834.html [ameblo.jp]
これを囲碁に適用しようとしたのはAlphaGOが最初というわけじゃない
「コンピュータ囲碁におけるモンテカルロ法~理論編~」 [uec.ac.jp] (pdf注意)
ずばりAlphaGoの解説
「囲碁AI “AlphaGo” はなぜ強いのか?~ディープラーニング、モンテカルロ木探索、強化学習~」 [itscom.net] (pdf注意)
Re: (スコア:0)
https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf [googleapis.com]
Extended Data Table 2 を見ると
Sensiblenessという項目で合法手かどうかをニューラルネットの入力としています
Ladder capture、Ladder escapeの判定ルーチンも入ってるはず
Re: (スコア:0)
ルール実装しなかったら、最終的に出力された手が反則手でないことを100%保証できないと思うんだけど
それは問題ないの?
Re:「AlphaGo」って何だろう (スコア:1)
勝敗を判定する「先生」はルールはもちろん勝敗の基準も含めて実装してるけど、
勝つための手を探索するときに囲碁のルールは使わない、という言い方のほうが合ってるかなorz
Re:「AlphaGo」って何だろう (スコア:3, 参考になる)
ルール違反の手は、学習の過程で負けと判定され、評価値最低の盤面と記録されているから、そのような手は出てこない、という状況でしょう。「探索処理を単純化するために、探索処理にルールを入れずに、データの方にルールを盛り込んでおく」という手法は、いわゆる「番兵法」 [wikipedia.org]の一種と言えると思います。
言いたいことはわかりますが、これを「ルールが実装されていない」と言ってしまうと、「ルールを外部データから読み込む(コード的に記述していない)」ようなものはみな「ルールが実装されていない」ことになってしまうかと。
Re:「AlphaGo」って何だろう (スコア:1)
確かに…食わせるものに最初から毒が入って無いって判ってるなら
毒見役はいらんもんなあ(たとえ下手 _(:3 」∠)_
Re: (スコア:0)
囲碁のルール:黒番と白番が交互に打つ
Re: (スコア:0)
他にも「石は白と黒の二種」「二人のプレイヤーで対戦」「石を置けるのは碁盤の上のみ」「線と線との交点に置く」「コウ争い」とかイロイロ。
#囲碁以外のゲームだと、これが満たされない例なんてゴロゴロあるわけで。
モンテカルロ囲碁というアルゴリズムを使ってる時点で、囲碁ルールを前提にしているのは明白だと。
Re: (スコア:0)
そこには囲碁のルールなんかどこにも出て来ない
外部のシステム(人力だったり教師となる評価関数だったり)がその値に囲碁のルールに従った動作を割り付けてるだけ
Re: (スコア:0)
そうだね。
で問題は「AlphaGoのニューラルネットが囲碁のルールを実装してるか」じゃなくて
「AlphaGoが囲碁のルールを実装してるか」だったよね。
実装してるんでしょ?
Re: (スコア:0)
反則手を指したらその先生プログラムが敗北判定してくれるんだから
次の局からは学習してそういう手指さなければいいだけ
Re: (スコア:0)
学習でどんなに精度が上がっても100%にはならんだろ。
反則手判定ルーチン入れるだけで100%防げるのは自明なのに
やらない理由ある?
Re: (スコア:0)
ソフトウェアの出力として反則手を握り潰すなら意味があるが、不平等な評価をすると歪みそうで怖い
エキスパートシステムならそれでいいかもしれないが、エキスパートシステムが役に立たない理由の一つでもあるし、発想自体が悪手
Re: (スコア:0)
困るときはルール評価エンジンを別に用意して出力を監視させる
ルールは準拠度をリニアに評価できるものではないのでNNがうまく食えないのは事実
Re: (スコア:0)
ルール評価エンジンを別に用意するって、つまりルールを実装するってことよね
Re: (スコア:0)
「俺は修行して生まれ変わったんだ。去年までの俺と一緒だと思わないことだな。」
というのは、人間のセリフだろ?(小っ恥ずかしくて普通は使えないけど。)
学習して成長して変化していくのは、べつにAlphaGoの専売特許じゃない。むしろ変化しない方が珍しい。
>AplhaGoも学習リセットのようなことはしてるだろう。
そのソースは?
とりあえず、自分は今までそういう発表は見たことない。
Re: (スコア:0)
AlphaGoVSAlphaGoのようなこともやってるところはやってる。
Re: (スコア:0)
それこそ兄弟対決だね。優秀な方を採用
レベルを上げて物量で殴ればいい (スコア:0)
AlphaGoの功績は、「いかにAIの水平線効果を克服するか」というのがそもそも問題設定としてズレていた(人間だって別に克服していなかった)ことを明らかにしてくれたことだ。より遠くまで見渡せるものがいなければ水平線の存在には気づけない。
一方佐藤名人とponanzaの対局は誰も話題にしていなかった (スコア:0)
まあ結果はわかりきってるし、ずっと前からプロレスになってんのに人間とAI最後のガチ対決とか寒い煽り文句で宣伝してたし。
つーかそもそもなんで今年もまだ続いてるんだよ。電王戦FINALとは何だったのか。ファイナルファンタジー的なアレか。
Re:一方佐藤名人とponanzaの対局は誰も話題にしていなかった (スコア:1)
Re: (スコア:0)
その話題は変な人が集まって来て雰囲気悪くなるので避けるべき。
Re: (スコア:0)
もういいんじゃないか、将棋や囲碁は、人間がやらなくても。羽生名人を破ったという14歳の天才少年は、その明晰な頭脳をより人類に貢献できる分野に使ってもらうよう方針転換してもらえないか。どうしてもゲーム以外はだめと言うなら、ゲームプロデューサーでもいいから。人生の時間がもったいない。
柯潔vsアルファ碁1局目は人類完敗。中国がネット中継を全面ブロック (スコア:0)
http://www.gizmodo.jp/2017/05/alpha-go-ke-jie.html [gizmodo.jp]
いかにもチャイナ。