アカウント名:
パスワード:
AlphaGO→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。AI「俺の経験だと、この手が一番強い」
AlphaGO Zero→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
これは明らかな間違いです.元記事 [itmedia.co.jp]に,
AlphaGo Zeroはそういったプロセスは経ずに、試行錯誤することで学ぶ「強化学習」の手法を取りました。
とあります.盤面(状態)における指手(行動)に対する評価値(報酬)が与えられる強化学習と,データだけが与えられる教師なし学習は,根本的に違います.
また教師なし学習は,教師あり学習,強化学習などと同じ機械学習の枠組の一つであり,「AI が目指す目標」というのは要出典です.
ID で書いてあるのは親切ですね.このコメント [srad.jp]にあるように,以前から間違っているようなので,この ID で書いてあるコメントは読み飛ばすことにします.# アカウントを作成すると,特定 ID を非表示に出来るのかな?
強化学習だけでしたらAlphaGO無印も自己対戦による強化学習を数千万回行ってます。その前に棋譜よる初期学習を必要としたAlphaGo無印と、それが不要になった今回のZeroという話なんですが、どこが明らかな間違いなのでしょう。
あとは…目指す目標が教師なし学習のAIというのは事実を言ってるわけでも無くこれが一般認識だと宣言しているわけでもなく、単純に個人の意見として言ってるんですがAIが目指す目標はそれとは違うというのなら、そちらの意見を上げるべきでしょう。
教師なし学習 [wikipedia.org]はデータだけが与えられます. 強化学習 [wikipedia.org]は,状態(盤面)と行動(指手)の組に対して,報酬が与えられ,遷移する状態に対して行動を繰り返し選ぶことで,報酬の(割引)和を最大化します.報酬という付加情報が与えられること,状態,行動,報酬を繰り返し処理することなどの点で,教師なし学習の枠組とは明らかに異なります.
棋譜が与えられなくても,強化学習をしているのなら,教師なし学習とは言
AlphaGO無印は学習の初期段階で棋譜を使っていました。これは教師あり学習で間違い無いですか?
それに対して今回のZeroは初期段階でも棋譜を使いませんでした。
ただ、無印は棋譜で学習した後で、Zeroはいきなり最初から、自己対戦を繰り返して学習していますが、これは教師あり/なしとかは関係なく強化学習ですよね?
そちらの認識だと強化学習をしているなら教師あり学習だということですが?
よくわからないのですが,このコメントが「Alpha Go Zero は教師なし学習」という間違いとどのように関係しているのか,わかるように説明していただけませんか?
リンク先のnatureの概要から
> AlphaGo becomes its own teacher: a neural network is trained to predict AlphaGo’s own move selections and also the winner of AlphaGo’s games.
どうみても教師ありですありがとうございました
自分が対戦相手になって先生の役割を担っていても, 教師あり学習 [wikipedia.org]とは意味が異なります.
教師あり学習は,それぞれのデータに対してラベル(そのデータが正しい/正しくないとか,データを引数としたときの関数の値)がついていて,その関係を学習することを指します.それに対して,今回の AlphaGo Zero は教師あり学習/教師なし学習のどちらでもない,強化学習を用いています.
教師あり学習でも教師なし学習でもない別のものがあるのは,日常の用語としては不思議ですが,専門用語としてそのように定義され
いいえ.教師あり学習かどうかは,問題設定から判断するものです.単語で区別できろものではありません.
アカウントを作成しなくても、ユーザースタイルシートで何とかできるかもしれない。
情報ありがとうございました.複雑そうですが,調べてみます.できるといいな.
hasセレクタがまだないのでスタイルシートじゃ無理じゃないですかね?Javascriptなら、 javascript:$('a[href*=qem_morioka]').parents('.comment-item').hide();こんな感じのブックマークレットで行けます。名前の所を変えると他の人も消せます。毎回ページ開くたびに実行しないとダメですが。それが、面倒ならお猿さんにでも頼んでください。
# こういう人も含めてコメント欄の楽しみと言う気もしますが……
ありがとうございます.とても助かります.残念ながらまだ,手元の環境だとうまく使えていませんが...お猿さんは Greasemonkey でしょうか.そちらも調べてみます.
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
身近な人の偉大さは半減する -- あるアレゲ人
AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
AI「俺の経験だと、この手が一番強い」
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:0)
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
これは明らかな間違いです.
元記事 [itmedia.co.jp]に,
AlphaGo Zeroはそういったプロセスは経ずに、試行錯誤することで学ぶ「強化学習」の手法を取りました。
とあります.
盤面(状態)における指手(行動)に対する評価値(報酬)が与えられる強化学習と,
データだけが与えられる教師なし学習は,根本的に違います.
また教師なし学習は,教師あり学習,強化学習などと同じ機械学習の枠組の一つであり,
「AI が目指す目標」というのは要出典です.
ID で書いてあるのは親切ですね.
このコメント [srad.jp]にあるように,以前から間違っているようなので,この ID で書いてあるコメントは読み飛ばすことにします.
# アカウントを作成すると,特定 ID を非表示に出来るのかな?
Re: (スコア:0)
強化学習だけでしたらAlphaGO無印も自己対戦による強化学習を数千万回行ってます。
その前に棋譜よる初期学習を必要としたAlphaGo無印と、それが不要になった今回のZero
という話なんですが、どこが明らかな間違いなのでしょう。
あとは…目指す目標が教師なし学習のAIというのは事実を言ってるわけでも無く
これが一般認識だと宣言しているわけでもなく、単純に個人の意見として言ってるんですが
AIが目指す目標はそれとは違うというのなら、そちらの意見を上げるべきでしょう。
Re: (スコア:0)
教師なし学習 [wikipedia.org]はデータだけが与えられます.
強化学習 [wikipedia.org]は,状態(盤面)と行動(指手)の組に対して,報酬が与えられ,
遷移する状態に対して行動を繰り返し選ぶことで,報酬の(割引)和を最大化します.
報酬という付加情報が与えられること,状態,行動,報酬を繰り返し処理することなどの点で,
教師なし学習の枠組とは明らかに異なります.
棋譜が与えられなくても,強化学習をしているのなら,教師なし学習とは言
Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!・・・」 (スコア:1)
AlphaGO無印は学習の初期段階で棋譜を使っていました。これは教師あり学習で
間違い無いですか?
それに対して今回のZeroは初期段階でも棋譜を使いませんでした。
ただ、無印は棋譜で学習した後で、Zeroはいきなり最初から、
自己対戦を繰り返して学習していますが、これは教師あり/なしとかは関係なく
強化学習ですよね?
そちらの認識だと強化学習をしているなら教師あり学習だということですが?
Re: (スコア:0)
よくわからないのですが,このコメントが「Alpha Go Zero は教師なし学習」という間違いとどのように関係しているのか,わかるように説明していただけませんか?
Re: (スコア:0)
リンク先のnatureの概要から
> AlphaGo becomes its own teacher: a neural network is trained to predict AlphaGo’s own move selections and also the winner of AlphaGo’s games.
どうみても教師ありです
ありがとうございました
Re: (スコア:0)
自分が対戦相手になって先生の役割を担っていても, 教師あり学習 [wikipedia.org]とは意味が異なります.
教師あり学習は,それぞれのデータに対してラベル(そのデータが正しい/正しくないとか,データを引数としたときの関数の値)がついていて,その関係を学習することを指します.それに対して,今回の AlphaGo Zero は教師あり学習/教師なし学習のどちらでもない,強化学習を用いています.
教師あり学習でも教師なし学習でもない別のものがあるのは,日常の用語としては不思議ですが,専門用語としてそのように定義され
Re: (スコア:0)
教師あり学習の教師は、つねにsupervisorでいいですか?
Re: (スコア:0)
いいえ.教師あり学習かどうかは,問題設定から判断するものです.
単語で区別できろものではありません.
Re: (スコア:0)
Re: (スコア:0)
アカウントを作成しなくても、ユーザースタイルシートで何とかできるかもしれない。
Re: (スコア:0)
情報ありがとうございました.
複雑そうですが,調べてみます.できるといいな.
Re: (スコア:0)
hasセレクタがまだないのでスタイルシートじゃ無理じゃないですかね?
Javascriptなら、
javascript:$('a[href*=qem_morioka]').parents('.comment-item').hide();
こんな感じのブックマークレットで行けます。名前の所を変えると他の人も消せます。
毎回ページ開くたびに実行しないとダメですが。それが、面倒ならお猿さんにでも頼んでください。
# こういう人も含めてコメント欄の楽しみと言う気もしますが……
Re: (スコア:0)
ありがとうございます.とても助かります.
残念ながらまだ,手元の環境だとうまく使えていませんが...
お猿さんは Greasemonkey でしょうか.そちらも調べてみます.