パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得」記事へのコメント

  • AlphaGO
    →囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
    強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
    AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」

    AlphaGO Zero
    →囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
    自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
    AI「俺の経験だと、この手が一番強い」

    • by Anonymous Coward

      AlphaGO Zero
      →囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。

      これは明らかな間違いです.
      元記事 [itmedia.co.jp]に,

      AlphaGo Zeroはそういったプロセスは経ずに、試行錯誤することで学ぶ「強化学習」の手法を取りました。

      とあります.
      盤面(状態)における指手(行動)に対する評価値(報酬)が与えられる強化学習と,
      データだけが与えられる教師なし学習は,根本的に違います.

      また教師なし学習は,教師あり学習,強化学習などと同じ機械学習の枠組の一つであり,

      • 強化学習だけでしたらAlphaGO無印も自己対戦による強化学習を数千万回行ってます。
        その前に棋譜よる初期学習を必要としたAlphaGo無印と、それが不要になった今回のZero
        という話なんですが、どこが明らかな間違いなのでしょう。

        あとは…目指す目標が教師なし学習のAIというのは事実を言ってるわけでも無く
        これが一般認識だと宣言しているわけでもなく、単純に個人の意見として言ってるんですが
        AIが目指す目標はそれとは違うというのなら、そちらの意見を上げるべきでしょう。

        親コメント
        • by Anonymous Coward

          教師なし学習 [wikipedia.org]はデータだけが与えられます.
          強化学習 [wikipedia.org]は,状態(盤面)と行動(指手)の組に対して,報酬が与えられ,
          遷移する状態に対して行動を繰り返し選ぶことで,報酬の(割引)和を最大化します.
          報酬という付加情報が与えられること,状態,行動,報酬を繰り返し処理することなどの点で,
          教師なし学習の枠組とは明らかに異なります.

          棋譜が与えられなくても,強化学習をしているのなら,教師なし学習とは言

          • AlphaGO無印は学習の初期段階で棋譜を使っていました。これは教師あり学習で
            間違い無いですか?

            それに対して今回のZeroは初期段階でも棋譜を使いませんでした。

            ただ、無印は棋譜で学習した後で、Zeroはいきなり最初から、
            自己対戦を繰り返して学習していますが、これは教師あり/なしとかは関係なく
            強化学習ですよね?

            そちらの認識だと強化学習をしているなら教師あり学習だということですが?

            親コメント
            • by Anonymous Coward

              よくわからないのですが,このコメントが「Alpha Go Zero は教師なし学習」という間違いとどのように関係しているのか,わかるように説明していただけませんか?

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

処理中...