アカウント名:
パスワード:
自分の色が最終的に少ないほうが勝ちというルールのゲームであると先に定義して、競争して得たほうが「勝ち」という部分は変えないようにしないと、負けを競うのではなくて、少ないほうが勝ちとすれば、たんにそういう新しいルールで勝つAIという説明でシンプルに話せるのに。
と思った。
オセロ強い人ならやってみれば分かるが序盤普通に定石打ってくる
初心者は勘違いしやすいがオセロ序盤は手数の取り合い打てる箇所多い方が有利で石の数が多い方が有利じゃない
序盤は普通に勝つ動きをしていて自分の手数多くして中盤あたりから自分が不利に打たせるように制限かけてくる印象だなこのへんの切り替えどうしてるのか気になる
印象が違うのは手数が重要と知らないからだと思う俺からすると最初から強い動きの人と戦ってる感じ
切り替えているわけではなくて、手数の多いほうが勝つにも負けるにも有利という点から、自然と序盤の定石は同じになったのでしょう。
いやそれは分かってるよ
分かりづらくてすまんが「切り替え」は中盤で悪手相当の手を打つわけだけど、そのタイミングをどう判定してるのかで言った序盤の勝つ動きから中盤のどのタイミングで負けさせる動きに切り替えてるのか気になった
あと悪手の中でも良い悪手(石の返し最少で手数で勝ちつつ、相手に有利位置をとらせる)と悪い悪手(石返しすぎて、手数の関係上、対戦相手に返されて最終的に自分が有利な位置とらされる)がありそうだがその辺どう評価してるのかも気になる
ディープラーニングのことよく知らなくてすみませんが、「切り換え」とか「タイミング」とか「判定」とかあるんですかね?
内部動作が切り替わってるんじゃなくて、指定した勝利確率水準の手を返すプログラムに「勝率ゼロ」を与えても、序盤はデータ不足で思った通りの低い勝率の手が打てないんじゃないの。
ニューラルネットワークはニューラルとか言っておきながら単に任意次元から任意次元への写像なので、思考を切り替えたり未来の行動を計画したりといった時系列的な動きはできない
人間のほうに勝手に意思を見出す習性があるだけだよな。電王戦の将棋プログラムやAlphaZeroにも勝手にいろいろ見出していた人たちがいたみたいだし
切り替えタイミングに相当するパラメータも入力して、それふぁ変化した状態で手を変えると高評価するようびして学習させれば、切り替えを起こす様に出来ると思うよ。学習の過程で切り替えタイミング信号相当の中間信号が生成されても同じ。# それに意味があるかはともかく。
でもまぁこの場合は先読みの結果「手数を狭めるほうが勝率が高くなる盤面」になったらそこで切り替わるだけでしょうね。先読みとかその辺りのロジカルな部分がそうさせる。ロジカルな部分もニューラルネットワークで実装することはできるだろうが、よくある妥当な構造を学習するだけに終われば手書きと大差はない。
うん、通常ルールでの勝ち負けというより、少ない方が勝ちルールで遊んでいるような気分だった。# あと、白番やらせろよ、と
白番やらせたら、2窓でCPU同士を対戦させる人が大量に出て勝率のカウンタが破綻するから・・・
オセロは後手有利と聞いたことがあるけど、最弱対最弱でも、そうなるのかしら?
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
アレゲは一日にしてならず -- アレゲ研究家
違うゲーム (スコア:2)
自分の色が最終的に少ないほうが勝ち
というルールのゲームである
と先に定義して、
競争して得たほうが「勝ち」という部分は変えないようにしないと、
負けを競うのではなくて、少ないほうが勝ちとすれば、
たんにそういう新しいルールで勝つAIという説明でシンプルに話せるのに。
と思った。
面白い (スコア:1)
オセロ強い人ならやってみれば分かるが序盤普通に定石打ってくる
初心者は勘違いしやすいがオセロ序盤は手数の取り合い
打てる箇所多い方が有利で石の数が多い方が有利じゃない
序盤は普通に勝つ動きをしていて自分の手数多くして中盤あたりから
自分が不利に打たせるように制限かけてくる印象だな
このへんの切り替えどうしてるのか気になる
印象が違うのは手数が重要と知らないからだと思う
俺からすると最初から強い動きの人と戦ってる感じ
Re: (スコア:0)
切り替えているわけではなくて、手数の多いほうが勝つにも負けるにも有利という点から、自然と序盤の定石は同じになったのでしょう。
Re: (スコア:0)
いやそれは分かってるよ
分かりづらくてすまんが
「切り替え」は中盤で悪手相当の手を打つわけだけど、そのタイミングをどう判定してるのかで言った
序盤の勝つ動きから中盤のどのタイミングで負けさせる動きに切り替えてるのか気になった
あと悪手の中でも良い悪手(石の返し最少で手数で勝ちつつ、相手に有利位置をとらせる)と
悪い悪手(石返しすぎて、手数の関係上、対戦相手に返されて最終的に自分が有利な位置とらされる)
がありそうだがその辺どう評価してるのかも気になる
Re: (スコア:0)
ディープラーニングのことよく知らなくてすみませんが、
「切り換え」とか「タイミング」とか「判定」とかあるんですかね?
Re: (スコア:0)
内部動作が切り替わってるんじゃなくて、指定した勝利確率水準の
手を返すプログラムに「勝率ゼロ」を与えても、序盤はデータ不足で
思った通りの低い勝率の手が打てないんじゃないの。
ニューラルネットワークはニューラルとか言っておきながら単に任意
次元から任意次元への写像なので、思考を切り替えたり未来の行動を
計画したりといった時系列的な動きはできない
Re: (スコア:0)
人間のほうに勝手に意思を見出す習性があるだけだよな。電王戦の将棋プログラムやAlphaZeroにも勝手にいろいろ見出していた人たちがいたみたいだし
Re: (スコア:0)
切り替えタイミングに相当するパラメータも入力して、
それふぁ変化した状態で手を変えると高評価するようびして学習させれば、
切り替えを起こす様に出来ると思うよ。
学習の過程で切り替えタイミング信号相当の中間信号が生成されても同じ。
# それに意味があるかはともかく。
でもまぁこの場合は先読みの結果
「手数を狭めるほうが勝率が高くなる盤面」
になったらそこで切り替わるだけでしょうね。
先読みとかその辺りのロジカルな部分がそうさせる。
ロジカルな部分もニューラルネットワークで実装することはできるだろうが、
よくある妥当な構造を学習するだけに終われば手書きと大差はない。
Re: (スコア:0)
うん、通常ルールでの勝ち負けというより、少ない方が勝ちルールで遊んでいるような気分だった。
# あと、白番やらせろよ、と
Re:違うゲーム (スコア:1)
白番やらせたら、2窓でCPU同士を対戦させる人が大量に出て勝率のカウンタが破綻するから・・・
Re: (スコア:0)
オセロは後手有利と聞いたことがあるけど、最弱対最弱でも、そうなるのかしら?