アカウント名:
パスワード:
仮に、相手がある局面において決まったの手を打つと仮定すれば
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
Stay hungry, Stay foolish. -- Steven Paul Jobs
脳のシミュレートができなくても (スコア:2, 参考になる)
計算機でもDPマッチング [google.co.jp]により「直観」を実現することは可能です。
Re:脳のシミュレートができなくても (スコア:2, 興味深い)
あきらかにチェスや将棋にはそういった構造がありませんし、おそらく P で解ける問題でもないでしょう。したがって DP
Re:脳のシミュレートができなくても (スコア:2, 興味深い)
チェスとかにDPを適用する場合の難点は、
・相手がいる。(マルチエージェント)
・状態空間が膨大で計算量が大きい。
という事だと思います。
仮に、相手がある局面において決まったの手を打つと仮定すれば
計算量は別にして、その仮定の元で最適解が得られます。
MDP(Markov Decision Problem)だから、 Bellman 方程式を解けばよいだけです。
本当は、相手によって最適な戦略は変わってしまいますが。
"決まった手"と言うのは、Aを0.5、Bを0.3、Cを0.2の割合で
選択するといった確率的なものでも構いません。
ただし、その確率が変わる(これを相手が学習する言う)場合には、
MDPではなくなってしまいます。
実際には相手が居るので、例えば MIN-MAX法 [kyoto-u.ac.jp]とか
を使ったりして、ゴリゴリすることになるのでしょう。
# 解けるかどうか分かりませんが、できたとしても。
ところで、254490さんの
>> チェスや将棋のように、「過去の経験」が配列として格納できる場合、
は、 Profit sharing [google.com] とか言われます。強化学習でも良いか。
配列を覚えておく必要はありませんが。
ベルマン方程式を状態遷移確率で解くか(DP:DynamicPrograming)、
サンプル系列から解くか(Profit Sharing、Reinforcement Learning)
見たいな違いですが。
Re:脳のシミュレートができなくても (スコア:0)
Re:脳のシミュレートができなくても (スコア:1)
> 現状では求めることさえできない訳ですよね。
そうですね。これでは状態遷移確率が求められませんので、
>> MDP(Markov Decision Problem)だから、 Bellman 方程式を解けばよいだけです。
は明らかに間違いです。m(_ _)m
状態遷移確率が固定であっても、不明だとDPは解けませんね。
#強化学習なら可能ですが。