d*****u 发帖数: 17243 | 1 以前学过一些简单的棋类程序,都是用类似Markov Decision Process
训练出一个决策函数,然后每一步根据棋局可以选出一个最优步
围棋这个states比较多,而且对战时间也长,那种方法不好用。可能要分拆棋局。 | C**********e 发帖数: 23303 | | h*i 发帖数: 3446 | 3 That paper is very easy to read. Nothing fancy or innovative. Not
publishable at NIPS or any top level ML conferences. So they publish it in
Nature. LOL.
【在 d*****u 的大作中提到】 : 以前学过一些简单的棋类程序,都是用类似Markov Decision Process : 训练出一个决策函数,然后每一步根据棋局可以选出一个最优步 : 围棋这个states比较多,而且对战时间也长,那种方法不好用。可能要分拆棋局。
| h*i 发帖数: 3446 | 4 Yes, they use reinforcement learning (i.e. MDP), but they train policy
function and value function with separate deep neural networks. They also do
monte carlo tree search, like other Go programs.
In any case, read the paper and you will see that it's nothing innovative.
【在 d*****u 的大作中提到】 : 以前学过一些简单的棋类程序,都是用类似Markov Decision Process : 训练出一个决策函数,然后每一步根据棋局可以选出一个最优步 : 围棋这个states比较多,而且对战时间也长,那种方法不好用。可能要分拆棋局。
|
|