h*h 发帖数: 27852 | 1 发信人: softmagic (魔术师), 信区: Weiqi
标 题: 用一种真正便于棋手理解的方式解释alphago的算法
发信站: 水木社区 (Thu Mar 10 07:58:11 2016), 转信
其实讲深度学习没有什么太大意义,那些都是离线做好的,
alphago下棋的时候并不需要深度学习。
但是事先做好的深度学习训练的模型保证了下面讲的参与“研讨”的选手的质量水平。
AlphaGo 的MCTS算法相当于几万个业余3-5段的选手,经过合理的组织,在
1分钟内研讨了几百万盘当前局面下的后续对局发展。最终得出一个最有希望
获胜的招法。
这种合理组织并且表现在:
1.每个局面下,越有“合理招法”希望的落子,会被更多的“研讨对局”,通常比如当前
局面下,最有希望的落子位置会比,希望第二大的落子位置研讨次数多出一个数量级。
这个就是UCT算法,理论上来说,UCT一定会收敛到最优解。
但是需要的时间不切合实际。
2.比较容易被忽略的是,在研讨过程中,他们的各个局部的研究结论会以一种
高效的形式彼此沟通,换句话说,关于目前局面发现出来的知识是共享的。
这个非常有用是因为研讨的局面非常多的局部雷同性。
补充一点,
在MCTS+UCT刚出来的时候,一下子棋力提高了四个子。
但是发展起来后遇到的提高的瓶颈就是我这里说的“研讨对局”的质量不高,
有时候甚至相当于随机落子。
当时的研究就推测如果“研究对局”的质量达到业余3、5段的水平,
MCTS就可以PK职业选手了。
现在的发展只是证明了预测的正确。这种做法的威力确实很大。 |
O**l 发帖数: 12923 | 2 赞这个说到点子上来
Uct一出来 9*9 立即无敌
19*19就是时间问题了
[在 hsh (三胡) 的大作中提到:]
:发信人: softmagic (魔术师), 信区: Weiqi
:标 题: 用一种真正便于棋手理解的方式解释alphago的算法
:........... |
h*h 发帖数: 27852 | 3 类似game show 让观众投票选达案,基本都是正确的
【在 O**l 的大作中提到】 : 赞这个说到点子上来 : Uct一出来 9*9 立即无敌 : 19*19就是时间问题了 : [在 hsh (三胡) 的大作中提到:] : :发信人: softmagic (魔术师), 信区: Weiqi : :标 题: 用一种真正便于棋手理解的方式解释alphago的算法 : :...........
|
b*******8 发帖数: 37364 | 4 一个项羽再厉害 也打不过一个万人方阵
★ 发自iPhone App: ChineseWeb 1.0.6
【在 h*h 的大作中提到】 : 发信人: softmagic (魔术师), 信区: Weiqi : 标 题: 用一种真正便于棋手理解的方式解释alphago的算法 : 发信站: 水木社区 (Thu Mar 10 07:58:11 2016), 转信 : 其实讲深度学习没有什么太大意义,那些都是离线做好的, : alphago下棋的时候并不需要深度学习。 : 但是事先做好的深度学习训练的模型保证了下面讲的参与“研讨”的选手的质量水平。 : AlphaGo 的MCTS算法相当于几万个业余3-5段的选手,经过合理的组织,在 : 1分钟内研讨了几百万盘当前局面下的后续对局发展。最终得出一个最有希望 : 获胜的招法。 : 这种合理组织并且表现在:
|