w********m 发帖数: 1137 | 1 wdong是deep learning的大牛了,想请教几个问题-
1. alphaGo用的是cluster做训练。看报道现在与李世石比赛是个单机版,看来模型都
存在内存里面了。这样的话,每次下子为什么还要想半天,有时还超时。implement a
model需要这么多时间吗?
2. alphaGo的第N子的状态对第N+1有用吗?需要保存吗?还是每次下子都是独立事件
,重新run一下模型? |
a*f 发帖数: 1790 | 2 估计每次都是按新序列重新training,NN的training序列变化影响结果 |
l*******m 发帖数: 1096 | 3 比赛时是inference所以单机也不错。MC tree search比较慢吧,DL reduces the
effective depth and breadth of the search tree
a
【在 w********m 的大作中提到】 : wdong是deep learning的大牛了,想请教几个问题- : 1. alphaGo用的是cluster做训练。看报道现在与李世石比赛是个单机版,看来模型都 : 存在内存里面了。这样的话,每次下子为什么还要想半天,有时还超时。implement a : model需要这么多时间吗? : 2. alphaGo的第N子的状态对第N+1有用吗?需要保存吗?还是每次下子都是独立事件 : ,重新run一下模型?
|
w***g 发帖数: 5958 | 4 deep learning我也就懂点皮毛, alphago我跟进得也不多。我尝试说下我的理解吧。
1. deep learning应该主要是用来对局面评分的。下棋算法主要还是搜索。
大致就是从当前局面开始搜索N步,出来X个可能的局面,然后每个用deep
learning评分,然后找出最佳方向再接着搜索。deep learning评价一个
局面应该很快,但是因为搜索空间非常大,加起来就慢了。我甚至怀疑
deep learning评价局面比传统的heuristic不但准,而且更快。
2. 根据我对人工只能下棋的粗浅的理解,机器每下一子,应该往前搜N
步, 比如10步吧,可能的情形存成一个树结构。这个树的分支应该在
几十到300之间。树根为机器当前未下子时的局面状态。搜索评分
完成后,机器从连在树根上的那些节点中选最好的一个,按这个节点
下一子,并扔掉其他分支。这时树上还有9步。
对手下一步,机器按对手下法被动选一个branch (对手的所有下发应该
都已经考虑在内了),这时树上还有未来的8步。然后机器进行大量的
运算,再往前扩展两步,凑足10步。
也就是说机器永远需要往前看N步,每一个回合后,再incrementally
往前看2步,而不是重新run模型。
实际情况应该不是简单的一个N。每隔branch对应的方向,按照可能
发生的概率算的深度应该是非常不一样的。有些愚蠢的下法对应的方向
应该直接就被剪枝了。比如某个局面,按传统做发,可能要往后
搜好几步才能确认是愚蠢的,deep learning不用往后搜,直接就可以
得出结论就干掉了。
a
【在 w********m 的大作中提到】 : wdong是deep learning的大牛了,想请教几个问题- : 1. alphaGo用的是cluster做训练。看报道现在与李世石比赛是个单机版,看来模型都 : 存在内存里面了。这样的话,每次下子为什么还要想半天,有时还超时。implement a : model需要这么多时间吗? : 2. alphaGo的第N子的状态对第N+1有用吗?需要保存吗?还是每次下子都是独立事件 : ,重新run一下模型?
|
w***g 发帖数: 5958 | 5 机器运算超时,其实就是对手的下法超出了机器的预料,落在了被大量剪枝
的那个branch上了。这个branch可能机器算了三步就认为不是最优的就没在
往下算(神经网络估计不准),所以就得incrementally补7步才行。
于是就挂了。
【在 w***g 的大作中提到】 : deep learning我也就懂点皮毛, alphago我跟进得也不多。我尝试说下我的理解吧。 : 1. deep learning应该主要是用来对局面评分的。下棋算法主要还是搜索。 : 大致就是从当前局面开始搜索N步,出来X个可能的局面,然后每个用deep : learning评分,然后找出最佳方向再接着搜索。deep learning评价一个 : 局面应该很快,但是因为搜索空间非常大,加起来就慢了。我甚至怀疑 : deep learning评价局面比传统的heuristic不但准,而且更快。 : 2. 根据我对人工只能下棋的粗浅的理解,机器每下一子,应该往前搜N : 步, 比如10步吧,可能的情形存成一个树结构。这个树的分支应该在 : 几十到300之间。树根为机器当前未下子时的局面状态。搜索评分 : 完成后,机器从连在树根上的那些节点中选最好的一个,按这个节点
|
p**2 发帖数: 613 | 6 感觉是图论的最短距离的高级版本,
说错了别笑俺,俺是斧头帮。
【在 w***g 的大作中提到】 : deep learning我也就懂点皮毛, alphago我跟进得也不多。我尝试说下我的理解吧。 : 1. deep learning应该主要是用来对局面评分的。下棋算法主要还是搜索。 : 大致就是从当前局面开始搜索N步,出来X个可能的局面,然后每个用deep : learning评分,然后找出最佳方向再接着搜索。deep learning评价一个 : 局面应该很快,但是因为搜索空间非常大,加起来就慢了。我甚至怀疑 : deep learning评价局面比传统的heuristic不但准,而且更快。 : 2. 根据我对人工只能下棋的粗浅的理解,机器每下一子,应该往前搜N : 步, 比如10步吧,可能的情形存成一个树结构。这个树的分支应该在 : 几十到300之间。树根为机器当前未下子时的局面状态。搜索评分 : 完成后,机器从连在树根上的那些节点中选最好的一个,按这个节点
|
f*******t 发帖数: 7549 | 7 不是单机跟李世石打吧, 1920 CPUs and 280 GPUs |
p**2 发帖数: 613 | 8 army!
【在 f*******t 的大作中提到】 : 不是单机跟李世石打吧, 1920 CPUs and 280 GPUs
|
d*******r 发帖数: 3299 | 9 所以就是个 搜索+heuristic剪枝
只不过是用 deep learning 来做 heuristic剪枝?
【在 w***g 的大作中提到】 : deep learning我也就懂点皮毛, alphago我跟进得也不多。我尝试说下我的理解吧。 : 1. deep learning应该主要是用来对局面评分的。下棋算法主要还是搜索。 : 大致就是从当前局面开始搜索N步,出来X个可能的局面,然后每个用deep : learning评分,然后找出最佳方向再接着搜索。deep learning评价一个 : 局面应该很快,但是因为搜索空间非常大,加起来就慢了。我甚至怀疑 : deep learning评价局面比传统的heuristic不但准,而且更快。 : 2. 根据我对人工只能下棋的粗浅的理解,机器每下一子,应该往前搜N : 步, 比如10步吧,可能的情形存成一个树结构。这个树的分支应该在 : 几十到300之间。树根为机器当前未下子时的局面状态。搜索评分 : 完成后,机器从连在树根上的那些节点中选最好的一个,按这个节点
|
a*f 发帖数: 1790 | |
|
|
l******n 发帖数: 9344 | 11 所以我在go版说,和机器玩围棋就要高举高打,不停脱先抢实地,能不应的就不要应,
直接造成机器超时或者下出无理手
【在 w***g 的大作中提到】 : deep learning我也就懂点皮毛, alphago我跟进得也不多。我尝试说下我的理解吧。 : 1. deep learning应该主要是用来对局面评分的。下棋算法主要还是搜索。 : 大致就是从当前局面开始搜索N步,出来X个可能的局面,然后每个用deep : learning评分,然后找出最佳方向再接着搜索。deep learning评价一个 : 局面应该很快,但是因为搜索空间非常大,加起来就慢了。我甚至怀疑 : deep learning评价局面比传统的heuristic不但准,而且更快。 : 2. 根据我对人工只能下棋的粗浅的理解,机器每下一子,应该往前搜N : 步, 比如10步吧,可能的情形存成一个树结构。这个树的分支应该在 : 几十到300之间。树根为机器当前未下子时的局面状态。搜索评分 : 完成后,机器从连在树根上的那些节点中选最好的一个,按这个节点
|
w***g 发帖数: 5958 | 12 从算法上来说,其实光预测对方的最佳对策还不够,还要预测对方的决策树,
适时往对方决策树薄弱的方向进攻,迫使对方增加搜索范围和运算量。
这个事情做起来怕是很难。
【在 l******n 的大作中提到】 : 所以我在go版说,和机器玩围棋就要高举高打,不停脱先抢实地,能不应的就不要应, : 直接造成机器超时或者下出无理手
|
d****i 发帖数: 4809 | 13 这个吴清源老先生在和木谷实下十番棋的时候下过,第一着就下天元,完全不按常理下
着,最后把木谷实给弄矇了,最后输给了吴清源。alphago不知道有没有应对不按常理
的算法,但是布局阶段天元附近应对的话计算太复杂,恐怕alphago都算不清。
【在 a*f 的大作中提到】 : 黑先如果把中心点占了会如何
|
a*f 发帖数: 1790 | 14 我的算法简单,
第一步执黑点中心,然后电脑走哪就点对称点,直到电脑出昏招
不知道电脑能不能破,破不了,小孩子的也能打败狗
【在 d****i 的大作中提到】 : 这个吴清源老先生在和木谷实下十番棋的时候下过,第一着就下天元,完全不按常理下 : 着,最后把木谷实给弄矇了,最后输给了吴清源。alphago不知道有没有应对不按常理 : 的算法,但是布局阶段天元附近应对的话计算太复杂,恐怕alphago都算不清。
|
d****i 发帖数: 4809 | 15 见我上面贴的回答
【在 a*f 的大作中提到】 : 我的算法简单, : 第一步执黑点中心,然后电脑走哪就点对称点,直到电脑出昏招 : 不知道电脑能不能破,破不了,小孩子的也能打败狗
|
l******n 发帖数: 9344 | 16 这个太难了,第一很难找到决策树的薄弱环节,第二这些薄弱环节随着training的变化
也在变化。脱先不应肯定就脱离了局部决策树的计算范围,这是最简单也最实际的想法
【在 w***g 的大作中提到】 : 从算法上来说,其实光预测对方的最佳对策还不够,还要预测对方的决策树, : 适时往对方决策树薄弱的方向进攻,迫使对方增加搜索范围和运算量。 : 这个事情做起来怕是很难。
|
d****i 发帖数: 4809 | 17 脱先只能有限的几次,你多来几次脱先就大龙被屠投子认输啦。
【在 l******n 的大作中提到】 : 这个太难了,第一很难找到决策树的薄弱环节,第二这些薄弱环节随着training的变化 : 也在变化。脱先不应肯定就脱离了局部决策树的计算范围,这是最简单也最实际的想法
|
l*******m 发帖数: 1096 | 18 快棋赛人类还是希望的,至少现在。去年alphago和Fan Hui下了十盘,其中有5盘快棋
,alphago VS Fan Hui = 3:2
【在 l******n 的大作中提到】 : 所以我在go版说,和机器玩围棋就要高举高打,不停脱先抢实地,能不应的就不要应, : 直接造成机器超时或者下出无理手
|
g*****y 发帖数: 7271 | 19 吴清源输了那局棋吧?而且那时候先行的不贴目,才有可能这样瞎搞。
【在 d****i 的大作中提到】 : 这个吴清源老先生在和木谷实下十番棋的时候下过,第一着就下天元,完全不按常理下 : 着,最后把木谷实给弄矇了,最后输给了吴清源。alphago不知道有没有应对不按常理 : 的算法,但是布局阶段天元附近应对的话计算太复杂,恐怕alphago都算不清。
|
d****i 发帖数: 4809 | 20 这个记不清了,反正当时在大赛里面敢第一着下在天元的,吴清源是第一个。看看以前
日本本因坊棋圣战的棋谱,和现在的棋谱比比真是差别相当的大。
【在 g*****y 的大作中提到】 : 吴清源输了那局棋吧?而且那时候先行的不贴目,才有可能这样瞎搞。
|
|
|
t*******y 发帖数: 2432 | 21 不是单机版,单机版是新浪瞎翻的
是用专门网络连接到谷歌在美国的集群
分布式对单机版胜率70%,不可能不上分布式的 |
w********m 发帖数: 1137 | 22 多谢大牛。果然是言简意赅。10个包子。
【在 w***g 的大作中提到】 : deep learning我也就懂点皮毛, alphago我跟进得也不多。我尝试说下我的理解吧。 : 1. deep learning应该主要是用来对局面评分的。下棋算法主要还是搜索。 : 大致就是从当前局面开始搜索N步,出来X个可能的局面,然后每个用deep : learning评分,然后找出最佳方向再接着搜索。deep learning评价一个 : 局面应该很快,但是因为搜索空间非常大,加起来就慢了。我甚至怀疑 : deep learning评价局面比传统的heuristic不但准,而且更快。 : 2. 根据我对人工只能下棋的粗浅的理解,机器每下一子,应该往前搜N : 步, 比如10步吧,可能的情形存成一个树结构。这个树的分支应该在 : 几十到300之间。树根为机器当前未下子时的局面状态。搜索评分 : 完成后,机器从连在树根上的那些节点中选最好的一个,按这个节点
|
w***g 发帖数: 5958 | 23 你太客气了。我刚才去go版逛了一圈,发现明白人好多。
再回来看看我写的这点东西,真是班门弄斧了。
【在 w********m 的大作中提到】 : 多谢大牛。果然是言简意赅。10个包子。
|
b*******s 发帖数: 5216 | 24 仿棋是不允许的吧
【在 a*f 的大作中提到】 : 我的算法简单, : 第一步执黑点中心,然后电脑走哪就点对称点,直到电脑出昏招 : 不知道电脑能不能破,破不了,小孩子的也能打败狗
|