由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - wdong帮忙几个alphaGo的问题
相关主题
打败阿法狗的方法探讨,热点扩散法认真问一下wdong
廖方舟 李哲 金奖! (转载)mitbbs 封 goodbug 在 Programming 版 (转载)
deep learning就是数据太贵关于搞ML刷数据的职业前途
讨论程序语言没什么意思,functional programming还是不错的wdong, 请教几个Julia的问题
有没有大牛愿意牵头搞一个 deep learning projectML 需不需要搞懂那些数学
shortest path algorithm(dijkstra)的变形楼教主也伤仲永了?
这些网站的设计都很类似,有个什么别称吗?不想和阿三合作 怎么办?
转行的不应该看不起科班出身的王垠又要回国了
相关话题的讨论汇总
话题: alphago话题: wdong话题: learning话题: deep话题: 机器
进入Programming版参与讨论
1 (共1页)
w********m
发帖数: 1137
1
wdong是deep learning的大牛了,想请教几个问题-
1. alphaGo用的是cluster做训练。看报道现在与李世石比赛是个单机版,看来模型都
存在内存里面了。这样的话,每次下子为什么还要想半天,有时还超时。implement a
model需要这么多时间吗?
2. alphaGo的第N子的状态对第N+1有用吗?需要保存吗?还是每次下子都是独立事件
,重新run一下模型?
a*f
发帖数: 1790
2
估计每次都是按新序列重新training,NN的training序列变化影响结果
l*******m
发帖数: 1096
3
比赛时是inference所以单机也不错。MC tree search比较慢吧,DL reduces the
effective depth and breadth of the search tree

a

【在 w********m 的大作中提到】
: wdong是deep learning的大牛了,想请教几个问题-
: 1. alphaGo用的是cluster做训练。看报道现在与李世石比赛是个单机版,看来模型都
: 存在内存里面了。这样的话,每次下子为什么还要想半天,有时还超时。implement a
: model需要这么多时间吗?
: 2. alphaGo的第N子的状态对第N+1有用吗?需要保存吗?还是每次下子都是独立事件
: ,重新run一下模型?

w***g
发帖数: 5958
4
deep learning我也就懂点皮毛, alphago我跟进得也不多。我尝试说下我的理解吧。
1. deep learning应该主要是用来对局面评分的。下棋算法主要还是搜索。
大致就是从当前局面开始搜索N步,出来X个可能的局面,然后每个用deep
learning评分,然后找出最佳方向再接着搜索。deep learning评价一个
局面应该很快,但是因为搜索空间非常大,加起来就慢了。我甚至怀疑
deep learning评价局面比传统的heuristic不但准,而且更快。
2. 根据我对人工只能下棋的粗浅的理解,机器每下一子,应该往前搜N
步, 比如10步吧,可能的情形存成一个树结构。这个树的分支应该在
几十到300之间。树根为机器当前未下子时的局面状态。搜索评分
完成后,机器从连在树根上的那些节点中选最好的一个,按这个节点
下一子,并扔掉其他分支。这时树上还有9步。
对手下一步,机器按对手下法被动选一个branch (对手的所有下发应该
都已经考虑在内了),这时树上还有未来的8步。然后机器进行大量的
运算,再往前扩展两步,凑足10步。
也就是说机器永远需要往前看N步,每一个回合后,再incrementally
往前看2步,而不是重新run模型。
实际情况应该不是简单的一个N。每隔branch对应的方向,按照可能
发生的概率算的深度应该是非常不一样的。有些愚蠢的下法对应的方向
应该直接就被剪枝了。比如某个局面,按传统做发,可能要往后
搜好几步才能确认是愚蠢的,deep learning不用往后搜,直接就可以
得出结论就干掉了。

a

【在 w********m 的大作中提到】
: wdong是deep learning的大牛了,想请教几个问题-
: 1. alphaGo用的是cluster做训练。看报道现在与李世石比赛是个单机版,看来模型都
: 存在内存里面了。这样的话,每次下子为什么还要想半天,有时还超时。implement a
: model需要这么多时间吗?
: 2. alphaGo的第N子的状态对第N+1有用吗?需要保存吗?还是每次下子都是独立事件
: ,重新run一下模型?

w***g
发帖数: 5958
5
机器运算超时,其实就是对手的下法超出了机器的预料,落在了被大量剪枝
的那个branch上了。这个branch可能机器算了三步就认为不是最优的就没在
往下算(神经网络估计不准),所以就得incrementally补7步才行。
于是就挂了。

【在 w***g 的大作中提到】
: deep learning我也就懂点皮毛, alphago我跟进得也不多。我尝试说下我的理解吧。
: 1. deep learning应该主要是用来对局面评分的。下棋算法主要还是搜索。
: 大致就是从当前局面开始搜索N步,出来X个可能的局面,然后每个用deep
: learning评分,然后找出最佳方向再接着搜索。deep learning评价一个
: 局面应该很快,但是因为搜索空间非常大,加起来就慢了。我甚至怀疑
: deep learning评价局面比传统的heuristic不但准,而且更快。
: 2. 根据我对人工只能下棋的粗浅的理解,机器每下一子,应该往前搜N
: 步, 比如10步吧,可能的情形存成一个树结构。这个树的分支应该在
: 几十到300之间。树根为机器当前未下子时的局面状态。搜索评分
: 完成后,机器从连在树根上的那些节点中选最好的一个,按这个节点

p**2
发帖数: 613
6
感觉是图论的最短距离的高级版本,
说错了别笑俺,俺是斧头帮。

【在 w***g 的大作中提到】
: deep learning我也就懂点皮毛, alphago我跟进得也不多。我尝试说下我的理解吧。
: 1. deep learning应该主要是用来对局面评分的。下棋算法主要还是搜索。
: 大致就是从当前局面开始搜索N步,出来X个可能的局面,然后每个用deep
: learning评分,然后找出最佳方向再接着搜索。deep learning评价一个
: 局面应该很快,但是因为搜索空间非常大,加起来就慢了。我甚至怀疑
: deep learning评价局面比传统的heuristic不但准,而且更快。
: 2. 根据我对人工只能下棋的粗浅的理解,机器每下一子,应该往前搜N
: 步, 比如10步吧,可能的情形存成一个树结构。这个树的分支应该在
: 几十到300之间。树根为机器当前未下子时的局面状态。搜索评分
: 完成后,机器从连在树根上的那些节点中选最好的一个,按这个节点

f*******t
发帖数: 7549
7
不是单机跟李世石打吧, 1920 CPUs and 280 GPUs
p**2
发帖数: 613
8
army!

【在 f*******t 的大作中提到】
: 不是单机跟李世石打吧, 1920 CPUs and 280 GPUs
d*******r
发帖数: 3299
9
所以就是个 搜索+heuristic剪枝
只不过是用 deep learning 来做 heuristic剪枝?

【在 w***g 的大作中提到】
: deep learning我也就懂点皮毛, alphago我跟进得也不多。我尝试说下我的理解吧。
: 1. deep learning应该主要是用来对局面评分的。下棋算法主要还是搜索。
: 大致就是从当前局面开始搜索N步,出来X个可能的局面,然后每个用deep
: learning评分,然后找出最佳方向再接着搜索。deep learning评价一个
: 局面应该很快,但是因为搜索空间非常大,加起来就慢了。我甚至怀疑
: deep learning评价局面比传统的heuristic不但准,而且更快。
: 2. 根据我对人工只能下棋的粗浅的理解,机器每下一子,应该往前搜N
: 步, 比如10步吧,可能的情形存成一个树结构。这个树的分支应该在
: 几十到300之间。树根为机器当前未下子时的局面状态。搜索评分
: 完成后,机器从连在树根上的那些节点中选最好的一个,按这个节点

a*f
发帖数: 1790
10
黑先如果把中心点占了会如何
相关主题
shortest path algorithm(dijkstra)的变形认真问一下wdong
这些网站的设计都很类似,有个什么别称吗?mitbbs 封 goodbug 在 Programming 版 (转载)
转行的不应该看不起科班出身的关于搞ML刷数据的职业前途
进入Programming版参与讨论
l******n
发帖数: 9344
11
所以我在go版说,和机器玩围棋就要高举高打,不停脱先抢实地,能不应的就不要应,
直接造成机器超时或者下出无理手

【在 w***g 的大作中提到】
: deep learning我也就懂点皮毛, alphago我跟进得也不多。我尝试说下我的理解吧。
: 1. deep learning应该主要是用来对局面评分的。下棋算法主要还是搜索。
: 大致就是从当前局面开始搜索N步,出来X个可能的局面,然后每个用deep
: learning评分,然后找出最佳方向再接着搜索。deep learning评价一个
: 局面应该很快,但是因为搜索空间非常大,加起来就慢了。我甚至怀疑
: deep learning评价局面比传统的heuristic不但准,而且更快。
: 2. 根据我对人工只能下棋的粗浅的理解,机器每下一子,应该往前搜N
: 步, 比如10步吧,可能的情形存成一个树结构。这个树的分支应该在
: 几十到300之间。树根为机器当前未下子时的局面状态。搜索评分
: 完成后,机器从连在树根上的那些节点中选最好的一个,按这个节点

w***g
发帖数: 5958
12
从算法上来说,其实光预测对方的最佳对策还不够,还要预测对方的决策树,
适时往对方决策树薄弱的方向进攻,迫使对方增加搜索范围和运算量。
这个事情做起来怕是很难。

【在 l******n 的大作中提到】
: 所以我在go版说,和机器玩围棋就要高举高打,不停脱先抢实地,能不应的就不要应,
: 直接造成机器超时或者下出无理手

d****i
发帖数: 4809
13
这个吴清源老先生在和木谷实下十番棋的时候下过,第一着就下天元,完全不按常理下
着,最后把木谷实给弄矇了,最后输给了吴清源。alphago不知道有没有应对不按常理
的算法,但是布局阶段天元附近应对的话计算太复杂,恐怕alphago都算不清。

【在 a*f 的大作中提到】
: 黑先如果把中心点占了会如何
a*f
发帖数: 1790
14
我的算法简单,
第一步执黑点中心,然后电脑走哪就点对称点,直到电脑出昏招
不知道电脑能不能破,破不了,小孩子的也能打败狗

【在 d****i 的大作中提到】
: 这个吴清源老先生在和木谷实下十番棋的时候下过,第一着就下天元,完全不按常理下
: 着,最后把木谷实给弄矇了,最后输给了吴清源。alphago不知道有没有应对不按常理
: 的算法,但是布局阶段天元附近应对的话计算太复杂,恐怕alphago都算不清。

d****i
发帖数: 4809
15
见我上面贴的回答

【在 a*f 的大作中提到】
: 我的算法简单,
: 第一步执黑点中心,然后电脑走哪就点对称点,直到电脑出昏招
: 不知道电脑能不能破,破不了,小孩子的也能打败狗

l******n
发帖数: 9344
16
这个太难了,第一很难找到决策树的薄弱环节,第二这些薄弱环节随着training的变化
也在变化。脱先不应肯定就脱离了局部决策树的计算范围,这是最简单也最实际的想法

【在 w***g 的大作中提到】
: 从算法上来说,其实光预测对方的最佳对策还不够,还要预测对方的决策树,
: 适时往对方决策树薄弱的方向进攻,迫使对方增加搜索范围和运算量。
: 这个事情做起来怕是很难。

d****i
发帖数: 4809
17
脱先只能有限的几次,你多来几次脱先就大龙被屠投子认输啦。

【在 l******n 的大作中提到】
: 这个太难了,第一很难找到决策树的薄弱环节,第二这些薄弱环节随着training的变化
: 也在变化。脱先不应肯定就脱离了局部决策树的计算范围,这是最简单也最实际的想法

l*******m
发帖数: 1096
18
快棋赛人类还是希望的,至少现在。去年alphago和Fan Hui下了十盘,其中有5盘快棋
,alphago VS Fan Hui = 3:2

【在 l******n 的大作中提到】
: 所以我在go版说,和机器玩围棋就要高举高打,不停脱先抢实地,能不应的就不要应,
: 直接造成机器超时或者下出无理手

g*****y
发帖数: 7271
19
吴清源输了那局棋吧?而且那时候先行的不贴目,才有可能这样瞎搞。

【在 d****i 的大作中提到】
: 这个吴清源老先生在和木谷实下十番棋的时候下过,第一着就下天元,完全不按常理下
: 着,最后把木谷实给弄矇了,最后输给了吴清源。alphago不知道有没有应对不按常理
: 的算法,但是布局阶段天元附近应对的话计算太复杂,恐怕alphago都算不清。

d****i
发帖数: 4809
20
这个记不清了,反正当时在大赛里面敢第一着下在天元的,吴清源是第一个。看看以前
日本本因坊棋圣战的棋谱,和现在的棋谱比比真是差别相当的大。

【在 g*****y 的大作中提到】
: 吴清源输了那局棋吧?而且那时候先行的不贴目,才有可能这样瞎搞。
相关主题
wdong, 请教几个Julia的问题不想和阿三合作 怎么办?
ML 需不需要搞懂那些数学王垠又要回国了
楼教主也伤仲永了?[bssd]我说句实话吧
进入Programming版参与讨论
t*******y
发帖数: 2432
21
不是单机版,单机版是新浪瞎翻的
是用专门网络连接到谷歌在美国的集群
分布式对单机版胜率70%,不可能不上分布式的
w********m
发帖数: 1137
22
多谢大牛。果然是言简意赅。10个包子。

【在 w***g 的大作中提到】
: deep learning我也就懂点皮毛, alphago我跟进得也不多。我尝试说下我的理解吧。
: 1. deep learning应该主要是用来对局面评分的。下棋算法主要还是搜索。
: 大致就是从当前局面开始搜索N步,出来X个可能的局面,然后每个用deep
: learning评分,然后找出最佳方向再接着搜索。deep learning评价一个
: 局面应该很快,但是因为搜索空间非常大,加起来就慢了。我甚至怀疑
: deep learning评价局面比传统的heuristic不但准,而且更快。
: 2. 根据我对人工只能下棋的粗浅的理解,机器每下一子,应该往前搜N
: 步, 比如10步吧,可能的情形存成一个树结构。这个树的分支应该在
: 几十到300之间。树根为机器当前未下子时的局面状态。搜索评分
: 完成后,机器从连在树根上的那些节点中选最好的一个,按这个节点

w***g
发帖数: 5958
23
你太客气了。我刚才去go版逛了一圈,发现明白人好多。
再回来看看我写的这点东西,真是班门弄斧了。

【在 w********m 的大作中提到】
: 多谢大牛。果然是言简意赅。10个包子。
b*******s
发帖数: 5216
24
仿棋是不允许的吧

【在 a*f 的大作中提到】
: 我的算法简单,
: 第一步执黑点中心,然后电脑走哪就点对称点,直到电脑出昏招
: 不知道电脑能不能破,破不了,小孩子的也能打败狗

1 (共1页)
进入Programming版参与讨论
相关主题
王垠又要回国了有没有大牛愿意牵头搞一个 deep learning project
[bssd]我说句实话吧shortest path algorithm(dijkstra)的变形
准备向wdong大牛学习单干了这些网站的设计都很类似,有个什么别称吗?
看了几个kaggle的答题,有点迷惑了转行的不应该看不起科班出身的
打败阿法狗的方法探讨,热点扩散法认真问一下wdong
廖方舟 李哲 金奖! (转载)mitbbs 封 goodbug 在 Programming 版 (转载)
deep learning就是数据太贵关于搞ML刷数据的职业前途
讨论程序语言没什么意思,functional programming还是不错的wdong, 请教几个Julia的问题
相关话题的讨论汇总
话题: alphago话题: wdong话题: learning话题: deep话题: 机器