ALPHAGO输棋分析之三 -- 原因 - Go版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Go版 - ALPHAGO输棋分析之三 -- 原因

相关主题
● ALPHAGO输棋分析之二 -- 原理	● 金明完9段点评AlphaGo: 缺点明显
● ALPHAGO输棋分析之四 -- 解决	● 罗洗河让AlphaGo四子的说法没有什么错
● [转载自新浪]阿尔法首次复盘人机大战自评等级分远超柯洁	● 看了下deepmind刚刚下的执白VS Cacoon的棋局
● 以后围棋比赛都成了大型绞杀战zz	● 谈谈AlphaGo的算法【转载】
● Nature重磅封面：谷歌人工智能击败欧洲围棋冠军	● 疑似阿尔法围棋测试账号
● 喆理围棋---关于Google人工智能围棋的访谈	● BI发文说: AlphaGo is the favorite to beat Sedol
● AlphaGo的开发团队信心满满啊	● AlphaGo对战李世石谁能赢？两万字长文深挖围棋AI技术
● 浏览了Deepmind 关于AlphaGo的技术说明文件	● AlphaGo下一个挑战的有可能是柯洁

相关话题的讨论汇总
话题: network话题: value话题: alphago话题: 仿真话题: 输棋

进入Go版参与讨论

(共1页)

s***u
发帖数: 80

根本原因在于，ALPHAGO用的是阉割后的蒙特卡洛算法。田渊栋说的Deepmind‘创造性’
的训练了Value Network，恰恰可能是这次问题所在。
Value Network一方面被用于走子预测，这个没有问题。问题在于Value Network还被用
于判断一个局面是否继续下去。根据Deepmind介绍的原理，某些局面下，ALPHAGO只仿真
20步就调用Value Network判断胜负，然后终止仿真，直接返回结果。
这是出于节省仿真时间/增加仿真次数的平衡，思路没有错，但是某些情况下会出问题的
，这次就是在围出了一个似成非成的巨空的情况下出问题了。
在第四局77手之前，ALPHAGO调用的Value Network很可能每次都会得到‘要赢了’的结
果，没办法，上面那个大空在那儿摆着，被当成了实地。这样，Value Network就一直在
错误引导蒙特卡洛搜索选择的路径方向。另外，由于仿真被提前截断了，本来在仿真过
程中，可以得到的一些有用招法信息也没了，这个是细节，但是也会影响搜索方向。
这样就不会有很多的计算资源被投入到本来应该被反复计算的对上方巨空的渗透/反渗透
、打入/做活这条线路上。没有找出最合理应对招法也是自然的了。

(共1页)

进入Go版参与讨论

相关主题
● AlphaGo下一个挑战的有可能是柯洁	● Nature重磅封面：谷歌人工智能击败欧洲围棋冠军
● 是不是今晚就要下了？	● 喆理围棋---关于Google人工智能围棋的访谈
● 特别糟糕的是这还是单机版	● AlphaGo的开发团队信心满满啊
● alphaGO还是有弱点的	● 浏览了Deepmind 关于AlphaGo的技术说明文件
● ALPHAGO输棋分析之二 -- 原理	● 金明完9段点评AlphaGo: 缺点明显
● ALPHAGO输棋分析之四 -- 解决	● 罗洗河让AlphaGo四子的说法没有什么错
● [转载自新浪]阿尔法首次复盘人机大战自评等级分远超柯洁	● 看了下deepmind刚刚下的执白VS Cacoon的棋局
● 以后围棋比赛都成了大型绞杀战zz	● 谈谈AlphaGo的算法【转载】

相关话题的讨论汇总
话题: network话题: value话题: alphago话题: 仿真话题: 输棋

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天