由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Go版 - ALPHAGO输棋分析之三 -- 原因
相关主题
ALPHAGO输棋分析之二 -- 原理金明完9段点评AlphaGo: 缺点明显
ALPHAGO输棋分析之四 -- 解决罗洗河让AlphaGo四子的说法没有什么错
[转载自新浪]阿尔法首次复盘人机大战 自评等级分远超柯洁看了下deepmind刚刚下的执白VS Cacoon的棋局
以后围棋比赛都成了大型绞杀战zz谈谈AlphaGo的算法 【转载】
Nature重磅封面:谷歌人工智能击败欧洲围棋冠军疑似阿尔法围棋测试账号
喆理围棋---关于Google人工智能围棋的访谈BI发文说: AlphaGo is the favorite to beat Sedol
AlphaGo的开发团队信心满满啊AlphaGo对战李世石谁能赢?两万字长文深挖围棋AI技术
浏览了Deepmind 关于AlphaGo的技术说明文件AlphaGo下一个挑战的有可能是柯洁
相关话题的讨论汇总
话题: network话题: value话题: alphago话题: 仿真话题: 输棋
进入Go版参与讨论
1 (共1页)
s***u
发帖数: 80
1
根本原因在于,ALPHAGO用的是阉割后的蒙特卡洛算法。田渊栋说的Deepmind‘创造性’
的训练了Value Network,恰恰可能是这次问题所在。
Value Network一方面被用于走子预测,这个没有问题。问题在于Value Network还被用
于判断一个局面是否继续下去。根据Deepmind介绍的原理,某些局面下,ALPHAGO只仿真
20步就调用Value Network判断胜负,然后终止仿真,直接返回结果。
这是出于节省仿真时间/增加仿真次数的平衡,思路没有错,但是某些情况下会出问题的
,这次就是在围出了一个似成非成的巨空的情况下出问题了。
在第四局77手之前,ALPHAGO调用的Value Network很可能每次都会得到‘要赢了’的结
果,没办法,上面那个大空在那儿摆着,被当成了实地。这样,Value Network就一直在
错误引导蒙特卡洛搜索选择的路径方向。另外,由于仿真被提前截断了,本来在仿真过
程中,可以得到的一些有用招法信息也没了,这个是细节,但是也会影响搜索方向。
这样就不会有很多的计算资源被投入到本来应该被反复计算的对上方巨空的渗透/反渗透
、打入/做活 这条线路上。没有找出最合理应对招法也是自然的了。
1 (共1页)
进入Go版参与讨论
相关主题
AlphaGo下一个挑战的有可能是柯洁Nature重磅封面:谷歌人工智能击败欧洲围棋冠军
是不是今晚就要下了?喆理围棋---关于Google人工智能围棋的访谈
特别糟糕的是这还是单机版AlphaGo的开发团队信心满满啊
alphaGO还是有弱点的浏览了Deepmind 关于AlphaGo的技术说明文件
ALPHAGO输棋分析之二 -- 原理金明完9段点评AlphaGo: 缺点明显
ALPHAGO输棋分析之四 -- 解决罗洗河让AlphaGo四子的说法没有什么错
[转载自新浪]阿尔法首次复盘人机大战 自评等级分远超柯洁看了下deepmind刚刚下的执白VS Cacoon的棋局
以后围棋比赛都成了大型绞杀战zz谈谈AlphaGo的算法 【转载】
相关话题的讨论汇总
话题: network话题: value话题: alphago话题: 仿真话题: 输棋