由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Military版 - 这个alphaGo是怎么判断value的?
相关主题
计算机在无概率的棋类完胜人类只是时间上的问题我提一个对付Alphago的方法
Google AlphaGo 人工智能挑战人类围棋冠军 (转载)org现在
Google围棋的事又来了:大象关冰箱要几步?这两个有本质的不同
用一种真正便于棋手理解的方式解释alphago的算法SDR过了
看来电脑围棋压倒人类就在今年了人民币确认进SDR了 --- 10.92 % weighting !!!
机器狗第二盘不懂征子,和劫争一样,超出计算范围,All the News, All the Time, All About J-20
人工智能下围棋超过人类, 是一个虚假结论, 纯属误导!(ZZ)航空周刊社论----时刻警惕兔子势力抬头
AlphaGo之父:关于围棋,人类3000年来犯了一个错zt日本核尘埃预计在一两天内飘临北美西海岸. (转载)
相关话题的讨论汇总
话题: 8201话题: 落子话题: alphago话题: 判断话题: 价值
进入Military版参与讨论
1 (共1页)
p*******n
发帖数: 1928
1
通读了一遍nature的文章,没看懂这个围棋软件是怎么判断落子的后续价值的。
文章上说
We use a reward function r(s) that is zero for all non-terminal time steps t
 < T. The outcome zt = ± r(sT) is the
terminal reward at the end of the game from the perspective of the current
player at time step t: +1 for winning and −1 for losing. Weights are
then updated at each time step t by stochastic gradient ascent in the
direction that maximizes expected outcome.
就是说如果没算到结果的tree branch对落子价值的贡献为0。而算出结果的对落子价值
有正1或者负1的贡献。这个价值判断怎么感觉不大靠谱啊?算得出结果的难道不都是大
胜大负的局面?我觉得我理解错了。。。
c*****t
发帖数: 10738
2
你说的这一段根本不是train value network的,说的是train RL policy network的。
就是让电脑和电脑下无数局,然后根据最后的输赢给前面的落子策略+1或者-1的
weight.
1 (共1页)
进入Military版参与讨论
相关主题
日本核尘埃预计在一两天内飘临北美西海岸. (转载)看来电脑围棋压倒人类就在今年了
China has about more than 1T us bonds机器狗第二盘不懂征子,和劫争一样,超出计算范围,
人与人之间的不平等是推动人类社会发展的动力人工智能下围棋超过人类, 是一个虚假结论, 纯属误导!
这里人气旺,求助一下懂法律的朋友...租房子 碰到的头疼问题!!!!!关键字,early terminateAlphaGo之父:关于围棋,人类3000年来犯了一个错zt
计算机在无概率的棋类完胜人类只是时间上的问题我提一个对付Alphago的方法
Google AlphaGo 人工智能挑战人类围棋冠军 (转载)org现在
Google围棋的事又来了:大象关冰箱要几步?这两个有本质的不同
用一种真正便于棋手理解的方式解释alphago的算法SDR过了
相关话题的讨论汇总
话题: 8201话题: 落子话题: alphago话题: 判断话题: 价值