这个alphaGo是怎么判断value的？ - Military版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Military版 - 这个alphaGo是怎么判断value的？

相关主题
● 计算机在无概率的棋类完胜人类只是时间上的问题	● 我提一个对付Alphago的方法
● Google AlphaGo 人工智能挑战人类围棋冠军 (转载)	● org现在
● Google围棋的事又来了：大象关冰箱要几步？	● 这两个有本质的不同
● 用一种真正便于棋手理解的方式解释alphago的算法	● SDR过了
● 看来电脑围棋压倒人类就在今年了	● 人民币确认进SDR了 --- 10.92 % weighting !!!
● 机器狗第二盘不懂征子，和劫争一样，超出计算范围，	● All the News, All the Time, All About J-20
● 人工智能下围棋超过人类, 是一个虚假结论，纯属误导！	● (ZZ)航空周刊社论----时刻警惕兔子势力抬头
● AlphaGo之父：关于围棋，人类3000年来犯了一个错zt	● 日本核尘埃预计在一两天内飘临北美西海岸. (转载)

相关话题的讨论汇总
话题: 8201话题: 落子话题: alphago话题: 判断话题: 价值

进入Military版参与讨论

(共1页)

p*******n
发帖数: 1928

通读了一遍nature的文章，没看懂这个围棋软件是怎么判断落子的后续价值的。
文章上说
We use a reward function r(s) that is zero for all non-terminal time steps t
< T. The outcome zt = ± r(sT) is the
terminal reward at the end of the game from the perspective of the current
player at time step t: +1 for winning and −1 for losing. Weights are
then updated at each time step t by stochastic gradient ascent in the
direction that maximizes expected outcome.
就是说如果没算到结果的tree branch对落子价值的贡献为0。而算出结果的对落子价值
有正1或者负1的贡献。这个价值判断怎么感觉不大靠谱啊？算得出结果的难道不都是大
胜大负的局面？我觉得我理解错了。。。

c*****t
发帖数: 10738

你说的这一段根本不是train value network的，说的是train RL policy network的。
就是让电脑和电脑下无数局，然后根据最后的输赢给前面的落子策略+1或者-1的
weight.

(共1页)

进入Military版参与讨论

相关主题
● 日本核尘埃预计在一两天内飘临北美西海岸. (转载)	● 看来电脑围棋压倒人类就在今年了
● China has about more than 1T us bonds	● 机器狗第二盘不懂征子，和劫争一样，超出计算范围，
● 人与人之间的不平等是推动人类社会发展的动力	● 人工智能下围棋超过人类, 是一个虚假结论，纯属误导！
● 这里人气旺,求助一下懂法律的朋友...租房子碰到的头疼问题!!!!!关键字,early terminate	● AlphaGo之父：关于围棋，人类3000年来犯了一个错zt
● 计算机在无概率的棋类完胜人类只是时间上的问题	● 我提一个对付Alphago的方法
● Google AlphaGo 人工智能挑战人类围棋冠军 (转载)	● org现在
● Google围棋的事又来了：大象关冰箱要几步？	● 这两个有本质的不同
● 用一种真正便于棋手理解的方式解释alphago的算法	● SDR过了

相关话题的讨论汇总
话题: 8201话题: 落子话题: alphago话题: 判断话题: 价值

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天