周志华：关于强化学习策略 - Go版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Go版 - 周志华：关于强化学习策略

相关主题
● Nature重磅封面：谷歌人工智能击败欧洲围棋冠军	● 本人弈城五段给大家分析一下吧
● 疑似阿尔法围棋测试账号	● 想赢AlphaGo的唯一机会是走已有定式
● 李世石是不是对alphago的下棋方法了解太少了	● 说古棋是渣的看过来
● 好文回顾：陈经：预测李世石4比1	● 试想一下中国棋手柯洁到底能不能战胜机器人
● 哈比斯说没用高手期局训练啊	● [转载自新浪]阿尔法首次复盘人机大战自评等级分远超柯洁
● 金镇浩：李世石将一胜难求	● 谷歌推出真正2.0版本AlphaGo 摈弃人类棋谱(图)
● 引出一个问题：看棋谱判断棋力，是不是很难精确？	● DeepMind: AlphaGo 携手中国顶尖棋手：共创棋妙未来
● 其实最可怕的就是没啥手筋很平淡的赢五盘	● 这次阿狗居然是单机版的

相关话题的讨论汇总
话题: 提升话题: 周志华话题: 学习策略话题: 学习话题: alphago

进入Go版参与讨论

1

(共1页)

a***m 发帖数: 5037	1 凤凰资讯：关于强化学习策略，谷歌工程师说，“李世石每年可以下多少盘棋作为练习？也许一千盘？Alphago可以下一百万盘……每天。 ”这种说法是否科学？国际人工智能学会成员、南京大学计算机系教授周志华：这个说法是不准确的。通过“自我对弈”来提升，从机器学习技术上来说，实际上是让两个学习模型相互提供“伪标记样本”来进行学习以提高性能。理论上已经证明，这种做法奏效的关键，是两个模型的性能都挺好，而且两者有很大的“差异”。要注意的是，当模型性能提升以后，它们之间的“差异”会迅速下降，到一定程度之后必然使得性能无法继续通过这种机制提升。其上限取决于高质量“有标记”样本（相当于真是李世石水平棋手的棋谱）的数量。换个一般人容易理解的话说，两个业余1段的小孩，如果光是他们两个人互相下，提升到2段可以，但即便每天下一千万盘也提升不到4、5段去。必须要有相当数量的高手对局，才能带来进一步提升。
w****e 发帖数: 586	2 小孩那个例子太扯了。人类的围棋水平怎么来的？还不是低水平下多了磨出来的？两个业余1段真每天下几千万盘，并且有合适的方法归纳总结，不信不能世界第一
a***m 发帖数: 5037	3 周志华也算国内机器学习界的标杆人物了。。难道也理解不正确？【在 w****e 的大作中提到】 : 小孩那个例子太扯了。人类的围棋水平怎么来的？还不是低水平下多了磨出来的？两个 : 业余1段真每天下几千万盘，并且有合适的方法归纳总结，不信不能世界第一
A*******e 发帖数: 2419	4 人有创造性，灵感【在 w****e 的大作中提到】 : 小孩那个例子太扯了。人类的围棋水平怎么来的？还不是低水平下多了磨出来的？两个 : 业余1段真每天下几千万盘，并且有合适的方法归纳总结，不信不能世界第一
w****e 发帖数: 586	5 机器自我对局有随机性。顶多说人的创造性更有方向性，所以10盘棋生出的变化顶机器随机100盘生出的变化另一方面也可说人的归纳总结比机器的神经网络更加有效，所以10盘棋的经验获取顶机器统计100盘但说白了也就是效率问题。如果机器的自我学习真的存在瓶颈，肯定来自于归纳总结算法的局限，而不是什么训练样本。很明显的，alphago的能力若不计第四盘这样的bug的话，已经超越了职业棋手棋谱【在 A*******e 的大作中提到】 : 人有创造性，灵感
o*****p 发帖数: 2977	6 这哥们的确在Alphgo上做了很多错误的预言了。google一下就知道了。他不是搞深度学习的。【在 a***m 的大作中提到】 : 周志华也算国内机器学习界的标杆人物了。。难道也理解不正确？
a***m 发帖数: 5037	7 作为机器学习方向的少数大牛之一不会不理解深度学习吧。。【在 o*****p 的大作中提到】 : 这哥们的确在Alphgo上做了很多错误的预言了。google一下就知道了。他不是搞深度 : 学习的。
w****e 发帖数: 586	8 两个小孩例子之后，他还说： “AlphaGo必然已经收集并使用了李世石乃至其他所有能收集到的人类顶尖棋手的棋谱来进行学习，如果“自我对弈”能无限提升性能，那么它应该已经能够“碾压”李世石。但是从第一场的局面来看，至少在102手之前李世石明显优势，这说明“自我对弈” 不能帮助AlphaGo提升到超越李世石水准的程度。” 短短这么一段话，无数槽点。自己独立做判断吧【在 a***m 的大作中提到】 : 作为机器学习方向的少数大牛之一 : 不会不理解深度学习吧 : 。。
o*****p 发帖数: 2977	9 事实上就是：Alphago这个程序的三个估值部分的棋力都是在业余3d。摞在一起训练到现在，已经可以说是超一流的水平。这对围棋软件来说已经是超级达标。再高也没法测量了。这应该说是事实已经证明他是错误了。国内的大牛的确他是一个（我也知道他是某个美国组织的外籍成员），但这大概说明中国的机器学习水平很不够。【在 a***m 的大作中提到】 : 作为机器学习方向的少数大牛之一 : 不会不理解深度学习吧 : 。。
o*****p 发帖数: 2977	10 我记得他之前就预言李世石5：0. 【在 w****e 的大作中提到】 : 两个小孩例子之后，他还说： : “AlphaGo必然已经收集并使用了李世石乃至其他所有能收集到的人类顶尖棋手的棋谱 : 来进行学习，如果“自我对弈”能无限提升性能，那么它应该已经能够“碾压”李世石 : 。但是从第一场的局面来看，至少在102手之前李世石明显优势，这说明“自我对弈” : 不能帮助AlphaGo提升到超越李世石水准的程度。” : 短短这么一段话，无数槽点。自己独立做判断吧
b*******8 发帖数: 37364	11 两个还是不够，思维就僵化了。人类是靠很多代人不断积累，思想交流碰撞。很多个1D 还是能升到9P的，而且先讨论的及时退出，思想僵化后把接力棒传给后人。【在 w****e 的大作中提到】 : 小孩那个例子太扯了。人类的围棋水平怎么来的？还不是低水平下多了磨出来的？两个 : 业余1段真每天下几千万盘，并且有合适的方法归纳总结，不信不能世界第一

1

(共1页)

进入Go版参与讨论

相关主题
● 这次阿狗居然是单机版的	● 哈比斯说没用高手期局训练啊
● 昨天的比赛至少是让先差距	● 金镇浩：李世石将一胜难求
● 柯洁与AlphaGoMaster版弈出最接近对局zt (转载)	● 引出一个问题：看棋谱判断棋力，是不是很难精确？
● 柯杰洁执白告负，与ALPHAGO弈出最接近对局zz (转载)	● 其实最可怕的就是没啥手筋很平淡的赢五盘
● Nature重磅封面：谷歌人工智能击败欧洲围棋冠军	● 本人弈城五段给大家分析一下吧
● 疑似阿尔法围棋测试账号	● 想赢AlphaGo的唯一机会是走已有定式
● 李世石是不是对alphago的下棋方法了解太少了	● 说古棋是渣的看过来
● 好文回顾：陈经：预测李世石4比1	● 试想一下中国棋手柯洁到底能不能战胜机器人

相关话题的讨论汇总
话题: 提升话题: 周志华话题: 学习策略话题: 学习话题: alphago

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)