由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Go版 - 专业科普AlphaGO (转载)
相关主题
神经网络的结构决定了他的极限围棋软件Zen,Pachi作者对AlphaGo提的一些问题和看法
金明完9段点评AlphaGo: 缺点明显罗洗河让AlphaGo四子的说法没有什么错
原来阿尔法下的是5秒版的ZENRe: AlphaGo用的不就是Convolutional neural network吗 (转载)
阿法狗生怕人类还不够绝望alphago其实根本不用学人的棋谱
从第四盘棋看狗狗的弱点田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?
写过程序的都知道MCTS是怎么判断形势的
看大家讨论中比较少提这个 reinforcement learning阿法狗怎么做到每天练习几十万盘棋?
阿法狗怎样算气的?看来电脑围棋压倒人类就在今年了 (转载)
相关话题的讨论汇总
话题: network话题: alphago话题: policy话题: deep话题: rl
进入Go版参与讨论
1 (共1页)
z*****3
发帖数: 1793
1
【 以下文字转载自 Military 讨论区 】
发信人: zyszys3 (zyszys3), 信区: Military
标 题: 专业科普AlphaGO
发信站: BBS 未名空间站 (Fri Mar 11 13:54:23 2016, 美东)
本人CS PHD,专攻方向reinforcement learning (RL),恰好AlphaGo用到很多用到很
多RL。看不下去一群文科生+下室索南YY,乱猜测。
第一个问题,AlphaGO涉及到机器学习中的supervised learning(SL)和RL。这是机器
学习下的两个分支。deep learning是目前兴起的另外一个分支。Deep Mind正是运用
deep learning的deep neural network作为基础架构来解决 prediction (涉及SL)和
action selection 问题(涉及RL)。
第二个问题,AlphaGO 基础构造
1)利用SL学习了一个policy network。这里解释一下policy,policy是RL,control
thoery中的一个重要概念,简单来讲就是当遇到各种环境反馈时,应该如何选择下一步
的action。这里主要是利用SL学习一个policy neural network。
2)利用RL中的policy gradient算法,优化上面学到的policy network
3)利用deep neural network 近似计算2)得到的Policy的value function。科普,
value function可以看做对棋盘上某个位置的评价。
4) Monte Carlo tree search (MCTS) 方法结合上面得到的policy network和 value
network 进行搜索,预测下一步怎么走。搜索过程要用到policy network和value
network的结果。
第三个问题,为啥AlghaGO那么牛,有效。首先说明,我上面提到的算法出了deep
neural network,都是很成熟的设计和算法,没有啥高端大气上档次。系统的关键就是
deep neural network的运用。1),2)步可以看做是学习阶段,是真正的难点。因为
我们可以用现成的其他算法比如SVM等去学习policy function和value function。但是
问题是围棋是非常复杂的task,SVM最多只能学习一个近似最优的policy function和
value function。deep neural network其实也是去近似求解这两个function,但是其
近似结果比其他算法,比如SVM好非常多!!!而且要命的是现在学界搞不清楚为啥
deep neural network比以前的经典算法管用。
从我上面的分析看出,AlphaGO是运用了机器学习cutting-edge的研究成果来构造,在
这种规则固定,搜索空间固定的情况下,击败人类绝对不在话下。
t******l
发帖数: 10908
2
谢谢科普。
不过老实说魔鬼在细节,没干过的最多只能有个大概概念就不错了。

【在 z*****3 的大作中提到】
: 【 以下文字转载自 Military 讨论区 】
: 发信人: zyszys3 (zyszys3), 信区: Military
: 标 题: 专业科普AlphaGO
: 发信站: BBS 未名空间站 (Fri Mar 11 13:54:23 2016, 美东)
: 本人CS PHD,专攻方向reinforcement learning (RL),恰好AlphaGo用到很多用到很
: 多RL。看不下去一群文科生+下室索南YY,乱猜测。
: 第一个问题,AlphaGO涉及到机器学习中的supervised learning(SL)和RL。这是机器
: 学习下的两个分支。deep learning是目前兴起的另外一个分支。Deep Mind正是运用
: deep learning的deep neural network作为基础架构来解决 prediction (涉及SL)和
: action selection 问题(涉及RL)。

O**l
发帖数: 12923
3
好用不就是Autoencoder 模拟大脑得出的结论
[在 zyszys3 (zyszys3) 的大作中提到:]
:【 以下文字转载自 Military 讨论区 】
:发信人: zyszys3 (zyszys3), 信区: Military
:...........
e*g
发帖数: 4981
4
这叫科普??

【在 z*****3 的大作中提到】
: 【 以下文字转载自 Military 讨论区 】
: 发信人: zyszys3 (zyszys3), 信区: Military
: 标 题: 专业科普AlphaGO
: 发信站: BBS 未名空间站 (Fri Mar 11 13:54:23 2016, 美东)
: 本人CS PHD,专攻方向reinforcement learning (RL),恰好AlphaGo用到很多用到很
: 多RL。看不下去一群文科生+下室索南YY,乱猜测。
: 第一个问题,AlphaGO涉及到机器学习中的supervised learning(SL)和RL。这是机器
: 学习下的两个分支。deep learning是目前兴起的另外一个分支。Deep Mind正是运用
: deep learning的deep neural network作为基础架构来解决 prediction (涉及SL)和
: action selection 问题(涉及RL)。

z*****3
发帖数: 1793
5
Autoencoder没那么神奇,比如最简单的autoencoder就是Boltzmann machine多层叠加
。你这文科生的解释我真实醉了。

【在 O**l 的大作中提到】
: 好用不就是Autoencoder 模拟大脑得出的结论
: [在 zyszys3 (zyszys3) 的大作中提到:]
: :【 以下文字转载自 Military 讨论区 】
: :发信人: zyszys3 (zyszys3), 信区: Military
: :...........

t******l
发帖数: 10908
6
item list 也算科普不是?

【在 e*g 的大作中提到】
: 这叫科普??
z*****3
发帖数: 1793
7
当然叫,我连公式都没上,当然算科普。

【在 e*g 的大作中提到】
: 这叫科普??
y**c
发帖数: 6307
8
“而且要命的是现在学界搞不清楚为啥deep neural network比以前的经典算法管用。”
就是学术界也没搞清楚为啥管用了?

【在 t******l 的大作中提到】
: 谢谢科普。
: 不过老实说魔鬼在细节,没干过的最多只能有个大概概念就不错了。

z*****3
发帖数: 1793
9
yes.很多人尝试去解释,但是都没有公认的理论来解释。

。”

【在 y**c 的大作中提到】
: “而且要命的是现在学界搞不清楚为啥deep neural network比以前的经典算法管用。”
: 就是学术界也没搞清楚为啥管用了?

O**l
发帖数: 12923
10
奇怪 你不懂就叫文科
Autoencoder 自动feature extraction是最大的区别和突破
你什么垃圾大学的Phd
[在 zyszys3 (zyszys3) 的大作中提到:]
:【 以下文字转载自 Military 讨论区 】
:发信人: zyszys3 (zyszys3), 信区: Military
:...........
相关主题
写过程序的都知道围棋软件Zen,Pachi作者对AlphaGo提的一些问题和看法
看大家讨论中比较少提这个 reinforcement learning罗洗河让AlphaGo四子的说法没有什么错
阿法狗怎样算气的?Re: AlphaGo用的不就是Convolutional neural network吗 (转载)
进入Go版参与讨论
t******l
发帖数: 10908
11
有 item list 就可以自己去查 wiki 了,不用上公式。上了公式我们现在也看不懂。

【在 z*****3 的大作中提到】
: 当然叫,我连公式都没上,当然算科普。
z*****3
发帖数: 1793
12
我知道,但是你用模拟大脑来解释,在我们专业眼中非常文科。

【在 O**l 的大作中提到】
: 奇怪 你不懂就叫文科
: Autoencoder 自动feature extraction是最大的区别和突破
: 你什么垃圾大学的Phd
: [在 zyszys3 (zyszys3) 的大作中提到:]
: :【 以下文字转载自 Military 讨论区 】
: :发信人: zyszys3 (zyszys3), 信区: Military
: :...........

t******l
发帖数: 10908
13
解释是理论界的事,N 多玩意儿证不出来照样用。
现实世界的关键是能见到一个棋手殴一个。

【在 z*****3 的大作中提到】
: yes.很多人尝试去解释,但是都没有公认的理论来解释。
:
: 。”

O**l
发帖数: 12923
14
别装逼 发了几片Paper 在我这装 除了Autoencoder
其余什么MacPool soft max 都是老掉牙的东西
[在 zyszys3 (zyszys3) 的大作中提到:]
:【 以下文字转载自 Military 讨论区 】
:发信人: zyszys3 (zyszys3), 信区: Military
:...........
t******l
发帖数: 10908
15
商业界主流软件用 10 或者 20 年前 paper 里的算法,倒并不奇怪。
新 paper 里大头是灌水的,PHD 要毕业不是。人类发现新玩意儿的
速度其实并不快。工业界能把 20 年前的算法给用好了就是人类的一
大步了。说白了工业界经常也是乱用。

【在 O**l 的大作中提到】
: 别装逼 发了几片Paper 在我这装 除了Autoencoder
: 其余什么MacPool soft max 都是老掉牙的东西
: [在 zyszys3 (zyszys3) 的大作中提到:]
: :【 以下文字转载自 Military 讨论区 】
: :发信人: zyszys3 (zyszys3), 信区: Military
: :...........

1 (共1页)
进入Go版参与讨论
相关主题
看来电脑围棋压倒人类就在今年了 (转载)从第四盘棋看狗狗的弱点
阿法狗第二局最令人震惊的地方在于写过程序的都知道
接下来的李世石,将是痛不欲生的三局对局看大家讨论中比较少提这个 reinforcement learning
AlphaGo的算法等技术分析阿法狗怎样算气的?
神经网络的结构决定了他的极限围棋软件Zen,Pachi作者对AlphaGo提的一些问题和看法
金明完9段点评AlphaGo: 缺点明显罗洗河让AlphaGo四子的说法没有什么错
原来阿尔法下的是5秒版的ZENRe: AlphaGo用的不就是Convolutional neural network吗 (转载)
阿法狗生怕人类还不够绝望alphago其实根本不用学人的棋谱
相关话题的讨论汇总
话题: network话题: alphago话题: policy话题: deep话题: rl