g****t 发帖数: 31659 | 1 2015的文章里。用的还是比较老的CNN架构。我记得当时列举了玩几十个游戏的结果。
现在有没有把最新的DL架构用上,更新这些结果的文章?这样也是对这三年DL进步的一
个侧面验证吧。 |
s*****V 发帖数: 21731 | 2 你是说atari game把,这个领域感觉已经没有什么人研究了。前段时间,我拿openAI的
平台玩了几个小游戏,也看了一些评论,还是DeepMind的结果最好。他们原文中的网络
只有5层,并不是很复杂,网络可能并不是瓶颈。
【在 g****t 的大作中提到】 : 2015的文章里。用的还是比较老的CNN架构。我记得当时列举了玩几十个游戏的结果。 : 现在有没有把最新的DL架构用上,更新这些结果的文章?这样也是对这三年DL进步的一 : 个侧面验证吧。
|
x****u 发帖数: 44466 | 3 最近某人写过一篇综述,说DRL不work是一般态,能跑的都是特例
用最新的DenseNet或者NASNet只是视觉部分的增强,基本原理没有进步啊
【在 g****t 的大作中提到】 : 2015的文章里。用的还是比较老的CNN架构。我记得当时列举了玩几十个游戏的结果。 : 现在有没有把最新的DL架构用上,更新这些结果的文章?这样也是对这三年DL进步的一 : 个侧面验证吧。
|
x****u 发帖数: 44466 | 4 主要是很难选择代价函数以至于很多人怀疑一般领域根本不可能找到这个Q
【在 s*****V 的大作中提到】 : 你是说atari game把,这个领域感觉已经没有什么人研究了。前段时间,我拿openAI的 : 平台玩了几个小游戏,也看了一些评论,还是DeepMind的结果最好。他们原文中的网络 : 只有5层,并不是很复杂,网络可能并不是瓶颈。
|
L****8 发帖数: 3938 | 5 which one? link please thanks
【在 x****u 的大作中提到】 : 最近某人写过一篇综述,说DRL不work是一般态,能跑的都是特例 : 用最新的DenseNet或者NASNet只是视觉部分的增强,基本原理没有进步啊
|
x****u 发帖数: 44466 | 6 https://www.alexirpan.com/2018/02/14/rl-hard.html
Deep Reinforcement Learning Doesn't Work Yet
【在 L****8 的大作中提到】 : which one? link please thanks
|
g****t 发帖数: 31659 | 7 他们总算弄明白Q learning在工业控制很难赢预测控制了。
"The difference is that Tassa et al use model predictive control, which
gets
to perform planning against a ground-truth world model (the physics
simulator). Model-free RL doesn’t do this planning, and therefore has
a
much harder job. On the other hand, if planning against a model helps this
much, why bother with the bells and whistles of training an RL policy?"
Q-learning不需要模型。肯定赢不了模型已知的系统,例如机器人控制。但是神经网络
RL还有
别的用法。除了用来fit这个Q(s,a)。
神经网络可以用来fit system 的状态转移函数。这样就可以放两个neural network。
一个做observer,一个做controller.
这样也是可以的。其实就是传统的LQR,LQG往非线性的方向走一步。
: https://www.alexirpan.com/2018/02/14/rl-hard.html
: Deep Reinforcement Learning Doesn't Work Yet
【在 x****u 的大作中提到】 : https://www.alexirpan.com/2018/02/14/rl-hard.html : Deep Reinforcement Learning Doesn't Work Yet
|
L****8 发帖数: 3938 | 8 神经网络做控制器 是90年代的东西了吧
【在 g****t 的大作中提到】 : 他们总算弄明白Q learning在工业控制很难赢预测控制了。 : "The difference is that Tassa et al use model predictive control, which : gets : to perform planning against a ground-truth world model (the physics : simulator). Model-free RL doesn’t do this planning, and therefore has : a : much harder job. On the other hand, if planning against a model helps this : much, why bother with the bells and whistles of training an RL policy?" : Q-learning不需要模型。肯定赢不了模型已知的系统,例如机器人控制。但是神经网络 : RL还有
|
L****8 发帖数: 3938 | 9 看了之后 决定保持持续观望 暂时不进入这个大坑
【在 x****u 的大作中提到】 : https://www.alexirpan.com/2018/02/14/rl-hard.html : Deep Reinforcement Learning Doesn't Work Yet
|
g****t 发帖数: 31659 | 10 Q-learning是80年代的。现在没有新算法。基本都是system level的进展和应用进展。
: 神经网络做控制器 是90年代的东西了吧
【在 L****8 的大作中提到】 : 看了之后 决定保持持续观望 暂时不进入这个大坑
|
|
|
L****8 发帖数: 3938 | 11 http://rll.berkeley.edu/deeprlcourse/
很多新思路
【在 g****t 的大作中提到】 : Q-learning是80年代的。现在没有新算法。基本都是system level的进展和应用进展。 : : : 神经网络做控制器 是90年代的东西了吧 :
|
s*****V 发帖数: 21731 | 12 能审时度势就可以,人的大脑并不一定知道精确的Q值,但是可以在复杂情况下做出判
断。现在主要是人很不够耐心,训练几千小时就觉得长了,要知道生物体的神经网络是
上亿年进化的结果。
【在 x****u 的大作中提到】 : 主要是很难选择代价函数以至于很多人怀疑一般领域根本不可能找到这个Q
|
g****t 发帖数: 31659 | 13 不是这么回事。Bellman equation多情况下没有精确解。这点是事实。
训练时间再长也没用。因为例如机器人手臂,假如每秒传感器进来的信息有限,
没数据怎么训练?提前训练有帮助。但是抓不住控制代码上线后瞬间出现的噪声。
所以还是要跳出盒子看问题。例如如果我要提高机器人控制。
我第一要研究的是视觉传感器。现在因为手机的帮助,已经很便宜了。
而且软件工具也多。
我装个带智能手机的机器人手臂,几百人民币感觉差不多了。
一定赢传统只有位置和速度的控制方案。
【在 s*****V 的大作中提到】 : 能审时度势就可以,人的大脑并不一定知道精确的Q值,但是可以在复杂情况下做出判 : 断。现在主要是人很不够耐心,训练几千小时就觉得长了,要知道生物体的神经网络是 : 上亿年进化的结果。
|
s*****V 发帖数: 21731 | 14 我怎么记得有限状态MDP的bellman equation的解存在是可以证明的,但是问题是求解
精确解需要用模特卡洛法遍历所有的态,最后会收敛到最优解。但是问题是很多问题的
态空间过大,比方说围棋星际,遍历是不可能的,只能估计。我相信人的神经网络也是
这样的。
现在的机器学习最大的问题是不能持续学习积累。生物体从单细胞到人,是一步一步发
展出来的。
【在 g****t 的大作中提到】 : 不是这么回事。Bellman equation多情况下没有精确解。这点是事实。 : 训练时间再长也没用。因为例如机器人手臂,假如每秒传感器进来的信息有限, : 没数据怎么训练?提前训练有帮助。但是抓不住控制代码上线后瞬间出现的噪声。 : 所以还是要跳出盒子看问题。例如如果我要提高机器人控制。 : 我第一要研究的是视觉传感器。现在因为手机的帮助,已经很便宜了。 : 而且软件工具也多。 : 我装个带智能手机的机器人手臂,几百人民币感觉差不多了。 : 一定赢传统只有位置和速度的控制方案。
|
g****t 发帖数: 31659 | 15 Bellman 方程一般指的是离散情况最优控制。可以通过
回退迭代求解到任意一个running index.方程本质就是多变量
Recursive 方程。但是离散递归方程,多数没有显式解析解。
维度高的话,回退求解不现实。
另外最优控制是established领域。历史上和强调robustness的频域分析路线有过学术
之争。
追求最优本身对robustness往往是有害的,这点在线性系统里是可以用很具体的例子来
明确的事实。更具体的来说,线性系统,最优全状态反馈LQR有确定的robustness
margin.这点很好。但是LQG的robustness margin是不够的。以前Caltech有个人发过一
个著名反例。
本版不是有个哥们是zames的徒弟的徒弟吗?Zames 实际上优化的是robustness margin
。既然最优控制进了RL。H-infinity,小增益定理什么的经典结果。一定在不久的将来
会被人改头换面,扩展和抄袭。另外还有什么微分几何控制等东西在未来也会进来。
以上内容仅凭记忆。请谨慎参考。
连续情况最优控制要用到变分法。有些情况下,什么叫PDE的解还是个问题。这里就不
提。(有classic解和weak solution之分等等复杂问题。PDE专家可以讲清楚)
不同的数据和硬件条件下。optimal/robustness的平衡点会变,那就需要革新技术链。
所以我看好ML/AI可以常做常新。
: 我怎么记得有限状态MDP的bellman equation的解存在是可以证明的,但
是问题
是求解
: 精确解需要用模特卡洛法遍历所有的态,最后会收敛到最优解。但是问题
是很多
问题的
: 态空间过大,比方说围棋星际,遍历是不可能的,只能估计。我相信人的
神经网
络也是
: 这样的。
: 现在的机器学习最大的问题是不能持续学习积累。生物体从单细胞到人,
是一步
一步发
: 展出来的。
【在 s*****V 的大作中提到】 : 我怎么记得有限状态MDP的bellman equation的解存在是可以证明的,但是问题是求解 : 精确解需要用模特卡洛法遍历所有的态,最后会收敛到最优解。但是问题是很多问题的 : 态空间过大,比方说围棋星际,遍历是不可能的,只能估计。我相信人的神经网络也是 : 这样的。 : 现在的机器学习最大的问题是不能持续学习积累。生物体从单细胞到人,是一步一步发 : 展出来的。
|
m********5 发帖数: 17667 | 16 我靠,这个模型已知的话,连人都赢不了啊
但是,如果是突然受伤呢,缺胳膊少腿儿呢,没有精确的sensor呢,会不会RL更有用?
小脑是不是仍然是Model-free RL?
【在 g****t 的大作中提到】 : 他们总算弄明白Q learning在工业控制很难赢预测控制了。 : "The difference is that Tassa et al use model predictive control, which : gets : to perform planning against a ground-truth world model (the physics : simulator). Model-free RL doesn’t do this planning, and therefore has : a : much harder job. On the other hand, if planning against a model helps this : much, why bother with the bells and whistles of training an RL policy?" : Q-learning不需要模型。肯定赢不了模型已知的系统,例如机器人控制。但是神经网络 : RL还有
|
c*******v 发帖数: 2599 | 17 人当然赢不了机器。但是人有概念思考的能力,可以把很多东西符号化。
我说的基于模型的控制或者学习并不是要求模型精确。模型可以不精确,但是你可以
keep updating这个模型。这个模型updating包括了历史信息和提前训练过的东西。主
要是个思路方面的区别。
【在 m********5 的大作中提到】 : 我靠,这个模型已知的话,连人都赢不了啊 : 但是,如果是突然受伤呢,缺胳膊少腿儿呢,没有精确的sensor呢,会不会RL更有用? : 小脑是不是仍然是Model-free RL?
|