由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - dropout是不是喝dropgrad等价?
相关主题
神经网络研究的致命伤Proxy, Decorator, Adapter, and Bridge
DL一个基础问题:这里有没有多线程算法的专家?
一个算法问题码工码农都应该强烈抵制那些搞恶性竞争的 IT 公司
weighted selection problem看了过去几年引用最高的ann文章的标题
再问两个C++问题一个算法题
C++ virtual function 定义在 derived class 会怎么样?Hello! HTML5 & CSS3
c preprocess question谷歌技术大汇总
搞不定,不得不问,一维数组跟二维数组的问题phd码工感觉是完全不同的一个档次
相关话题的讨论汇总
话题: dropgrad话题: dropout话题: 等价话题: weight话题: 是不是
进入Programming版参与讨论
1 (共1页)
L****8
发帖数: 3938
1
dropgrad 就是 随机挑选一堆weight 只更新这些weight
drop gradient
w***g
发帖数: 5958
2
数学上肯定不等价。dropout的物理意义很明确。dropgrad我直觉觉得不合理,至少不
显然。如果dropgrad能在imagenet上或是别的大benchmark上显示优于基本的sgd, 那么
这会是一个很牛逼的结论。但这个评测很难做。因为不能直接设定learning rate相等
,那样没法直接对比, 最多是dropgrad收敛慢但是精度好,没法说明又快又好。
L****8
发帖数: 3938
3
dropout设计初衷是避免co-adaptation 就是几个filter 训练一阵子后 长得一样了
dropgrad 可以达到相同目的 我在minst上试过
不知咋的 现在大家把dropout都宣传成避免overfitting了

【在 w***g 的大作中提到】
: 数学上肯定不等价。dropout的物理意义很明确。dropgrad我直觉觉得不合理,至少不
: 显然。如果dropgrad能在imagenet上或是别的大benchmark上显示优于基本的sgd, 那么
: 这会是一个很牛逼的结论。但这个评测很难做。因为不能直接设定learning rate相等
: ,那样没法直接对比, 最多是dropgrad收敛慢但是精度好,没法说明又快又好。

c*****t
发帖数: 10738
4
什么宣传。这是Hinton自己说的。It is in the title.

【在 L****8 的大作中提到】
: dropout设计初衷是避免co-adaptation 就是几个filter 训练一阵子后 长得一样了
: dropgrad 可以达到相同目的 我在minst上试过
: 不知咋的 现在大家把dropout都宣传成避免overfitting了

1 (共1页)
进入Programming版参与讨论
相关主题
DNN就是hype (转载)再问两个C++问题
深度学习真正有实用价值的应用C++ virtual function 定义在 derived class 会怎么样?
kaggle上那批人太逆天了c preprocess question
关于搞ML刷数据的职业前途搞不定,不得不问,一维数组跟二维数组的问题
神经网络研究的致命伤Proxy, Decorator, Adapter, and Bridge
DL一个基础问题:这里有没有多线程算法的专家?
一个算法问题码工码农都应该强烈抵制那些搞恶性竞争的 IT 公司
weighted selection problem看了过去几年引用最高的ann文章的标题
相关话题的讨论汇总
话题: dropgrad话题: dropout话题: 等价话题: weight话题: 是不是