L****8 发帖数: 3938 | 1 dropgrad 就是 随机挑选一堆weight 只更新这些weight
drop gradient |
w***g 发帖数: 5958 | 2 数学上肯定不等价。dropout的物理意义很明确。dropgrad我直觉觉得不合理,至少不
显然。如果dropgrad能在imagenet上或是别的大benchmark上显示优于基本的sgd, 那么
这会是一个很牛逼的结论。但这个评测很难做。因为不能直接设定learning rate相等
,那样没法直接对比, 最多是dropgrad收敛慢但是精度好,没法说明又快又好。 |
L****8 发帖数: 3938 | 3 dropout设计初衷是避免co-adaptation 就是几个filter 训练一阵子后 长得一样了
dropgrad 可以达到相同目的 我在minst上试过
不知咋的 现在大家把dropout都宣传成避免overfitting了
【在 w***g 的大作中提到】 : 数学上肯定不等价。dropout的物理意义很明确。dropgrad我直觉觉得不合理,至少不 : 显然。如果dropgrad能在imagenet上或是别的大benchmark上显示优于基本的sgd, 那么 : 这会是一个很牛逼的结论。但这个评测很难做。因为不能直接设定learning rate相等 : ,那样没法直接对比, 最多是dropgrad收敛慢但是精度好,没法说明又快又好。
|
c*****t 发帖数: 10738 | 4 什么宣传。这是Hinton自己说的。It is in the title.
【在 L****8 的大作中提到】 : dropout设计初衷是避免co-adaptation 就是几个filter 训练一阵子后 长得一样了 : dropgrad 可以达到相同目的 我在minst上试过 : 不知咋的 现在大家把dropout都宣传成避免overfitting了
|