x****u 发帖数: 44466 | 1 https://arxiv.org/abs/1609.04836
On Large-Batch Training for Deep Learning: Generalization Gap and Sharp
Minima |
L****8 发帖数: 3938 | 2 For all experiments, we used
10% of the training data as batch size for the large-batch experiments
and 256 data points for small-batch experiments.
512 batch_size应该不算大的
【在 x****u 的大作中提到】 : https://arxiv.org/abs/1609.04836 : On Large-Batch Training for Deep Learning: Generalization Gap and Sharp : Minima
|
x****u 发帖数: 44466 | 3 这主要讲的是趋势问题
我的感觉是batch size越大学习能力越强,但数据集是人类手工设计的,过强学习能力
容易学到系统偏差
【在 L****8 的大作中提到】 : For all experiments, we used : 10% of the training data as batch size for the large-batch experiments : and 256 data points for small-batch experiments. : 512 batch_size应该不算大的
|
w***g 发帖数: 5958 | 4 昨天又看到两篇paper/帖子,没细看。 一篇说batch size大容易过早收敛。
另一篇说训练到后来不应该缩小learning rate而是应该增大batch size。
那种好几k的batch size应该是上了8显卡吧。
刚刚好不容易拼出一个2 titan xp的机器,还不甚稳定。小作坊日子不容易啊。
【在 L****8 的大作中提到】 : For all experiments, we used : 10% of the training data as batch size for the large-batch experiments : and 256 data points for small-batch experiments. : 512 batch_size应该不算大的
|
g*******u 发帖数: 3948 | 5 你的 10% of train 和 256 谁好?
【在 L****8 的大作中提到】 : For all experiments, we used : 10% of the training data as batch size for the large-batch experiments : and 256 data points for small-batch experiments. : 512 batch_size应该不算大的
|
l*******m 发帖数: 1096 | 6 100-300 GPUs, haha
【在 w***g 的大作中提到】 : 昨天又看到两篇paper/帖子,没细看。 一篇说batch size大容易过早收敛。 : 另一篇说训练到后来不应该缩小learning rate而是应该增大batch size。 : 那种好几k的batch size应该是上了8显卡吧。 : 刚刚好不容易拼出一个2 titan xp的机器,还不甚稳定。小作坊日子不容易啊。
|
x****u 发帖数: 44466 | 7 最近比特币价格不好,可以找挖矿的租空闲资源
【在 w***g 的大作中提到】 : 昨天又看到两篇paper/帖子,没细看。 一篇说batch size大容易过早收敛。 : 另一篇说训练到后来不应该缩小learning rate而是应该增大batch size。 : 那种好几k的batch size应该是上了8显卡吧。 : 刚刚好不容易拼出一个2 titan xp的机器,还不甚稳定。小作坊日子不容易啊。
|
w*****r 发帖数: 197 | 8 你想多了,人家可以用CPU做实验
: 昨天又看到两篇paper/帖子,没细看。 一篇说batch size大容易过早收
敛。
: 另一篇说训练到后来不应该缩小learning rate而是应该增大batch size。
: 那种好几k的batch size应该是上了8显卡吧。
: 刚刚好不容易拼出一个2 titan xp的机器,还不甚稳定。小作坊日子不容
易啊。
【在 w***g 的大作中提到】 : 昨天又看到两篇paper/帖子,没细看。 一篇说batch size大容易过早收敛。 : 另一篇说训练到后来不应该缩小learning rate而是应该增大batch size。 : 那种好几k的batch size应该是上了8显卡吧。 : 刚刚好不容易拼出一个2 titan xp的机器,还不甚稳定。小作坊日子不容易啊。
|