w*****r 发帖数: 197 | 1 刚刚研究了一下AWS和google cloud的GPU机时价格,大概3块钱一个小时。如果训练一
个平均的模型需要3天,那就是216块,如果调参5次produce一个能用的,那就是1000块啊
wdong你说要收3000块一个模型,真心不贵。除非客户出机时。 |
m******r 发帖数: 1033 | 2 才5次? grid search怎么也得上百吧?
大家平常都怎么调参? 我的土办法是, grid search , 一次跑一天,跑成什么样就是什
么样了。因为超过一天,我不知道死机了还是怎么了。 当然也不会准时一天,大多数
情况就是一晚上。 这样跑几次,能有100~200个点,选个最好(或者次好)的,死马就
当活马医了。
这方法不太科学, 但我能做的也就这样了。 |
g****t 发帖数: 31659 | 3 我自己設計有表格。比grid 窮舉看上去好一些。實際效果沒有全面比較過。自己設計
個表格,好處在於可以方便的從上一次的結果加入一些亂槍打鳥的啟發式的辦法。
: 才5次? grid search怎么也得上百吧?
: 大家平常都怎么调参? 我的土办法是, grid search , 一次跑一天,跑成什么样
就是什
: 么样了。因为超过一天,我不知道死机了还是怎么了。 当然也不会准时一天,
大多数
: 情况就是一晚上。 这样跑几次,能有100~200个点,选个最好(或者次好)的,
死马就
: 当活马医了。
: 这方法不太科学, 但我能做的也就这样了。
【在 m******r 的大作中提到】 : 才5次? grid search怎么也得上百吧? : 大家平常都怎么调参? 我的土办法是, grid search , 一次跑一天,跑成什么样就是什 : 么样了。因为超过一天,我不知道死机了还是怎么了。 当然也不会准时一天,大多数 : 情况就是一晚上。 这样跑几次,能有100~200个点,选个最好(或者次好)的,死马就 : 当活马医了。 : 这方法不太科学, 但我能做的也就这样了。
|
c******u 发帖数: 739 | 4 3000块都能买rtx titan了,同样也是600个tensor core, 有24GB内存。为啥不买个自
己跑。就算它不能用于商用,等测试好了再去AWS跑一边拿数据不也可以吗? |
G*******d 发帖数: 8 | 5 贵得跟抢钱一样。之前要训练一个自己的ImageNet模型,机器实在不够用,租了aws,
4xV100一起训,3天花掉一千刀,参数还没调,然后发现代码里面有错误,一千刀白训
了。
块啊
【在 w*****r 的大作中提到】 : 刚刚研究了一下AWS和google cloud的GPU机时价格,大概3块钱一个小时。如果训练一 : 个平均的模型需要3天,那就是216块,如果调参5次produce一个能用的,那就是1000块啊 : wdong你说要收3000块一个模型,真心不贵。除非客户出机时。
|
w***g 发帖数: 5958 | 6 我这辈子还没自己训练过ImageNet模型。这东西一般人玩不起。
像楼上说的,光训练一个模型没用,得调参。
【在 G*******d 的大作中提到】 : 贵得跟抢钱一样。之前要训练一个自己的ImageNet模型,机器实在不够用,租了aws, : 4xV100一起训,3天花掉一千刀,参数还没调,然后发现代码里面有错误,一千刀白训 : 了。 : : 块啊
|
d****n 发帖数: 12461 | 7 啥模型要训练三天?能训练3天的大概已经不能再这么试参数了,应该也就是二选一和
三选一的样子。
块啊
【在 w*****r 的大作中提到】 : 刚刚研究了一下AWS和google cloud的GPU机时价格,大概3块钱一个小时。如果训练一 : 个平均的模型需要3天,那就是216块,如果调参5次produce一个能用的,那就是1000块啊 : wdong你说要收3000块一个模型,真心不贵。除非客户出机时。
|
w***g 发帖数: 5958 | 8 我最近撸了个voxelnet,titan xp上基本上要一整天才能出像样的结果。
还没调参...
【在 d****n 的大作中提到】 : 啥模型要训练三天?能训练3天的大概已经不能再这么试参数了,应该也就是二选一和 : 三选一的样子。 : : 块啊
|
G*******d 发帖数: 8 | 9 有预训练模型finetuning要快得多,但是重新训练ImageNet可不是闹着玩的。128万张
图片,三天训练一次模型已经谢天谢地了。捣鼓复杂一点的新模型,14个GPU一起算,
训练一个礼拜才出结果,真要把人憋死了,调一次参数又要一个礼拜。这东西真是烧钱
,还要比耐心。代码要百分百正确,千万别有任何一个小bug,否则一个月的训练可能
白费,从头再来。
【在 d****n 的大作中提到】 : 啥模型要训练三天?能训练3天的大概已经不能再这么试参数了,应该也就是二选一和 : 三选一的样子。 : : 块啊
|
w*****r 发帖数: 197 | 10 train多了,有没有一种想吐个感觉?
: 有预训练模型finetuning要快得多,但是重新训练ImageNet可不是闹着玩的。
128万张
: 图片,三天训练一次模型已经谢天谢地了。捣鼓复杂一点的新模型,14个GPU一
起算,
: 训练一个礼拜才出结果,真要把人憋死了,调一次参数又要一个礼拜。这东西真
是烧钱
: ,还要比耐心。代码要百分百正确,千万别有任何一个小bug,否则一个月的训
练可能
: 白费,从头再来。
【在 G*******d 的大作中提到】 : 有预训练模型finetuning要快得多,但是重新训练ImageNet可不是闹着玩的。128万张 : 图片,三天训练一次模型已经谢天谢地了。捣鼓复杂一点的新模型,14个GPU一起算, : 训练一个礼拜才出结果,真要把人憋死了,调一次参数又要一个礼拜。这东西真是烧钱 : ,还要比耐心。代码要百分百正确,千万别有任何一个小bug,否则一个月的训练可能 : 白费,从头再来。
|
|
|
w*****r 发帖数: 197 | 11 Kaggle党一般都是什么配置?
: 我最近撸了个voxelnet,titan xp上基本上要一整天才能出像样的结果。
: 还没调参...
【在 w***g 的大作中提到】 : 我最近撸了个voxelnet,titan xp上基本上要一整天才能出像样的结果。 : 还没调参...
|
g****t 发帖数: 31659 | 12 习惯就好了。matlab很多包很早就是很多参数。
: train多了,有没有一种想吐个感觉?
: 128万张
: 起算,
: 是烧钱
: 练可能
【在 w*****r 的大作中提到】 : Kaggle党一般都是什么配置? : : : 我最近撸了个voxelnet,titan xp上基本上要一整天才能出像样的结果。 : : 还没调参... :
|
w***g 发帖数: 5958 | 13 RTX出来前1080 ti是主流,区别是有几块1080 ti而已。
【在 w*****r 的大作中提到】 : Kaggle党一般都是什么配置? : : : 我最近撸了个voxelnet,titan xp上基本上要一整天才能出像样的结果。 : : 还没调参... :
|
l*******m 发帖数: 1096 | 14 2017年的一个比赛的统计 https://www.kaggle.com/c/carvana-image-masking-
challenge/discussion/40121
Rank 1st, Roughly 20 GPUs total. ~200 TFlops
Rank 3 , 2x1080Ti.
Rank 4, 5x1080Ti, 2x1080, 1x1070
Rank 5, 2.5 GPUs/machines = 1x GTX1080Ti + 1x GTX1080 + 0.5x GTX1070. Total
= 23.5TFLOPS .
Rank 7, 6 x Titan X Maxwell 12GB
Rank 10, 2 machines: 1- 4x 1080Ti, 1- 2x 1080 Ti.
Rank 11, 1 x 1080 Ti
Rank 12, DGX-Station(4 x Tesla P100).
rank: 13, "2x1080Ti " + "1 pascal titanX" + "4x maxwell titanX" + " 4x
maxwell titanX"
Rank 20, 1 x GTX 1060
Rank 25, 1 machine: GTX 1060
Rank 28, 1 gtx1080 + 2 gtx 1060s
Rank 39, 1 machine with 2*GTX 1080.
Rank 70, 1 x 980 Ti.
【在 w*****r 的大作中提到】 : Kaggle党一般都是什么配置? : : : 我最近撸了个voxelnet,titan xp上基本上要一整天才能出像样的结果。 : : 还没调参... :
|
w***g 发帖数: 5958 | 15 这个有意思!
Total
【在 l*******m 的大作中提到】 : 2017年的一个比赛的统计 https://www.kaggle.com/c/carvana-image-masking- : challenge/discussion/40121 : Rank 1st, Roughly 20 GPUs total. ~200 TFlops : Rank 3 , 2x1080Ti. : Rank 4, 5x1080Ti, 2x1080, 1x1070 : Rank 5, 2.5 GPUs/machines = 1x GTX1080Ti + 1x GTX1080 + 0.5x GTX1070. Total : = 23.5TFLOPS . : Rank 7, 6 x Titan X Maxwell 12GB : Rank 10, 2 machines: 1- 4x 1080Ti, 1- 2x 1080 Ti. : Rank 11, 1 x 1080 Ti
|
r***e 发帖数: 127 | |
a****q 发帖数: 65 | |
l*******m 发帖数: 1096 | 18 Make it right, and then make it faster. Will you spend a lot of time and GPU
resources on optimizing the first network design?
【在 a****q 的大作中提到】 : 这个新闻说训练imageNet只要18分钟,$40啊。 : https://aws.amazon.com/blogs/machine-learning/new-speed-record-set-for- : training-deep-learning-models-on-aws/
|
w*****r 发帖数: 197 | 19 Train ImageNet主要是为了优化backbone,嵌入式硬件上基本没人用标准的公版网络
: Make it right, and then make it faster. Will you spend a lot of time
and GPU
: resources on optimizing the first network design?
【在 l*******m 的大作中提到】 : Make it right, and then make it faster. Will you spend a lot of time and GPU : resources on optimizing the first network design?
|