s********k 发帖数: 6180 | 1 分别用什么service啊?training用EC2,原始那些training data 放在S3,model
train出来的数据在DynamoDB ?然后如果在serving stage data很多前面load balance
用lambda?还有哪些经验? |
s********k 发帖数: 6180 | 2 自己顶一下,板上大牛说说要设计一个large scale的machine learning,有没有什么
可以参考的,比如一个model一台机子跑不下,怎么做分布式?然而训练数据和模型数
据分别存储在哪里?实际中怎么实现?如果上线之后需要更改model,A/B test的方案
是不是就可以了?
balance
【在 s********k 的大作中提到】 : 分别用什么service啊?training用EC2,原始那些training data 放在S3,model : train出来的数据在DynamoDB ?然后如果在serving stage data很多前面load balance : 用lambda?还有哪些经验?
|
w***g 发帖数: 5958 | 3 deep learning训练不适合scale out,最好的办法就是升级单机。
serving的话就无所谓了,如果数据比较小还可以用CPU算。服务器
是只读的,scale out很容易。
【在 s********k 的大作中提到】 : 自己顶一下,板上大牛说说要设计一个large scale的machine learning,有没有什么 : 可以参考的,比如一个model一台机子跑不下,怎么做分布式?然而训练数据和模型数 : 据分别存储在哪里?实际中怎么实现?如果上线之后需要更改model,A/B test的方案 : 是不是就可以了? : : balance
|
s********k 发帖数: 6180 | 4 大牛,比如我训练完了,这些训练好的参数用哪种AWS服务存储最合适(NoSQL还是SQL
?)
【在 w***g 的大作中提到】 : deep learning训练不适合scale out,最好的办法就是升级单机。 : serving的话就无所谓了,如果数据比较小还可以用CPU算。服务器 : 是只读的,scale out很容易。
|
w***g 发帖数: 5958 | 5 参数就是一个文件,或者一个目录。直接和程序一块儿拷过去就行。
实在实在非要存个啥地方,就存S3。
SQL
【在 s********k 的大作中提到】 : 大牛,比如我训练完了,这些训练好的参数用哪种AWS服务存储最合适(NoSQL还是SQL : ?)
|
f******2 发帖数: 2455 | 6 应该可以scale out吧,而且大体思路估计有人做过
https://www.cs.cmu.edu/~muli/file/parameter_server_osdi14.pdf
: deep learning训练不适合scale out,最好的办法就是升级单机。
: serving的话就无所谓了,如果数据比较小还可以用CPU算。服务器
: 是只读的,scale out很容易。
【在 w***g 的大作中提到】 : 参数就是一个文件,或者一个目录。直接和程序一块儿拷过去就行。 : 实在实在非要存个啥地方,就存S3。 : : SQL
|
s********k 发帖数: 6180 | 7 现在大规模做都是用 tree based allreduce还是ring based allreduce? |
b******g 发帖数: 77 | |
s********k 发帖数: 6180 | 9 就是说基本上现在做这些distributed还是用parameter server,不用allreduce?
compute
【在 b******g 的大作中提到】 : 用tensorflow吧,可以上几百个gpu worker,几十个parameter sever : https://cloud.google.com/solutions/running-distributed-tensorflow-on-compute : -engine
|