由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - AWS上做Deep learning large scale design
相关主题
share a aws accountSummary of the Amazon DynamoDB Service Disruption and Related Impacts in the US-East Region
netflix 技术讨论如何测试一个网站能同时容纳的最高在线连接
AWS挂了说到底还是app 层 engineer 和 系统层engineer在斗法
感觉L的stack也一般AWS deployment 用 Asgard 或者script?
又招人了,DevOps Engineer招聘:上海云立方教育科技-资深Web前端
对L股价大跌的一点看法 (转载)Cassandra 比较 Dynamodb
去了Java one 两天的感想。被亚马逊绑架的问题
关于aws问goodbug老师一个问题any cloud computing daniu? some baozi for help.
相关话题的讨论汇总
话题: scale话题: deep话题: aws话题: learning话题: allreduce
进入Programming版参与讨论
1 (共1页)
s********k
发帖数: 6180
1
分别用什么service啊?training用EC2,原始那些training data 放在S3,model
train出来的数据在DynamoDB ?然后如果在serving stage data很多前面load balance
用lambda?还有哪些经验?
s********k
发帖数: 6180
2
自己顶一下,板上大牛说说要设计一个large scale的machine learning,有没有什么
可以参考的,比如一个model一台机子跑不下,怎么做分布式?然而训练数据和模型数
据分别存储在哪里?实际中怎么实现?如果上线之后需要更改model,A/B test的方案
是不是就可以了?

balance

【在 s********k 的大作中提到】
: 分别用什么service啊?training用EC2,原始那些training data 放在S3,model
: train出来的数据在DynamoDB ?然后如果在serving stage data很多前面load balance
: 用lambda?还有哪些经验?

w***g
发帖数: 5958
3
deep learning训练不适合scale out,最好的办法就是升级单机。
serving的话就无所谓了,如果数据比较小还可以用CPU算。服务器
是只读的,scale out很容易。

【在 s********k 的大作中提到】
: 自己顶一下,板上大牛说说要设计一个large scale的machine learning,有没有什么
: 可以参考的,比如一个model一台机子跑不下,怎么做分布式?然而训练数据和模型数
: 据分别存储在哪里?实际中怎么实现?如果上线之后需要更改model,A/B test的方案
: 是不是就可以了?
:
: balance

s********k
发帖数: 6180
4
大牛,比如我训练完了,这些训练好的参数用哪种AWS服务存储最合适(NoSQL还是SQL
?)

【在 w***g 的大作中提到】
: deep learning训练不适合scale out,最好的办法就是升级单机。
: serving的话就无所谓了,如果数据比较小还可以用CPU算。服务器
: 是只读的,scale out很容易。

w***g
发帖数: 5958
5
参数就是一个文件,或者一个目录。直接和程序一块儿拷过去就行。
实在实在非要存个啥地方,就存S3。

SQL

【在 s********k 的大作中提到】
: 大牛,比如我训练完了,这些训练好的参数用哪种AWS服务存储最合适(NoSQL还是SQL
: ?)

f******2
发帖数: 2455
6
应该可以scale out吧,而且大体思路估计有人做过
https://www.cs.cmu.edu/~muli/file/parameter_server_osdi14.pdf


: deep learning训练不适合scale out,最好的办法就是升级单机。

: serving的话就无所谓了,如果数据比较小还可以用CPU算。服务器

: 是只读的,scale out很容易。



【在 w***g 的大作中提到】
: 参数就是一个文件,或者一个目录。直接和程序一块儿拷过去就行。
: 实在实在非要存个啥地方,就存S3。
:
: SQL

s********k
发帖数: 6180
7
现在大规模做都是用 tree based allreduce还是ring based allreduce?
b******g
发帖数: 77
8
用tensorflow吧,可以上几百个gpu worker,几十个parameter sever
https://cloud.google.com/solutions/running-distributed-tensorflow-on-compute
-engine
s********k
发帖数: 6180
9
就是说基本上现在做这些distributed还是用parameter server,不用allreduce?

compute

【在 b******g 的大作中提到】
: 用tensorflow吧,可以上几百个gpu worker,几十个parameter sever
: https://cloud.google.com/solutions/running-distributed-tensorflow-on-compute
: -engine

1 (共1页)
进入Programming版参与讨论
相关主题
any cloud computing daniu? some baozi for help.又招人了,DevOps Engineer
有没有什么介绍云计算的书对L股价大跌的一点看法 (转载)
运算量较大的web service找哪个VPS?还是自己弄个服务器?去了Java one 两天的感想。
我准备去开一个aws帐户了关于aws问goodbug老师一个问题
share a aws accountSummary of the Amazon DynamoDB Service Disruption and Related Impacts in the US-East Region
netflix 技术讨论如何测试一个网站能同时容纳的最高在线连接
AWS挂了说到底还是app 层 engineer 和 系统层engineer在斗法
感觉L的stack也一般AWS deployment 用 Asgard 或者script?
相关话题的讨论汇总
话题: scale话题: deep话题: aws话题: learning话题: allreduce