c******r 发帖数: 300 | 1 似乎是个人都乐此不疲的说这个,但这些东东不是只能manipulate data而已么?真正
modeling的部分用这个很少吧,比如target有一个model去预测那个household是否有孕
妇的那个model里面用map reduce的最多就是process raw data into input,至于如何
找input和如何用完全和这些hot topic无关啊。 |
t****a 发帖数: 1212 | 2 没错啊,形而下者谓之器,这玩意就是个器,有必要翻来覆去强调吗? |
r*******y 发帖数: 626 | 3 Not necessarily. If you model needs to process large amount of model and can
be coded in map-reduce framework. The whole model implementation could be
done in map-reduce, which is supposed to give you a lot of mileage on data
processing power and speed.
You can check out Mahout, which implements many classical ML models in map-
reduce.
【在 c******r 的大作中提到】 : 似乎是个人都乐此不疲的说这个,但这些东东不是只能manipulate data而已么?真正 : modeling的部分用这个很少吧,比如target有一个model去预测那个household是否有孕 : 妇的那个model里面用map reduce的最多就是process raw data into input,至于如何 : 找input和如何用完全和这些hot topic无关啊。
|
h********3 发帖数: 2075 | 4 因为实际工程中,modeling是抽象概念上的东西。抽象概念上的东西在实际工程里面才
是“不过而已”的东西。而如何manipulate data才是脚踏实地的具体问题。实际项目
中,遇到不懂model,查查书也就明白了(实际中不用复杂的model)。而如何
manipulate data和一系列的相关的平台设计和操作,需要靠脚踏实地经验累积,不是
看看书就OK的。
【在 c******r 的大作中提到】 : 似乎是个人都乐此不疲的说这个,但这些东东不是只能manipulate data而已么?真正 : modeling的部分用这个很少吧,比如target有一个model去预测那个household是否有孕 : 妇的那个model里面用map reduce的最多就是process raw data into input,至于如何 : 找input和如何用完全和这些hot topic无关啊。
|
c******r 发帖数: 300 | 5 你说的情况可能问题不是很noisy,怎么build model并不重要吧,我反而觉得知道做什
么后implementment details总是有办法解决的,实在不行找个dev一起做就好了
【在 h********3 的大作中提到】 : 因为实际工程中,modeling是抽象概念上的东西。抽象概念上的东西在实际工程里面才 : 是“不过而已”的东西。而如何manipulate data才是脚踏实地的具体问题。实际项目 : 中,遇到不懂model,查查书也就明白了(实际中不用复杂的model)。而如何 : manipulate data和一系列的相关的平台设计和操作,需要靠脚踏实地经验累积,不是 : 看看书就OK的。
|
h*h 发帖数: 845 | 6 When you need analytical results over large amount of data quite frequently,
you will need the analysis to be done in a distributed fashion. If you don
't use a secondary parallel data system like greenplum or RevolutionR, you
will do it on map reduce. |
h********3 发帖数: 2075 | 7 不是怎么build model不重要,而是build抽象的model是很容易的事情,而build实际可
以运作business的model却难上万倍。
站在理科人的观点是,“implementation details总有办法解决,找个dev一起做就行
了”。在工科人的观点是,“model都是现成,找个analyst一起做就行了”。
最后落到boss面前的就是一个供需问题了。现实情况是,找个好的dev比找个好的
analyst要困难得多,而且价格也更高。
现在很多data science的position,数学统计和物理专业毕业的学生,基本上都是
qualified了。而data engineering的position,计算机专业毕业的学生,除非是搞这
方面的人,基本上都不qualify。
【在 c******r 的大作中提到】 : 你说的情况可能问题不是很noisy,怎么build model并不重要吧,我反而觉得知道做什 : 么后implementment details总是有办法解决的,实在不行找个dev一起做就好了
|
d****n 发帖数: 12461 | 8 说的有道理。
【在 h********3 的大作中提到】 : 不是怎么build model不重要,而是build抽象的model是很容易的事情,而build实际可 : 以运作business的model却难上万倍。 : 站在理科人的观点是,“implementation details总有办法解决,找个dev一起做就行 : 了”。在工科人的观点是,“model都是现成,找个analyst一起做就行了”。 : 最后落到boss面前的就是一个供需问题了。现实情况是,找个好的dev比找个好的 : analyst要困难得多,而且价格也更高。 : 现在很多data science的position,数学统计和物理专业毕业的学生,基本上都是 : qualified了。而data engineering的position,计算机专业毕业的学生,除非是搞这 : 方面的人,基本上都不qualify。
|
c******r 发帖数: 300 | 9 我说的不是我自己的观点,可能大家领域(我们是predictive model in noisy
environment)不一样所以结论不同吧,看来找工作关键还是要看自己的edge在哪里,
不是啥hot就去追啥
【在 h********3 的大作中提到】 : 不是怎么build model不重要,而是build抽象的model是很容易的事情,而build实际可 : 以运作business的model却难上万倍。 : 站在理科人的观点是,“implementation details总有办法解决,找个dev一起做就行 : 了”。在工科人的观点是,“model都是现成,找个analyst一起做就行了”。 : 最后落到boss面前的就是一个供需问题了。现实情况是,找个好的dev比找个好的 : analyst要困难得多,而且价格也更高。 : 现在很多data science的position,数学统计和物理专业毕业的学生,基本上都是 : qualified了。而data engineering的position,计算机专业毕业的学生,除非是搞这 : 方面的人,基本上都不qualify。
|
n*****3 发帖数: 1584 | 10 "找个dev一起做" or " 找个analyst" means two mans' job,
two sets of salary. And communication will be expensive between
ppl from diff background.
Company sure like to see one single full-stack DS. instead of
a group.
【在 c******r 的大作中提到】 : 我说的不是我自己的观点,可能大家领域(我们是predictive model in noisy : environment)不一样所以结论不同吧,看来找工作关键还是要看自己的edge在哪里, : 不是啥hot就去追啥
|
h*h 发帖数: 845 | 11 not exactly.
When we plan our hiring for this year, we also take the following points
into consideration:
1. Redundancy: the fact is that DS is not rocket science, a
developer will need to understand the model behind the code. Thus, have
dedicated developers will provide temporary redundancy to the data scientist
(modeler).
2. Efficiency: one person do it all may not be the most efficient. The
fact is that a great statistician may not be the best MR coder because of
his experience as a developer and his knowledge with the underlying hadoop
data platform. A good developer with ample knowledge about the distributed
data platform is a great asset.
3. Cost: Do you know the price tag for a do-it-all kind of DS? Such people
are also more prone to leave for freelancer consulting opportunities
currently. On the other hand, new statistics grads are really handy and
very trainable.
【在 n*****3 的大作中提到】 : "找个dev一起做" or " 找个analyst" means two mans' job, : two sets of salary. And communication will be expensive between : ppl from diff background. : Company sure like to see one single full-stack DS. instead of : a group.
|
D******n 发帖数: 2836 | 12 development 跟 implementation 很少何在一起。 招一个精通development+一个精通
implementation的人的花销
比一个两方面都精通的少多了。
【在 n*****3 的大作中提到】 : "找个dev一起做" or " 找个analyst" means two mans' job, : two sets of salary. And communication will be expensive between : ppl from diff background. : Company sure like to see one single full-stack DS. instead of : a group.
|
n*****3 发帖数: 1584 | 13 hard to believe this, since Two ppl have double benefits
and the communication case. that means the full- stack
DS will earn at least 250% of single develop or model ppl.
【在 D******n 的大作中提到】 : development 跟 implementation 很少何在一起。 招一个精通development+一个精通 : implementation的人的花销 : 比一个两方面都精通的少多了。
|