由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - DS需要会的手艺 真不少
相关主题
请教大家一个做feature的问题Pig UDF written in Python
凑热闹转发一篇自己写的博文,轻拍借版面问个machine learning的问题
python/excel suggestion/replacement求职要求clearance
[Data Science Project Case] Parsing URLS说说最近的一次面试,兼告诫国人
机器学习需要自己搞算法吗[Data Science Project Case] Topic Learning
公司招DATA SCIENTIST求职求内推
请推荐一个NLP的data set (转载)data scientist job openings at Workday
text mining中的relation extraction请教各位DS大拿
相关话题的讨论汇总
话题: data话题: ds话题: java话题: ml话题: latest
进入DataSciences版参与讨论
1 (共1页)
l*******s
发帖数: 1258
1
其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有
engineering背景吧,工作也是这两方面都占。
最近在搞一个proof of concept的活。
总结了一下用到的东西:
Java, Python, SAS, JavaScript, Json, Xml
RESTful Webservice,
SQL server, My SQL, Oracle, DB2
跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和
意义。
search engine,regex,NLP
若干classifier,regression模型
Excel相关技术,当然了,还有牛逼闪闪的ppt
好在老板和同事都挺给力,给了很大帮助,项目还算顺利完成了,一共也就一个多月多
点时间。
如果能够搞成真正的project,估计后面甚至可能有hadoop、AWS等
这些东西,有的我会,有的以前做过,但也有很多需要现学,压力不小。
纯粹感叹一下,想做一名DS还是很不容易的。
l******n
发帖数: 9344
2
能分享一下吗?
谢谢

【在 l*******s 的大作中提到】
: 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有
: engineering背景吧,工作也是这两方面都占。
: 最近在搞一个proof of concept的活。
: 总结了一下用到的东西:
: Java, Python, SAS, JavaScript, Json, Xml
: RESTful Webservice,
: SQL server, My SQL, Oracle, DB2
: 跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和
: 意义。
: search engine,regex,NLP

f**********p
发帖数: 44
3
总结一下吧,整个数据方向(不涉及具体的业务逻辑):
1. Data architecture (Big Data): Hadoop, HBase/Cassandra, Pig. Latest trend
includes Hadoop 2.0, Impala, Shark/Spark, Druid, and of course - Storm. You
must have enough knowledge in OS/DB implementation and distributed computing
to understand the whole thing.
2. Data modeling (not so big data but used every day): MySQL, Postgresql (
this one is for EDW, indeed BIG). Latest of course is NoSQL (Mongo, Couch,
TitanDB/Neo4j etc. etc.)
3. Data Science: machine learning, data mining. Depending on fields, may
involve NLP, search engine, speech/vision, operations research,
combinatorics, game theory/mechanism design etc. Latest trend is deep
learning.
4. Data visualization: web frameworks and front-end show-offs. Should be
able to setup and develop in LAMP. Or if you love Java... Latest trend
includes MEAN (Node, Angular), vert.x, Go, SPA etc.
一个DS项目走到产品至少涉及到以上4个方面的三个方面,1/2有时候用一个, 有时候是
一个项目的两层。
做DS的人在以上四个方向各有各的重点,但是一个合格的Data Scientist/Data
Architect应该至少能够自己独立做出一个产品的原型,所以基本都要有所涉猎。
最少要会的语言:Python/R, SQL, Java/C++, Javascript, Bash

个人体验,如果工作中用,一年时间,差不多都能踩一遍。要精通哪一方面,就看各人
兴趣和造化了。
一般所谓的Data Scientist/Data Architect,都是从这四个方向的某一个方向开始的
(3和2最常见),然后发现需要学的越来越多,越来越多。。。最后发现其实一年时间
,差不多能了解个大概。

【在 l*******s 的大作中提到】
: 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有
: engineering背景吧,工作也是这两方面都占。
: 最近在搞一个proof of concept的活。
: 总结了一下用到的东西:
: Java, Python, SAS, JavaScript, Json, Xml
: RESTful Webservice,
: SQL server, My SQL, Oracle, DB2
: 跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和
: 意义。
: search engine,regex,NLP

j*****n
发帖数: 1545
4
Data Science 领域现在不缺 懂 ML 的人,一把上过Andrew Ng的课的人 都号称精通ML
, 反正各个 model 一个一个试, 不行还能Ensemble 总有结果好的。
缺的是码工。
k*z
发帖数: 4704
5
DS需要的是码工,把ML的逻辑变成online自动处理的model,不会pythong/ruby/java的
人如果称自己是DS,要么这个领域没什么牛人刚开始搞data,要么公司领导是个SB,就是
随便雇个人装大蒜。不过对我们底层员工来说,只要能混到钱就可以了
e*******r
发帖数: 1601
6
第一反应是屌丝。。。
d****n
发帖数: 12461
7
data,说到底就是垃圾,是人们和机器生产了过剩或者过时的东西。
data warehouse,就是垃圾站;
data analyst,就是垃圾成分分析;
data mining,就是垃圾回收;
data visualization,就是垃圾回收再生产的产品。
learning的目的,就是看看能不能从垃圾里造出一个活人来。

【在 k*z 的大作中提到】
: DS需要的是码工,把ML的逻辑变成online自动处理的model,不会pythong/ruby/java的
: 人如果称自己是DS,要么这个领域没什么牛人刚开始搞data,要么公司领导是个SB,就是
: 随便雇个人装大蒜。不过对我们底层员工来说,只要能混到钱就可以了

f***c
发帖数: 338
8
言简意赅

【在 d****n 的大作中提到】
: data,说到底就是垃圾,是人们和机器生产了过剩或者过时的东西。
: data warehouse,就是垃圾站;
: data analyst,就是垃圾成分分析;
: data mining,就是垃圾回收;
: data visualization,就是垃圾回收再生产的产品。
: learning的目的,就是看看能不能从垃圾里造出一个活人来。

d*****e
发帖数: 7368
9
他的课还真不错,躺枪

ML

【在 j*****n 的大作中提到】
: Data Science 领域现在不缺 懂 ML 的人,一把上过Andrew Ng的课的人 都号称精通ML
: , 反正各个 model 一个一个试, 不行还能Ensemble 总有结果好的。
: 缺的是码工。

k*z
发帖数: 4704
10
太经典了

【在 d****n 的大作中提到】
: data,说到底就是垃圾,是人们和机器生产了过剩或者过时的东西。
: data warehouse,就是垃圾站;
: data analyst,就是垃圾成分分析;
: data mining,就是垃圾回收;
: data visualization,就是垃圾回收再生产的产品。
: learning的目的,就是看看能不能从垃圾里造出一个活人来。

相关主题
公司招DATA SCIENTISTPig UDF written in Python
请推荐一个NLP的data set (转载)借版面问个machine learning的问题
text mining中的relation extraction求职要求clearance
进入DataSciences版参与讨论
l******n
发帖数: 9344
11
ds就是收垃圾的科学,ds就是垃圾收集员

【在 d****n 的大作中提到】
: data,说到底就是垃圾,是人们和机器生产了过剩或者过时的东西。
: data warehouse,就是垃圾站;
: data analyst,就是垃圾成分分析;
: data mining,就是垃圾回收;
: data visualization,就是垃圾回收再生产的产品。
: learning的目的,就是看看能不能从垃圾里造出一个活人来。

h********3
发帖数: 2075
12
没错。
之前就说过,IT里面高薪DS其实就是码工。如果不是码工,那跟data analyst没区别。
这种职位很早以前就很普遍了,学business的童鞋都可以来找。很多数学和物理的PHD
,挤破头进银行的risk management这些部门,一年不过7,8万打发了。而他们做这种
data analyst都是over-qualified了。

ML

【在 j*****n 的大作中提到】
: Data Science 领域现在不缺 懂 ML 的人,一把上过Andrew Ng的课的人 都号称精通ML
: , 反正各个 model 一个一个试, 不行还能Ensemble 总有结果好的。
: 缺的是码工。

l******n
发帖数: 9344
13

PHD
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
不知道不要乱说。我以前就是做risk management的,告诉你我上次跳槽收到过的offer:
base 140k + 30% bonus, base 145k + 20% bonus, base 120k + up to 50% bonus
relocation package 都很好:买房子给你出agent fee,2 months temp house
而且一点压力没有,到处开开会,绝对比大公司的ds过得爽多了
而他们做这种

【在 h********3 的大作中提到】
: 没错。
: 之前就说过,IT里面高薪DS其实就是码工。如果不是码工,那跟data analyst没区别。
: 这种职位很早以前就很普遍了,学business的童鞋都可以来找。很多数学和物理的PHD
: ,挤破头进银行的risk management这些部门,一年不过7,8万打发了。而他们做这种
: data analyst都是over-qualified了。
:
: ML

D******n
发帖数: 2836
14
你这是什么银行,什么职位。

offer:

【在 l******n 的大作中提到】
:
: PHD
: ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
: 不知道不要乱说。我以前就是做risk management的,告诉你我上次跳槽收到过的offer:
: base 140k + 30% bonus, base 145k + 20% bonus, base 120k + up to 50% bonus
: relocation package 都很好:买房子给你出agent fee,2 months temp house
: 而且一点压力没有,到处开开会,绝对比大公司的ds过得爽多了
: 而他们做这种

k*z
发帖数: 4704
15
求推荐。。。。

offer:

【在 l******n 的大作中提到】
:
: PHD
: ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
: 不知道不要乱说。我以前就是做risk management的,告诉你我上次跳槽收到过的offer:
: base 140k + 30% bonus, base 145k + 20% bonus, base 120k + up to 50% bonus
: relocation package 都很好:买房子给你出agent fee,2 months temp house
: 而且一点压力没有,到处开开会,绝对比大公司的ds过得爽多了
: 而他们做这种

a***r
发帖数: 2677
16
Wow, well said

【在 d****n 的大作中提到】
: data,说到底就是垃圾,是人们和机器生产了过剩或者过时的东西。
: data warehouse,就是垃圾站;
: data analyst,就是垃圾成分分析;
: data mining,就是垃圾回收;
: data visualization,就是垃圾回收再生产的产品。
: learning的目的,就是看看能不能从垃圾里造出一个活人来。

d****n
发帖数: 12461
17
你1997的数据挖掘工作 (in MBs)
你的boss发布了公司的新产品
你2005年的数据挖掘工作 (in GBs)
你的boss宣布了股票上市
你2013年的数据挖掘工作 (in TBs)
你的boss和总统商讨政治和科技热点
map-reduce和这个工作有本质区别吗?

【在 l*******s 的大作中提到】
: 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有
: engineering背景吧,工作也是这两方面都占。
: 最近在搞一个proof of concept的活。
: 总结了一下用到的东西:
: Java, Python, SAS, JavaScript, Json, Xml
: RESTful Webservice,
: SQL server, My SQL, Oracle, DB2
: 跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和
: 意义。
: search engine,regex,NLP

l******n
发帖数: 9344
18
你这个poc是要干啥?

【在 l*******s 的大作中提到】
: 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有
: engineering背景吧,工作也是这两方面都占。
: 最近在搞一个proof of concept的活。
: 总结了一下用到的东西:
: Java, Python, SAS, JavaScript, Json, Xml
: RESTful Webservice,
: SQL server, My SQL, Oracle, DB2
: 跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和
: 意义。
: search engine,regex,NLP

t****a
发帖数: 1212
19
就是这么回事,这是我今天看到的最好的DS帖子
可惜不会被加精啊

【在 d****n 的大作中提到】
: 你1997的数据挖掘工作 (in MBs)
: 你的boss发布了公司的新产品
: 你2005年的数据挖掘工作 (in GBs)
: 你的boss宣布了股票上市
: 你2013年的数据挖掘工作 (in TBs)
: 你的boss和总统商讨政治和科技热点
: map-reduce和这个工作有本质区别吗?

a***r
发帖数: 2677
20


【在 d****n 的大作中提到】
: 你1997的数据挖掘工作 (in MBs)
: 你的boss发布了公司的新产品
: 你2005年的数据挖掘工作 (in GBs)
: 你的boss宣布了股票上市
: 你2013年的数据挖掘工作 (in TBs)
: 你的boss和总统商讨政治和科技热点
: map-reduce和这个工作有本质区别吗?

相关主题
说说最近的一次面试,兼告诫国人data scientist job openings at Workday
[Data Science Project Case] Topic Learning请教各位DS大拿
求职求内推data scientist position
进入DataSciences版参与讨论
s****l
发帖数: 10462
21
好像这些我都会或者会一点点,除了search engine,另外不会SAS,但是会R,呵呵
我是做生物的,可以转DS吗?

【在 l*******s 的大作中提到】
: 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有
: engineering背景吧,工作也是这两方面都占。
: 最近在搞一个proof of concept的活。
: 总结了一下用到的东西:
: Java, Python, SAS, JavaScript, Json, Xml
: RESTful Webservice,
: SQL server, My SQL, Oracle, DB2
: 跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和
: 意义。
: search engine,regex,NLP

s********n
发帖数: 41
22
They're looking for Jacks-of-all-trades (and master of all): cs + math +
stat + machine learning + business + ...,懂原理会软件还要写的了代码。感觉再
加一个PDE做
quant都可以了。哎,没有容易走的路。
l*******s
发帖数: 1258
23
哥就是所谓的quant。。。

【在 s********n 的大作中提到】
: They're looking for Jacks-of-all-trades (and master of all): cs + math +
: stat + machine learning + business + ...,懂原理会软件还要写的了代码。感觉再
: 加一个PDE做
: quant都可以了。哎,没有容易走的路。

j****x
发帖数: 943
24
牛,最后一个图不就是典型的reduce吗?

【在 d****n 的大作中提到】
: 你1997的数据挖掘工作 (in MBs)
: 你的boss发布了公司的新产品
: 你2005年的数据挖掘工作 (in GBs)
: 你的boss宣布了股票上市
: 你2013年的数据挖掘工作 (in TBs)
: 你的boss和总统商讨政治和科技热点
: map-reduce和这个工作有本质区别吗?

B*******6
发帖数: 103
25
lol

【在 d****n 的大作中提到】
: 你1997的数据挖掘工作 (in MBs)
: 你的boss发布了公司的新产品
: 你2005年的数据挖掘工作 (in GBs)
: 你的boss宣布了股票上市
: 你2013年的数据挖掘工作 (in TBs)
: 你的boss和总统商讨政治和科技热点
: map-reduce和这个工作有本质区别吗?

h*****5
发帖数: 322
26
谢谢分享!

★ 发自iPhone App: ChineseWeb 8.6

【在 l*******s 的大作中提到】
: 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有
: engineering背景吧,工作也是这两方面都占。
: 最近在搞一个proof of concept的活。
: 总结了一下用到的东西:
: Java, Python, SAS, JavaScript, Json, Xml
: RESTful Webservice,
: SQL server, My SQL, Oracle, DB2
: 跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和
: 意义。
: search engine,regex,NLP

c*****a
发帖数: 808
27
最近我在一边学一边用的, 组里是搞data的
工具 java, scala, spark, storm
组里好像开始放弃java的mapreduce了,改为kinesis/storm
g******h
发帖数: 115
28


【在 d****n 的大作中提到】
: 你1997的数据挖掘工作 (in MBs)
: 你的boss发布了公司的新产品
: 你2005年的数据挖掘工作 (in GBs)
: 你的boss宣布了股票上市
: 你2013年的数据挖掘工作 (in TBs)
: 你的boss和总统商讨政治和科技热点
: map-reduce和这个工作有本质区别吗?

c*******9
发帖数: 9032
29
多数是码工干的东西,没几个和science着边。

【在 l*******s 的大作中提到】
: 其实兄弟我不能算是DS,只能算是沾边,努力在往DS的路上走。我又有data又有
: engineering背景吧,工作也是这两方面都占。
: 最近在搞一个proof of concept的活。
: 总结了一下用到的东西:
: Java, Python, SAS, JavaScript, Json, Xml
: RESTful Webservice,
: SQL server, My SQL, Oracle, DB2
: 跟business和其他operation的人各种沟通,理解各种业务逻辑,搞懂各种数据格式和
: 意义。
: search engine,regex,NLP

k*z
发帖数: 4704
30
data science本来就需要高级码工,
那么多海量的垃圾数据,靠几个方程和几个模拟就能出来的话,工作容易多了。

【在 c*******9 的大作中提到】
: 多数是码工干的东西,没几个和science着边。
相关主题
求Google 的 Data Science 有关的位置内推 (转载)凑热闹转发一篇自己写的博文,轻拍
Data scientist / Machine Learning Engineer 相关面试题 (转载)python/excel suggestion/replacement
请教大家一个做feature的问题[Data Science Project Case] Parsing URLS
进入DataSciences版参与讨论
l*******s
发帖数: 1258
31
工业界不需要那么多science

【在 c*******9 的大作中提到】
: 多数是码工干的东西,没几个和science着边。
c****r
发帖数: 698
32
牛人啊,经典啊

【在 d****n 的大作中提到】
: 你1997的数据挖掘工作 (in MBs)
: 你的boss发布了公司的新产品
: 你2005年的数据挖掘工作 (in GBs)
: 你的boss宣布了股票上市
: 你2013年的数据挖掘工作 (in TBs)
: 你的boss和总统商讨政治和科技热点
: map-reduce和这个工作有本质区别吗?

s****y
发帖数: 503
33
mark
a**********0
发帖数: 422
34
大多数人对map reduce基本连个皮毛都不了解
1 (共1页)
进入DataSciences版参与讨论
相关主题
请教各位DS大拿机器学习需要自己搞算法吗
data scientist position公司招DATA SCIENTIST
求Google 的 Data Science 有关的位置内推 (转载)请推荐一个NLP的data set (转载)
Data scientist / Machine Learning Engineer 相关面试题 (转载)text mining中的relation extraction
请教大家一个做feature的问题Pig UDF written in Python
凑热闹转发一篇自己写的博文,轻拍借版面问个machine learning的问题
python/excel suggestion/replacement求职要求clearance
[Data Science Project Case] Parsing URLS说说最近的一次面试,兼告诫国人
相关话题的讨论汇总
话题: data话题: ds话题: java话题: ml话题: latest