两个问题，关于数据和数据科学家的 - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 两个问题，关于数据和数据科学家的

相关主题
● SAS or R处理大量数据	● 在集成的cloudera hadoop中计算词频（wordcount)
● 问题回复: Python为啥只有两个小时的课？	● got data scientist offer, 以后要在本版多学习了
● 大家有实地接触Tableau, Qlikview, SAS Visual Analytics or Pe (转载)	● merge单个文件800GB的文件
● 别吵架了，没事不如进来做题玩	● 提供内推data science engineer
● ［包子问］统计新人问开学前的自学内容	● Job opportunity: Statistician/Modeler (转载)
● sas 做题啦	● Job opportunity: Statistician/Modeler
● pandas这个东西有点意思	● Which package in R connects Hive and R?
● [bssd]诚心请假，作为data analyst怎样才能be creative?	● 新年礼包：克劳迪亚大数据培训材料 (转载)

相关话题的讨论汇总
话题: 数据话题: 公司话题: data话题: 做题话题: 方法

进入Statistics版参与讨论

1

(共1页)

b********1 发帖数: 291	1 潜水儿也有一阵儿了吧，看你们灌水灌得挺欢，挺好奇，特上来求教两个问题。 1. 你们在这儿做各种题目，是纯粹为了做题而做题，还是在实际中真的有某种应用？那种自己想出来的应用不算. 我捉摸着这数据在一个部门或者公司里应该相对比较固定，数据也是要花钱买滴。那么处理数据的方法也不会一天一个样。都是比较成熟固定的。你吭吭捉摸出来个新方法，老板还真不敢用。新方法再好再快，也比不过老方法经过实际检验的。所以看你们成天做题，到底有啥用？ 2.和问题1也差不多，所谓数据科学家成天都忙些啥？ etl还是什么？那和IT有什么区别?
w********m 发帖数: 1137	2 传统统计不赚钱了。 10年工作经验的不如IT fresh赚得多。都想着去IT公司报粗腿。 IT老板说，要不写点代码，翻转矩阵吧。费老劲写出来了，老板说不是in place不行。然后傻眼了，回来就开始刷题了。
g******2 发帖数: 234	3 1 data point: mainly support eng team, use data to answer their questions (e .g. visualize data and teach them how to interpret results).
c***z 发帖数: 6348	4 见我的签名档【在 b********1 的大作中提到】 : 潜水儿也有一阵儿了吧，看你们灌水灌得挺欢，挺好奇，特上来求教两个问题。 : 1. 你们在这儿做各种题目，是纯粹为了做题而做题，还是在实际中真的有某种应用 : ？那种自己想出来的应用不算. 我捉摸着这数据在一个部门或者公司里应该相对比 : 较固定，数据也是要花钱买滴。那么处理数据的方法也不会一天一个样。都是比较 : 成熟固定的。你吭吭捉摸出来个新方法，老板还真不敢用。新方法再好再快，也比 : 不过老方法经过实际检验的。所以看你们成天做题，到底有啥用？ : 2.和问题1也差不多，所谓数据科学家成天都忙些啥？ etl还是什么？那和IT有什么区 : 别?
g****e 发帖数: 1829	5 就是一顿乱learn。一坨数据，送上distributed system，搞几个leaner。做做predictive modeling， clustering。我见过algorithm玩的熟的，连基本统计知识都搞不明白。这东西以后自动化程度再高点，就会像以前quant一样，热一阵就过去了。我觉得这个东西说到底还是个IT job，和science真是没啥关系。【在 b********1 的大作中提到】 : 潜水儿也有一阵儿了吧，看你们灌水灌得挺欢，挺好奇，特上来求教两个问题。 : 1. 你们在这儿做各种题目，是纯粹为了做题而做题，还是在实际中真的有某种应用 : ？那种自己想出来的应用不算. 我捉摸着这数据在一个部门或者公司里应该相对比 : 较固定，数据也是要花钱买滴。那么处理数据的方法也不会一天一个样。都是比较 : 成熟固定的。你吭吭捉摸出来个新方法，老板还真不敢用。新方法再好再快，也比 : 不过老方法经过实际检验的。所以看你们成天做题，到底有啥用？ : 2.和问题1也差不多，所谓数据科学家成天都忙些啥？ etl还是什么？那和IT有什么区 : 别?
b********1 发帖数: 291	6 嗯。两极分化我也见过水平特别高的。自己发明算法，连data etl都自己弄从不让我们插手。我们也落个清闲呵呵。我现在觉得除了那些真正大公司用data analyst/scientist （数据量实在大得吓人或者用什么hive pig啊等等）, 中小公司基本可以不用。不知道我的理解对不对。【在 g****e 的大作中提到】 : 就是一顿乱learn。 : 一坨数据，送上distributed system，搞几个leaner。做做predictive modeling， : clustering。我见过algorithm玩的熟的，连基本统计知识都搞不明白。这东西以后自 : 动化程度再高点，就会像以前quant一样，热一阵就过去了。 : 我觉得这个东西说到底还是个IT job，和science真是没啥关系。
b********1 发帖数: 291	7 刚看了你的签名档我估计你老板拿上市阿股票啊这些东西忽悠你们吧....就是所谓的谈理想. 【在 c***z 的大作中提到】 : 见我的签名档
g****e 发帖数: 1829	8 稍微大点的公司都要用。做这个成本也不高。主要是数据。有了本公司专有数据，上 learner就行了。就那么几个hyper parameter，做个k fold就好了。不是啥rocket science。数据量大了以后，很多以前不做能做的都拿来做了。并行化计算就变的很重要。这些算法本身是很死的，没有什么对统计的要求。如果有创新的东西，一般公司也并不需要。很多非IT公司强调的也就是应用，没有啥研究。研究做得好的，如goog， ms这些公司，他们做的一般公司也不会很关心，等他release 了改吧改吧用了就行了。【在 b********1 的大作中提到】 : 嗯。两极分化我也见过水平特别高的。自己发明算法，连data etl都自己弄从不让 : 我们插手。我们也落个清闲呵呵。 : 我现在觉得除了那些真正大公司用data analyst/scientist （数据量实在大得吓人或 : 者用什么hive pig啊等等）, 中小公司基本可以不用。 : 不知道我的理解对不对。
g*****o 发帖数: 812	9 问题在于小公司的那点数据太小了惹 release 【在 g****e 的大作中提到】 : 稍微大点的公司都要用。做这个成本也不高。主要是数据。有了本公司专有数据，上 : learner就行了。就那么几个hyper parameter，做个k fold就好了。不是啥rocket : science。 : 数据量大了以后，很多以前不做能做的都拿来做了。并行化计算就变的很重要。这些算 : 法本身是很死的，没有什么对统计的要求。如果有创新的东西，一般公司也并不需要。 : 很多非IT公司强调的也就是应用，没有啥研究。 : 研究做得好的，如goog， ms这些公司，他们做的一般公司也不会很关心，等他release : 了改吧改吧用了就行了。
e*****e 发帖数: 392	10 这个东西没有强大的engineering支持做不大,我觉得太hyped

1

(共1页)

进入Statistics版参与讨论

相关主题
● 新年礼包：克劳迪亚大数据培训材料 (转载)	● ［包子问］统计新人问开学前的自学内容
● 现在大数据及其技术的价值和功用有些被夸大了	● sas 做题啦
● 请问如何用JDBC连接R和Hive	● pandas这个东西有点意思
● 最近又被深深震撼了一次!!	● [bssd]诚心请假，作为data analyst怎样才能be creative?
● SAS or R处理大量数据	● 在集成的cloudera hadoop中计算词频（wordcount)
● 问题回复: Python为啥只有两个小时的课？	● got data scientist offer, 以后要在本版多学习了
● 大家有实地接触Tableau, Qlikview, SAS Visual Analytics or Pe (转载)	● merge单个文件800GB的文件
● 别吵架了，没事不如进来做题玩	● 提供内推data science engineer

相关话题的讨论汇总
话题: 数据话题: 公司话题: data话题: 做题话题: 方法

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)