由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 两个问题, 关于数据和数据科学家的
相关主题
SAS or R处理大量数据在集成的cloudera hadoop中计算词频(wordcount)
问题回复: Python为啥只有两个小时的课?got data scientist offer, 以后要在本版多学习了
大家有实地接触Tableau, Qlikview, SAS Visual Analytics or Pe (转载)merge单个文件800GB的文件
别吵架了,没事不如进来做题玩提供内推data science engineer
[包子问]统计新人问开学前的自学内容Job opportunity: Statistician/Modeler (转载)
sas 做题啦Job opportunity: Statistician/Modeler
pandas这个东西有点意思Which package in R connects Hive and R?
[bssd]诚心请假,作为data analyst怎样才能be creative?新年礼包:克劳迪亚 大数据培训材料 (转载)
相关话题的讨论汇总
话题: 数据话题: 公司话题: data话题: 做题话题: 方法
进入Statistics版参与讨论
1 (共1页)
b********1
发帖数: 291
1
潜水儿也有一阵儿了吧, 看你们灌水灌得挺欢, 挺好奇,特上来求教两个问题。
1. 你们在这儿做各种题目, 是纯粹为了做题而做题, 还是在实际中真的有某种应用
? 那种自己想出来的应用不算. 我捉摸着这数据在一个部门 或者公司里 应该相对比
较固定, 数据也是要花钱买滴。那么处理数据的方法 也不会一天一个样。 都是比较
成熟固定的。 你吭吭捉摸出来个新方法,老板还真不敢用。 新方法再好再快, 也比
不过老方法经过实际检验的。 所以看你们成天做题, 到底有啥用?
2.和问题1也差不多,所谓数据科学家成天都忙些啥? etl还是什么? 那和IT有什么区
别?
w********m
发帖数: 1137
2
传统统计不赚钱了。
10年工作经验的不如IT fresh赚得多。
都想着去IT公司报粗腿。
IT老板说,要不写点代码,翻转矩阵吧。
费老劲写出来了,老板说不是in place不行。
然后傻眼了,回来就开始刷题了。
g******2
发帖数: 234
3
1 data point: mainly support eng team, use data to answer their questions (e
.g. visualize data and teach them how to interpret results).
c***z
发帖数: 6348
4
见我的签名档

【在 b********1 的大作中提到】
: 潜水儿也有一阵儿了吧, 看你们灌水灌得挺欢, 挺好奇,特上来求教两个问题。
: 1. 你们在这儿做各种题目, 是纯粹为了做题而做题, 还是在实际中真的有某种应用
: ? 那种自己想出来的应用不算. 我捉摸着这数据在一个部门 或者公司里 应该相对比
: 较固定, 数据也是要花钱买滴。那么处理数据的方法 也不会一天一个样。 都是比较
: 成熟固定的。 你吭吭捉摸出来个新方法,老板还真不敢用。 新方法再好再快, 也比
: 不过老方法经过实际检验的。 所以看你们成天做题, 到底有啥用?
: 2.和问题1也差不多,所谓数据科学家成天都忙些啥? etl还是什么? 那和IT有什么区
: 别?

g****e
发帖数: 1829
5
就是一顿乱learn。
一坨数据,送上distributed system,搞几个leaner。做做predictive modeling,
clustering。我见过algorithm玩的熟的,连基本统计知识都搞不明白。这东西以后自
动化程度再高点,就会像以前quant一样,热一阵就过去了。
我觉得这个东西说到底还是个IT job,和science真是没啥关系。

【在 b********1 的大作中提到】
: 潜水儿也有一阵儿了吧, 看你们灌水灌得挺欢, 挺好奇,特上来求教两个问题。
: 1. 你们在这儿做各种题目, 是纯粹为了做题而做题, 还是在实际中真的有某种应用
: ? 那种自己想出来的应用不算. 我捉摸着这数据在一个部门 或者公司里 应该相对比
: 较固定, 数据也是要花钱买滴。那么处理数据的方法 也不会一天一个样。 都是比较
: 成熟固定的。 你吭吭捉摸出来个新方法,老板还真不敢用。 新方法再好再快, 也比
: 不过老方法经过实际检验的。 所以看你们成天做题, 到底有啥用?
: 2.和问题1也差不多,所谓数据科学家成天都忙些啥? etl还是什么? 那和IT有什么区
: 别?

b********1
发帖数: 291
6
嗯。 两极分化 我也见过水平特别高的。 自己发明算法,连data etl都自己弄 从不让
我们插手。我们也落个清闲 呵呵。
我现在觉得除了那些真正大公司用data analyst/scientist (数据量实在大得吓人或
者用什么hive pig啊等等), 中小公司基本可以不用。
不知道我的理解对不对。

【在 g****e 的大作中提到】
: 就是一顿乱learn。
: 一坨数据,送上distributed system,搞几个leaner。做做predictive modeling,
: clustering。我见过algorithm玩的熟的,连基本统计知识都搞不明白。这东西以后自
: 动化程度再高点,就会像以前quant一样,热一阵就过去了。
: 我觉得这个东西说到底还是个IT job,和science真是没啥关系。

b********1
发帖数: 291
7
刚看了你的签名档 我估计你老板拿上市阿股票啊 这些东西忽悠你们吧....就是所谓
的谈理想.

【在 c***z 的大作中提到】
: 见我的签名档
g****e
发帖数: 1829
8
稍微大点的公司都要用。做这个成本也不高。主要是数据。有了本公司专有数据,上
learner就行了。就那么几个hyper parameter,做个k fold就好了。不是啥rocket
science。
数据量大了以后,很多以前不做能做的都拿来做了。并行化计算就变的很重要。这些算
法本身是很死的,没有什么对统计的要求。如果有创新的东西,一般公司也并不需要。
很多非IT公司强调的也就是应用,没有啥研究。
研究做得好的,如goog, ms这些公司,他们做的一般公司也不会很关心,等他release
了改吧改吧用了就行了。

【在 b********1 的大作中提到】
: 嗯。 两极分化 我也见过水平特别高的。 自己发明算法,连data etl都自己弄 从不让
: 我们插手。我们也落个清闲 呵呵。
: 我现在觉得除了那些真正大公司用data analyst/scientist (数据量实在大得吓人或
: 者用什么hive pig啊等等), 中小公司基本可以不用。
: 不知道我的理解对不对。

g*****o
发帖数: 812
9
问题在于小公司的那点数据太小了惹

release

【在 g****e 的大作中提到】
: 稍微大点的公司都要用。做这个成本也不高。主要是数据。有了本公司专有数据,上
: learner就行了。就那么几个hyper parameter,做个k fold就好了。不是啥rocket
: science。
: 数据量大了以后,很多以前不做能做的都拿来做了。并行化计算就变的很重要。这些算
: 法本身是很死的,没有什么对统计的要求。如果有创新的东西,一般公司也并不需要。
: 很多非IT公司强调的也就是应用,没有啥研究。
: 研究做得好的,如goog, ms这些公司,他们做的一般公司也不会很关心,等他release
: 了改吧改吧用了就行了。

e*****e
发帖数: 392
10
这个东西没有强大的engineering支持做不大,我觉得太hyped
1 (共1页)
进入Statistics版参与讨论
相关主题
新年礼包:克劳迪亚 大数据培训材料 (转载)[包子问]统计新人问开学前的自学内容
现在大数据及其技术的价值和功用有些被夸大了sas 做题啦
请问如何用JDBC连接R和Hivepandas这个东西有点意思
最近又被深深震撼了一次!![bssd]诚心请假,作为data analyst怎样才能be creative?
SAS or R处理大量数据在集成的cloudera hadoop中计算词频(wordcount)
问题回复: Python为啥只有两个小时的课?got data scientist offer, 以后要在本版多学习了
大家有实地接触Tableau, Qlikview, SAS Visual Analytics or Pe (转载)merge单个文件800GB的文件
别吵架了,没事不如进来做题玩提供内推data science engineer
相关话题的讨论汇总
话题: 数据话题: 公司话题: data话题: 做题话题: 方法