b********1 发帖数: 291 | 1 潜水儿也有一阵儿了吧, 看你们灌水灌得挺欢, 挺好奇,特上来求教两个问题。
1. 你们在这儿做各种题目, 是纯粹为了做题而做题, 还是在实际中真的有某种应用
? 那种自己想出来的应用不算. 我捉摸着这数据在一个部门 或者公司里 应该相对比
较固定, 数据也是要花钱买滴。那么处理数据的方法 也不会一天一个样。 都是比较
成熟固定的。 你吭吭捉摸出来个新方法,老板还真不敢用。 新方法再好再快, 也比
不过老方法经过实际检验的。 所以看你们成天做题, 到底有啥用?
2.和问题1也差不多,所谓数据科学家成天都忙些啥? etl还是什么? 那和IT有什么区
别? |
w********m 发帖数: 1137 | 2 传统统计不赚钱了。
10年工作经验的不如IT fresh赚得多。
都想着去IT公司报粗腿。
IT老板说,要不写点代码,翻转矩阵吧。
费老劲写出来了,老板说不是in place不行。
然后傻眼了,回来就开始刷题了。 |
g******2 发帖数: 234 | 3 1 data point: mainly support eng team, use data to answer their questions (e
.g. visualize data and teach them how to interpret results). |
c***z 发帖数: 6348 | 4 见我的签名档
【在 b********1 的大作中提到】 : 潜水儿也有一阵儿了吧, 看你们灌水灌得挺欢, 挺好奇,特上来求教两个问题。 : 1. 你们在这儿做各种题目, 是纯粹为了做题而做题, 还是在实际中真的有某种应用 : ? 那种自己想出来的应用不算. 我捉摸着这数据在一个部门 或者公司里 应该相对比 : 较固定, 数据也是要花钱买滴。那么处理数据的方法 也不会一天一个样。 都是比较 : 成熟固定的。 你吭吭捉摸出来个新方法,老板还真不敢用。 新方法再好再快, 也比 : 不过老方法经过实际检验的。 所以看你们成天做题, 到底有啥用? : 2.和问题1也差不多,所谓数据科学家成天都忙些啥? etl还是什么? 那和IT有什么区 : 别?
|
g****e 发帖数: 1829 | 5 就是一顿乱learn。
一坨数据,送上distributed system,搞几个leaner。做做predictive modeling,
clustering。我见过algorithm玩的熟的,连基本统计知识都搞不明白。这东西以后自
动化程度再高点,就会像以前quant一样,热一阵就过去了。
我觉得这个东西说到底还是个IT job,和science真是没啥关系。
【在 b********1 的大作中提到】 : 潜水儿也有一阵儿了吧, 看你们灌水灌得挺欢, 挺好奇,特上来求教两个问题。 : 1. 你们在这儿做各种题目, 是纯粹为了做题而做题, 还是在实际中真的有某种应用 : ? 那种自己想出来的应用不算. 我捉摸着这数据在一个部门 或者公司里 应该相对比 : 较固定, 数据也是要花钱买滴。那么处理数据的方法 也不会一天一个样。 都是比较 : 成熟固定的。 你吭吭捉摸出来个新方法,老板还真不敢用。 新方法再好再快, 也比 : 不过老方法经过实际检验的。 所以看你们成天做题, 到底有啥用? : 2.和问题1也差不多,所谓数据科学家成天都忙些啥? etl还是什么? 那和IT有什么区 : 别?
|
b********1 发帖数: 291 | 6 嗯。 两极分化 我也见过水平特别高的。 自己发明算法,连data etl都自己弄 从不让
我们插手。我们也落个清闲 呵呵。
我现在觉得除了那些真正大公司用data analyst/scientist (数据量实在大得吓人或
者用什么hive pig啊等等), 中小公司基本可以不用。
不知道我的理解对不对。
【在 g****e 的大作中提到】 : 就是一顿乱learn。 : 一坨数据,送上distributed system,搞几个leaner。做做predictive modeling, : clustering。我见过algorithm玩的熟的,连基本统计知识都搞不明白。这东西以后自 : 动化程度再高点,就会像以前quant一样,热一阵就过去了。 : 我觉得这个东西说到底还是个IT job,和science真是没啥关系。
|
b********1 发帖数: 291 | 7 刚看了你的签名档 我估计你老板拿上市阿股票啊 这些东西忽悠你们吧....就是所谓
的谈理想.
【在 c***z 的大作中提到】 : 见我的签名档
|
g****e 发帖数: 1829 | 8 稍微大点的公司都要用。做这个成本也不高。主要是数据。有了本公司专有数据,上
learner就行了。就那么几个hyper parameter,做个k fold就好了。不是啥rocket
science。
数据量大了以后,很多以前不做能做的都拿来做了。并行化计算就变的很重要。这些算
法本身是很死的,没有什么对统计的要求。如果有创新的东西,一般公司也并不需要。
很多非IT公司强调的也就是应用,没有啥研究。
研究做得好的,如goog, ms这些公司,他们做的一般公司也不会很关心,等他release
了改吧改吧用了就行了。
【在 b********1 的大作中提到】 : 嗯。 两极分化 我也见过水平特别高的。 自己发明算法,连data etl都自己弄 从不让 : 我们插手。我们也落个清闲 呵呵。 : 我现在觉得除了那些真正大公司用data analyst/scientist (数据量实在大得吓人或 : 者用什么hive pig啊等等), 中小公司基本可以不用。 : 不知道我的理解对不对。
|
g*****o 发帖数: 812 | 9 问题在于小公司的那点数据太小了惹
release
【在 g****e 的大作中提到】 : 稍微大点的公司都要用。做这个成本也不高。主要是数据。有了本公司专有数据,上 : learner就行了。就那么几个hyper parameter,做个k fold就好了。不是啥rocket : science。 : 数据量大了以后,很多以前不做能做的都拿来做了。并行化计算就变的很重要。这些算 : 法本身是很死的,没有什么对统计的要求。如果有创新的东西,一般公司也并不需要。 : 很多非IT公司强调的也就是应用,没有啥研究。 : 研究做得好的,如goog, ms这些公司,他们做的一般公司也不会很关心,等他release : 了改吧改吧用了就行了。
|
e*****e 发帖数: 392 | 10 这个东西没有强大的engineering支持做不大,我觉得太hyped |