由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 关于搞ML刷数据的职业前途
相关主题
总结一下kaggle比赛已经全上内存了,还要40多秒啊
聊两句wdong的内功总纲转行的不应该看不起科班出身的
phd码工感觉是完全不同的一个档次100伪币悬赏:CNN这个东西本质上处理不了形变
kaggle上那批人太逆天了数据科学碗2017
有没有大牛愿意牵头搞一个 deep learning projectKaggle 被买了
ML 需不需要搞懂那些数学数据碗的结果出来了 weidong站上英雄榜了
准备向wdong大牛学习单干了Ai这个社团很多人是很坏的
看了几个kaggle的答题,有点迷惑了Kaggle比赛禁止中国人参加
相关话题的讨论汇总
话题: ml话题: ds话题: 编程话题: 公司话题: scientist
进入Programming版参与讨论
1 (共1页)
h*i
发帖数: 3446
1
很多人看见别人用python搞ML, 参加比赛拿奖,搞得热火朝天,很羡慕。我来泼点冷
水。
用python搞ML刷数据,只是线下的ML训练阶段。这个阶段目前看用python有一定的优势
。但这个阶段在整个产品生产环境中,无论从哪个方面看都是很小的一部分,也就是所谓
的data scientist的工作。老实说,在大部分公司,这一行都是不太受待见的。你自己
觉得核心,别的人都不这么看。说来说去还是"nice to have",不是什么离了你公司就
不能运转的行当。
就举一个专门搞ML为业的一个初创公司为例吧,这样一个公司,最先要找的,必然是几
个full stack工程师,把前前后后的架子搭起来,随便搞点ML算法,弄个prototype
,好去忽悠钱,这些都没什么data scientist的事;
然后忽悠到钱了,要grow了,必然要招更多的full stack, 还要找些backend工程师,
把后台搞得solid点,前台也要搞得漂亮点,是不是?当然还要有business
development的人,这些都没什么data scientist的事;
好了,公司发展不错,A,B轮拿了,老板想想,我们不是一个ML公司么,得搞点ML才像
样啊
,这才开始想,是不是搞个有点名气的ML人来好看点? 这才开始去挖个把ML人来,给
个VP, Chief Scientist等等空衔。然后这个人就雄心勃勃来了,然后,然后就悲剧了
,一两年就走人了, “与公司文化不和拍”,“我个人需要休息一下”,诸如此类,
我见得不少。
这还是ML大牛,小喽啰就不提了。
d*******r
发帖数: 3299
2
哈哈哈哈... 你这个是站在自己做startup的角度来说的. 那当然核心那几个搭建系统
的人最有用了.
其实就是几个给力的 full(全) stack(干) (devops + front end + back end + DBA).
wdong 他们讨论的角度不一样, 是直接分析得到的数据了.
w********m
发帖数: 1137
3
不对。
你问alex, wdong.
他们肯定不认为自己是data scientist.
他们做网站可不比一般人差。
这才是真正的全栈。
h*i
发帖数: 3446
4
我文章都说了,我写这个不是给这两个人看的,是给那些看他们搞得闹热,觉得刷这个
有前途的那些人。

【在 w********m 的大作中提到】
: 不对。
: 你问alex, wdong.
: 他们肯定不认为自己是data scientist.
: 他们做网站可不比一般人差。
: 这才是真正的全栈。

h*i
发帖数: 3446
5
我的意思,是说这种“直接分析得到的数据”的工种,目前是不怎么受待见的工种,
startup只是个例子,大公司是一样的。我只是陈述一个事实而已。将来如何我不知道
,老实说也不看好。
wdong这是玩票而已,还有就是帮助领导的career,如果得了第一的话,还是有用的,
毕竟是和medical有关的题目,换个无关题目,也许他领导就没这么大动力了。
别的人看个热闹就好了。我看见很多人跃跃欲试的样子,来泼个冷水。wdong自己都说
了,不值得的。

).

【在 d*******r 的大作中提到】
: 哈哈哈哈... 你这个是站在自己做startup的角度来说的. 那当然核心那几个搭建系统
: 的人最有用了.
: 其实就是几个给力的 full(全) stack(干) (devops + front end + back end + DBA).
: wdong 他们讨论的角度不一样, 是直接分析得到的数据了.

w***g
发帖数: 5958
6
完全同意。真正需要data scientist的职位并没有那么多,对于一个公司来说,
即使有一个问题要分析,完了以后可能也就没有下一个了。人家出十万块钱,
放在kaggle上就是大比赛了,全世界的人得给你来想算法。如果拿十万块钱
钱去顾人,按现在的市价能雇到的人,给的方案还真未必可靠。专业搞ML我觉得
job security不是特别好。而且现在搞ML都是套轮子,偶尔有几个问题,
full stack工程师随便google一下也就顺手解决了。如果非要在ML和写
javascript之间选一个,为了活命肯定是选javascript。如果写网站功底
扎实,或者有别的一技之长保底的,然后再学点ML锦上添花,这样我觉得
比较不错。
如果随便能在kaggle上拿第一的自然另说。如果只是前十,根本没人理。

所谓

【在 h*i 的大作中提到】
: 很多人看见别人用python搞ML, 参加比赛拿奖,搞得热火朝天,很羡慕。我来泼点冷
: 水。
: 用python搞ML刷数据,只是线下的ML训练阶段。这个阶段目前看用python有一定的优势
: 。但这个阶段在整个产品生产环境中,无论从哪个方面看都是很小的一部分,也就是所谓
: 的data scientist的工作。老实说,在大部分公司,这一行都是不太受待见的。你自己
: 觉得核心,别的人都不这么看。说来说去还是"nice to have",不是什么离了你公司就
: 不能运转的行当。
: 就举一个专门搞ML为业的一个初创公司为例吧,这样一个公司,最先要找的,必然是几
: 个full stack工程师,把前前后后的架子搭起来,随便搞点ML算法,弄个prototype
: ,好去忽悠钱,这些都没什么data scientist的事;

l*********s
发帖数: 5409
7
搞机器人和人工智能呢?这个有产品,行情怎么样?

【在 w***g 的大作中提到】
: 完全同意。真正需要data scientist的职位并没有那么多,对于一个公司来说,
: 即使有一个问题要分析,完了以后可能也就没有下一个了。人家出十万块钱,
: 放在kaggle上就是大比赛了,全世界的人得给你来想算法。如果拿十万块钱
: 钱去顾人,按现在的市价能雇到的人,给的方案还真未必可靠。专业搞ML我觉得
: job security不是特别好。而且现在搞ML都是套轮子,偶尔有几个问题,
: full stack工程师随便google一下也就顺手解决了。如果非要在ML和写
: javascript之间选一个,为了活命肯定是选javascript。如果写网站功底
: 扎实,或者有别的一技之长保底的,然后再学点ML锦上添花,这样我觉得
: 比较不错。
: 如果随便能在kaggle上拿第一的自然另说。如果只是前十,根本没人理。

b***i
发帖数: 3043
8
到底ML干啥的?能干啥?完全没有头绪啊

【在 w***g 的大作中提到】
: 完全同意。真正需要data scientist的职位并没有那么多,对于一个公司来说,
: 即使有一个问题要分析,完了以后可能也就没有下一个了。人家出十万块钱,
: 放在kaggle上就是大比赛了,全世界的人得给你来想算法。如果拿十万块钱
: 钱去顾人,按现在的市价能雇到的人,给的方案还真未必可靠。专业搞ML我觉得
: job security不是特别好。而且现在搞ML都是套轮子,偶尔有几个问题,
: full stack工程师随便google一下也就顺手解决了。如果非要在ML和写
: javascript之间选一个,为了活命肯定是选javascript。如果写网站功底
: 扎实,或者有别的一技之长保底的,然后再学点ML锦上添花,这样我觉得
: 比较不错。
: 如果随便能在kaggle上拿第一的自然另说。如果只是前十,根本没人理。

w***g
发帖数: 5958
9
作为消磨时间的爱好,比摄影和hifi省钱就是了。
一般人搞搞,$2000的装备就足够起家了。

【在 b***i 的大作中提到】
: 到底ML干啥的?能干啥?完全没有头绪啊
l*********s
发帖数: 5409
10
大牛不考虑写个股市预测软件?这个写好了就睡觉数钱了

【在 w***g 的大作中提到】
: 作为消磨时间的爱好,比摄影和hifi省钱就是了。
: 一般人搞搞,$2000的装备就足够起家了。

相关主题
ML 需不需要搞懂那些数学已经全上内存了,还要40多秒啊
准备向wdong大牛学习单干了转行的不应该看不起科班出身的
看了几个kaggle的答题,有点迷惑了100伪币悬赏:CNN这个东西本质上处理不了形变
进入Programming版参与讨论
w***g
发帖数: 5958
11
我要真写了这个软件去炒股,钱就都去alex那儿了。

【在 l*********s 的大作中提到】
: 大牛不考虑写个股市预测软件?这个写好了就睡觉数钱了
l*********s
发帖数: 5409
12
^__^

【在 w***g 的大作中提到】
: 我要真写了这个软件去炒股,钱就都去alex那儿了。
p**r
发帖数: 5853
13
这么一说,俺又觉得自己值钱了,俺也是所谓的FS
l*******m
发帖数: 1096
14
是,马上full stack就要包括ML

【在 w********m 的大作中提到】
: 不对。
: 你问alex, wdong.
: 他们肯定不认为自己是data scientist.
: 他们做网站可不比一般人差。
: 这才是真正的全栈。

b***i
发帖数: 3043
15
我最爱好这种低成本高技术了,有什么代码框架可以参考吗?有什么项目可以做吗?

【在 w***g 的大作中提到】
: 作为消磨时间的爱好,比摄影和hifi省钱就是了。
: 一般人搞搞,$2000的装备就足够起家了。

ET
发帖数: 10701
16
haha..

【在 w***g 的大作中提到】
: 作为消磨时间的爱好,比摄影和hifi省钱就是了。
: 一般人搞搞,$2000的装备就足够起家了。

h*i
发帖数: 3446
17
都不太好,还太早了。
机器人主要是没有什么应用,不赚钱。这不,G家都在卖Boston Dynamics了。上次那个
行走的人形机器人的录像把G家的大佬吓尿了,觉得对G家的形象影响不好。大家已经够
怕google了,哈哈。
非人形的机器人呢, 有做旅店送东西的机器人的公司,其实就是以前那个Willlow
Garage变来的,不赚钱,投资人不投了,于是同一拨人出来搞个新公司,换个公司名字
,换一拨投资人。其中google投了一轮,后来也不投了。反正也是在苦苦支撑。
人工智能呢?这是个框,啥都往里装,说不清楚。这个名字火的时候,啥公司都是人工
智能,这个名头烂的时候,就不存在人工智能公司了,哈哈。

【在 l*********s 的大作中提到】
: 搞机器人和人工智能呢?这个有产品,行情怎么样?
s******3
发帖数: 344
18
re

【在 w***g 的大作中提到】
: 完全同意。真正需要data scientist的职位并没有那么多,对于一个公司来说,
: 即使有一个问题要分析,完了以后可能也就没有下一个了。人家出十万块钱,
: 放在kaggle上就是大比赛了,全世界的人得给你来想算法。如果拿十万块钱
: 钱去顾人,按现在的市价能雇到的人,给的方案还真未必可靠。专业搞ML我觉得
: job security不是特别好。而且现在搞ML都是套轮子,偶尔有几个问题,
: full stack工程师随便google一下也就顺手解决了。如果非要在ML和写
: javascript之间选一个,为了活命肯定是选javascript。如果写网站功底
: 扎实,或者有别的一技之长保底的,然后再学点ML锦上添花,这样我觉得
: 比较不错。
: 如果随便能在kaggle上拿第一的自然另说。如果只是前十,根本没人理。

c******r
发帖数: 300
19
Sorry to use English since the Chinese input seems to be messed up.
I think the key issue is a lot of so called ds or ml expert does not really
know how to do proper data analysis with good domain applications. They
merely know how to run certain tools and approach things in a recipe taking
way. If you are really good like the winner of this contest, you can just go
to top quant trading shops and make a kill.
n*****3
发帖数: 1584
20
我觉得 要 两方面 都会, 精通一方面。因为 predition oriteded 的 system 会有越
来越大的需求
会搭Web 人很多,
会ML , ststistics 人也一堆
btw a quick question is 你们用 Python, or
pyspark for real time system 吗?
还是最后都换到 JVM based system?

really
taking
go

【在 c******r 的大作中提到】
: Sorry to use English since the Chinese input seems to be messed up.
: I think the key issue is a lot of so called ds or ml expert does not really
: know how to do proper data analysis with good domain applications. They
: merely know how to run certain tools and approach things in a recipe taking
: way. If you are really good like the winner of this contest, you can just go
: to top quant trading shops and make a kill.

相关主题
数据科学碗2017Ai这个社团很多人是很坏的
Kaggle 被买了Kaggle比赛禁止中国人参加
数据碗的结果出来了 weidong站上英雄榜了Zillow Prize讨论专用贴
进入Programming版参与讨论
n*****3
发帖数: 1584
21
另外一点是, data mugling , feature engineering
是要求不少 program ing skill 的
如果 这方面 很精通的人, full stack 对他来说不过是学一些API 的事, 当然不能
和 天天搞 back end or front end 的人比

【在 n*****3 的大作中提到】
: 我觉得 要 两方面 都会, 精通一方面。因为 predition oriteded 的 system 会有越
: 来越大的需求
: 会搭Web 人很多,
: 会ML , ststistics 人也一堆
: btw a quick question is 你们用 Python, or
: pyspark for real time system 吗?
: 还是最后都换到 JVM based system?
:
: really
: taking

s*********d
发帖数: 531
22
ML 还是太前沿了,大公司才养的起成规模的的ML Scientist 队伍, 小公司还是要以
盈利为主。 还好CS科学是比较低门槛低的,前面也有人说了,2000多刀的装备就足够
参加Kaggle竞赛了,真正有兴趣的靠业余时间钻研,之后往大公司跳还是有前途的。
a*f
发帖数: 1790
23
有个ML强项的project比kaggle这些有意义,没奖金没公司资助,完全需要靠个人兴趣
参与,SETI -> ATA data,IBM好像帮助建了一个Spark服务器提供免费access

【在 b***i 的大作中提到】
: 我最爱好这种低成本高技术了,有什么代码框架可以参考吗?有什么项目可以做吗?
g*****y
发帖数: 1120
24
有小印也是被我以难熬出头劝退的,这个领域是it中少有几个适合老中的分支,越老年
越吃香重要性不言而喻。刚入行的有人指点的话少走不少弯路。

所谓

【在 h*i 的大作中提到】
: 很多人看见别人用python搞ML, 参加比赛拿奖,搞得热火朝天,很羡慕。我来泼点冷
: 水。
: 用python搞ML刷数据,只是线下的ML训练阶段。这个阶段目前看用python有一定的优势
: 。但这个阶段在整个产品生产环境中,无论从哪个方面看都是很小的一部分,也就是所谓
: 的data scientist的工作。老实说,在大部分公司,这一行都是不太受待见的。你自己
: 觉得核心,别的人都不这么看。说来说去还是"nice to have",不是什么离了你公司就
: 不能运转的行当。
: 就举一个专门搞ML为业的一个初创公司为例吧,这样一个公司,最先要找的,必然是几
: 个full stack工程师,把前前后后的架子搭起来,随便搞点ML算法,弄个prototype
: ,好去忽悠钱,这些都没什么data scientist的事;

h*****7
发帖数: 6781
25
+1 经验很重要
另外这行不用怎么on call。劳心不劳力。
做个智能系统出来和打包开源软件或者stackoverflow复制粘贴不是一回事,需要很多
基础知识,经验,以及正规训练。当然我说的是真的搞建模的,不是BI analyst。
软件行业其他大多数位子门槛都太低,需要非常的运气才能拥有别人没有的经验 -- 其
实说实话都是很容易被取代的,公司缺了谁都照样转。

【在 g*****y 的大作中提到】
: 有小印也是被我以难熬出头劝退的,这个领域是it中少有几个适合老中的分支,越老年
: 越吃香重要性不言而喻。刚入行的有人指点的话少走不少弯路。
:
: 所谓

n*****3
发帖数: 1584
26
越老越吃香 也难说,
话说 这里一两年前 会有人用 dl,
NN 吗?
还是有不少新东西要学的

【在 g*****y 的大作中提到】
: 有小印也是被我以难熬出头劝退的,这个领域是it中少有几个适合老中的分支,越老年
: 越吃香重要性不言而喻。刚入行的有人指点的话少走不少弯路。
:
: 所谓

d*******r
发帖数: 3299
27
那大牛说一点入门经验呢?

【在 g*****y 的大作中提到】
: 有小印也是被我以难熬出头劝退的,这个领域是it中少有几个适合老中的分支,越老年
: 越吃香重要性不言而喻。刚入行的有人指点的话少走不少弯路。
:
: 所谓

g*****y
发帖数: 1120
28
dl也是靠快退休的老教授振臂一呼才火的不是,当然想一劳永逸不时时跟进的cs不是首
选。

【在 n*****3 的大作中提到】
: 越老越吃香 也难说,
: 话说 这里一两年前 会有人用 dl,
: NN 吗?
: 还是有不少新东西要学的

l*******s
发帖数: 1258
29
其实搞ML的DS,最值钱的东西是业界的经验,这些东西非技术。
举个例子:
3个DS,一个刚毕业,一个在银行干了3年,一个在银行摸爬滚打了13年
这仨人纯技术能力可能差不多,刚毕业的那个甚至在新技术上还更强些,比如NN,这玩
意,10年前根本没人用。但话又说回来,13年经验那个老鸟,看看教程啥的,也能很快
上手。
在给定整理好的input,跑model,调参数,出结果这几方面,仨人差距其实不太大。
但导致这仨人的工资以及title差距,(假设资质、IQ、EQ都类似),往往就是业界经
验。
你让刚毕业的来银行做ML,他都不知道该用什么数据,没人带就两眼一麻黑抓瞎。公司
里没人像学校那样给你准备好成行成列的干净数据。很多时候,数据烂的跟翔一样,需
要的没有,不需要的一大坨。
三年经验那个,有些业界知识,开一个新的project也知道用啥数据,用啥variable,
数据结果倒也像模像样;某一个领域比如credit card业务,也懂得差不多;可你让他
做个高利贷的活,就又抓瞎了,需要学半天业务才能开始做model;
当你要招一个team lead,比如senior manager,director级别的,能带团队,不用
多,5个人以上,做个相当规模的project,不用太大,1 million预算的,范围不用太
广,涉及到商业银行主营业务,比如信用卡、房贷、车贷、反欺诈等,能做出工作
计划,找出技术难点,搞定相关stakeholder,合理调配资源,如何用技术的大旗跟别
的团队明争暗斗,团队出问题时怎么解决,客户怎么糊弄,上司那边怎么争取资源,这
个没个十年八年经验是没法做到的。
这些经验差距,导致他们收入若干倍的区别。
当然,其他很多技术行业也适用于上述。
e*********r
发帖数: 65
30
ding!

【在 l*******s 的大作中提到】
: 其实搞ML的DS,最值钱的东西是业界的经验,这些东西非技术。
: 举个例子:
: 3个DS,一个刚毕业,一个在银行干了3年,一个在银行摸爬滚打了13年
: 这仨人纯技术能力可能差不多,刚毕业的那个甚至在新技术上还更强些,比如NN,这玩
: 意,10年前根本没人用。但话又说回来,13年经验那个老鸟,看看教程啥的,也能很快
: 上手。
: 在给定整理好的input,跑model,调参数,出结果这几方面,仨人差距其实不太大。
: 但导致这仨人的工资以及title差距,(假设资质、IQ、EQ都类似),往往就是业界经
: 验。
: 你让刚毕业的来银行做ML,他都不知道该用什么数据,没人带就两眼一麻黑抓瞎。公司

相关主题
廖方舟 李哲 金奖! (转载)聊两句wdong的内功总纲
什么都别说了,刷题是王道,我要加入拳皇帮了phd码工感觉是完全不同的一个档次
总结一下kaggle比赛kaggle上那批人太逆天了
进入Programming版参与讨论
w********m
发帖数: 1137
31
domain knowledge现在不吃香。关键中国人混高层混不上去。
linkedin的张simon是中国人这几年最成功的,管到80个人。现在还是海归了。
打个比方,刚毕业的DS,一气之下去了google。base不多,但GSU加起来碾压13年经验
的DS。或者做个了草榴之类的网站,提前退休了。
你说的都是risk方面,不是赚钱的部门。在银行做risk,就是搞政治斗争,其实风险也
不小。银行里经验一大把的老中director还不是说fire就fire。再找工作也难。
话说回来,像alex,wdong能独立了,不用看老板脸色了。就算对银行再熟悉,自己也
开不了一个银行吧。

【在 l*******s 的大作中提到】
: 其实搞ML的DS,最值钱的东西是业界的经验,这些东西非技术。
: 举个例子:
: 3个DS,一个刚毕业,一个在银行干了3年,一个在银行摸爬滚打了13年
: 这仨人纯技术能力可能差不多,刚毕业的那个甚至在新技术上还更强些,比如NN,这玩
: 意,10年前根本没人用。但话又说回来,13年经验那个老鸟,看看教程啥的,也能很快
: 上手。
: 在给定整理好的input,跑model,调参数,出结果这几方面,仨人差距其实不太大。
: 但导致这仨人的工资以及title差距,(假设资质、IQ、EQ都类似),往往就是业界经
: 验。
: 你让刚毕业的来银行做ML,他都不知道该用什么数据,没人带就两眼一麻黑抓瞎。公司

a*f
发帖数: 1790
32
如果DS只是拿模型调参数的话,我们的软件人员就可以做了,复杂一点的请个
contractor,比较困难的在kaggle上面开个project,不必开一个新的位置

【在 w********m 的大作中提到】
: domain knowledge现在不吃香。关键中国人混高层混不上去。
: linkedin的张simon是中国人这几年最成功的,管到80个人。现在还是海归了。
: 打个比方,刚毕业的DS,一气之下去了google。base不多,但GSU加起来碾压13年经验
: 的DS。或者做个了草榴之类的网站,提前退休了。
: 你说的都是risk方面,不是赚钱的部门。在银行做risk,就是搞政治斗争,其实风险也
: 不小。银行里经验一大把的老中director还不是说fire就fire。再找工作也难。
: 话说回来,像alex,wdong能独立了,不用看老板脸色了。就算对银行再熟悉,自己也
: 开不了一个银行吧。

l*******s
发帖数: 1258
33
这个domain knowledge不吃香 这结论咋的出来的?
后面列举的这些 似乎跟domain knowledge没啥关系。
退一步讲,张simon,老中director,说fire就fire。要是没有若干年的domain
knowledge,他们连这个位子都做不上去。如果你是个VP,你招个做credit card的
director,你会去找个只有广告市场经验的DS吗?显然不会。
至于刚毕业的DS,去google,做草榴啥的。数据啊,分布啊,同学,这种情况人群里有
几个?太特例了。
再退一步,人家13年经验的DS,就不会去google,就不会去做草榴了?只会做得更好而
已。
关于张simon,是挺牛,但是啊,眼界要放宽,不要光看着IT领域,其他行业,手下管
100人的老中,相当不少,我就认识若干,保险、金融、创业、IT、咨询、医疗,什么
行业都有。
不用看老板脸色,自己独立干,其实经验更重要。你去拉客户,人家客户一看3年经验
和13年经验,更相信谁?再有,3年经验那个,可能都不知道如何搞清楚客户的真正需
求在那里。

【在 w********m 的大作中提到】
: domain knowledge现在不吃香。关键中国人混高层混不上去。
: linkedin的张simon是中国人这几年最成功的,管到80个人。现在还是海归了。
: 打个比方,刚毕业的DS,一气之下去了google。base不多,但GSU加起来碾压13年经验
: 的DS。或者做个了草榴之类的网站,提前退休了。
: 你说的都是risk方面,不是赚钱的部门。在银行做risk,就是搞政治斗争,其实风险也
: 不小。银行里经验一大把的老中director还不是说fire就fire。再找工作也难。
: 话说回来,像alex,wdong能独立了,不用看老板脸色了。就算对银行再熟悉,自己也
: 开不了一个银行吧。

n*****3
发帖数: 1584
34
老中 在 统计那行做的不坏, 和 老印在软件差不多
主要是做的人多

【在 l*******s 的大作中提到】
: 这个domain knowledge不吃香 这结论咋的出来的?
: 后面列举的这些 似乎跟domain knowledge没啥关系。
: 退一步讲,张simon,老中director,说fire就fire。要是没有若干年的domain
: knowledge,他们连这个位子都做不上去。如果你是个VP,你招个做credit card的
: director,你会去找个只有广告市场经验的DS吗?显然不会。
: 至于刚毕业的DS,去google,做草榴啥的。数据啊,分布啊,同学,这种情况人群里有
: 几个?太特例了。
: 再退一步,人家13年经验的DS,就不会去google,就不会去做草榴了?只会做得更好而
: 已。
: 关于张simon,是挺牛,但是啊,眼界要放宽,不要光看着IT领域,其他行业,手下管

h*i
发帖数: 3446
35
专业做ML,DS啥的人主要问题是心态,自以为核心,自以为高大上,自以为劳心不劳力
,看不上编程的,也不愿意学习积累编程的经验。这是我不看好这一行的主要原因。
“13年经验的DS,就不会去google,就不会去做草榴了?” 我说还真做不了。基本上
,做十几年DS人就费了,如果不转的话。
做编程的就不一样,本来就是需要不断学习的行当,学个ML啥的也没啥大不了的事,所
以这儿大家说full stack现在也要包括ML了。那DS还有啥离了你就不能干的事?我看DS
连UX都不如,起码没有哪个full stack工程师觉得自己也要来包干UX,呵呵。

【在 l*******s 的大作中提到】
: 这个domain knowledge不吃香 这结论咋的出来的?
: 后面列举的这些 似乎跟domain knowledge没啥关系。
: 退一步讲,张simon,老中director,说fire就fire。要是没有若干年的domain
: knowledge,他们连这个位子都做不上去。如果你是个VP,你招个做credit card的
: director,你会去找个只有广告市场经验的DS吗?显然不会。
: 至于刚毕业的DS,去google,做草榴啥的。数据啊,分布啊,同学,这种情况人群里有
: 几个?太特例了。
: 再退一步,人家13年经验的DS,就不会去google,就不会去做草榴了?只会做得更好而
: 已。
: 关于张simon,是挺牛,但是啊,眼界要放宽,不要光看着IT领域,其他行业,手下管

l*******s
发帖数: 1258
36
做ML的,恰恰很多出自cs系,本身编程就很强的,所以这些人不存在自己看不上自己的
问题。
恰恰是做DS,才更会明白团队合作的重要。搞清楚stakeholder意图,你得学会揣摩客
户心思;model做完了要implementation,就得跟工程部门合作;拿数据要跟IT部门合
作。如果你在像样的公司真的做过DS,你就会明白DS扮演的什么角色。一个项目下来,
你就会认识到需要跟其他部门密切合作的重要性,而不是看不起别人自以为核心。
你说的那些DS,自认为核心和高达上的,我干过的几家公司还有周围认识的同行,真没
有。
至于说编程的full stack包括ML,或者学个ML很容易啥的,我就呵呵了。我面试了若干
以前只搞编程然后突击学ML的,一道简单的SGD如何选loss function,就全跪。
‘DS连UX都不如’。先不说DS的,光是搞UX的就不会同意这句话。一个应用的UX多么重
要,这里没必要辩了。
根据你说的内容,恰恰是你以为的做编程的,才是自以为核心和高大上。
但我并不同意搞编程的都这样。其实只有你以为的是这样的。

DS

【在 h*i 的大作中提到】
: 专业做ML,DS啥的人主要问题是心态,自以为核心,自以为高大上,自以为劳心不劳力
: ,看不上编程的,也不愿意学习积累编程的经验。这是我不看好这一行的主要原因。
: “13年经验的DS,就不会去google,就不会去做草榴了?” 我说还真做不了。基本上
: ,做十几年DS人就费了,如果不转的话。
: 做编程的就不一样,本来就是需要不断学习的行当,学个ML啥的也没啥大不了的事,所
: 以这儿大家说full stack现在也要包括ML了。那DS还有啥离了你就不能干的事?我看DS
: 连UX都不如,起码没有哪个full stack工程师觉得自己也要来包干UX,呵呵。

h*i
发帖数: 3446
37
CS系出来的不会编程的还真就这三种居多:搞ML,theory和UX的。这三种的成因都是态
度问题。前两种是觉得自己比别的CS专业更高达上,对编程很看不上;后一种大多是觉
得自己不喜欢编程,UX更好玩。
你可能没怎么见过很多CS毕业的ML专业的Ph.D.,往往不怎么会编程还自以为自己很高
大上。当然你也可能自己就是这样的,所以不知道别人怎么看你们的。我见得不少,他
们的态度和你这种很像,都觉得自己很核心,很厉害,不过写的代码跟屎一样。
你想想,编程好的有觉得自己是专搞DS的么?反正我没见过。

【在 l*******s 的大作中提到】
: 做ML的,恰恰很多出自cs系,本身编程就很强的,所以这些人不存在自己看不上自己的
: 问题。
: 恰恰是做DS,才更会明白团队合作的重要。搞清楚stakeholder意图,你得学会揣摩客
: 户心思;model做完了要implementation,就得跟工程部门合作;拿数据要跟IT部门合
: 作。如果你在像样的公司真的做过DS,你就会明白DS扮演的什么角色。一个项目下来,
: 你就会认识到需要跟其他部门密切合作的重要性,而不是看不起别人自以为核心。
: 你说的那些DS,自认为核心和高达上的,我干过的几家公司还有周围认识的同行,真没
: 有。
: 至于说编程的full stack包括ML,或者学个ML很容易啥的,我就呵呵了。我面试了若干
: 以前只搞编程然后突击学ML的,一道简单的SGD如何选loss function,就全跪。

h*i
发帖数: 3446
38
不扯远了,这儿现成的例子,wdong随便参加个kaggle就能进前十。说明什么?说明一
个好的程序员稍微下点功夫就能干DS能干的事情。但反之则不然,为什么?态度问题。
因为你这个态度就决定了,你不会在编程上下功夫。
你越争辩,越说明我是对的。

【在 l*******s 的大作中提到】
: 做ML的,恰恰很多出自cs系,本身编程就很强的,所以这些人不存在自己看不上自己的
: 问题。
: 恰恰是做DS,才更会明白团队合作的重要。搞清楚stakeholder意图,你得学会揣摩客
: 户心思;model做完了要implementation,就得跟工程部门合作;拿数据要跟IT部门合
: 作。如果你在像样的公司真的做过DS,你就会明白DS扮演的什么角色。一个项目下来,
: 你就会认识到需要跟其他部门密切合作的重要性,而不是看不起别人自以为核心。
: 你说的那些DS,自认为核心和高达上的,我干过的几家公司还有周围认识的同行,真没
: 有。
: 至于说编程的full stack包括ML,或者学个ML很容易啥的,我就呵呵了。我面试了若干
: 以前只搞编程然后突击学ML的,一道简单的SGD如何选loss function,就全跪。

l*******s
发帖数: 1258
39
我说的搞DS的出身于cs,是说他们本身编程能力就挺强的。而不是你说的那种搞不了编
程只能去干别的。
CS毕业的ML方向PHD,我见的很多,上学时工作时都不少,各种档次学校都有,编程理
论建模都很不错。当然了,可能您所在的地方不是这样?呵呵 别往心里去
还有,仔细读我的帖子,我说了半天,强调的是真正做过DS的人,反而不会觉得自己很
核心高大上。至于认为别人都不行,那只是你想象出来的。您真的做过DS吗?读贴要仔
细同学!还好是灌水发帖子,你要是连客户需求都读不懂,呵呵。
wdong能得kaggle好成绩,固然厉害,但是这是普遍想象吗?这种牛人100个里面出几个
?就好像说邻居家小强当上了ceo,所以说我们小区都能当ceo?
最后,‘编程好的有觉得自己是专稿DS的吗’,你没见过真不代表没有。Kaggle的若干
单项比赛冠军和总冠军及top10,我认识好几个,没有一个是你描述的这样的。就像我
在前面帖子里面指出的,要扩大见识啊同学。
不想跟你辩了。连基本的原则都不明白,要对事不对人。你赢了。

【在 h*i 的大作中提到】
: CS系出来的不会编程的还真就这三种居多:搞ML,theory和UX的。这三种的成因都是态
: 度问题。前两种是觉得自己比别的CS专业更高达上,对编程很看不上;后一种大多是觉
: 得自己不喜欢编程,UX更好玩。
: 你可能没怎么见过很多CS毕业的ML专业的Ph.D.,往往不怎么会编程还自以为自己很高
: 大上。当然你也可能自己就是这样的,所以不知道别人怎么看你们的。我见得不少,他
: 们的态度和你这种很像,都觉得自己很核心,很厉害,不过写的代码跟屎一样。
: 你想想,编程好的有觉得自己是专搞DS的么?反正我没见过。

w***g
发帖数: 5958
40
我基本同意你的观点。我觉得programming是万法之宗,写前端是programming,
写后台是programming,写底层是programming,做data science在我看来也是
programming。Programming功夫练好了,其实做啥都可以。如果不是混吃等死
我觉得programmer不应该把自己定位为某种特定类型的programming。
但是我这个观点对我参加比赛有非常大的阻碍作用。就是我重头到尾都在追求
代码在设计上的优化和可重用性,最后花了大量力气打包测试。事实证明这些
effort其实对比赛P用没有。如果你们去看目前公布出来的代码,只有我那个
版本是普通人下载了下去可以直接在自己的机器上跑的。
然后就是这个比赛我和我LD都花了非常大的力气。最后没拿到钱只能说是
技不如人。我那个PhD是一半图像处理+一半machine learning。我LP是
生物医学machine learning专家。这次就是冲着领奖金去的。所以我觉得
拿我们出来做例子没有代表性。不过做quant的确实脑子好使,轻松秒
我们做CS和biology的。
最后我不认同把accuracy做出来以后就撒手不管了这种态度。我这两天
正在复盘那几个winning algorithms。我内心是希望把所有有用的trick都
集成到我那个C++代码里的。不过我LD认为不值的花那个冤枉劲。我现在也
很迷茫。如果只是追求糙快猛,自然还可以在accuracy上做得更好。
但是我更喜欢精雕细琢一个程序,达到speed, accuracy, flexibility的
一个平衡,最后代码还要写得漂亮。
这个可能是受限于智力水平吧,更愿意做些不需要智力的事情。

【在 h*i 的大作中提到】
: 不扯远了,这儿现成的例子,wdong随便参加个kaggle就能进前十。说明什么?说明一
: 个好的程序员稍微下点功夫就能干DS能干的事情。但反之则不然,为什么?态度问题。
: 因为你这个态度就决定了,你不会在编程上下功夫。
: 你越争辩,越说明我是对的。

相关主题
kaggle上那批人太逆天了准备向wdong大牛学习单干了
有没有大牛愿意牵头搞一个 deep learning project看了几个kaggle的答题,有点迷惑了
ML 需不需要搞懂那些数学已经全上内存了,还要40多秒啊
进入Programming版参与讨论
h*i
发帖数: 3446
41
参加比赛和职业是两码事。我的楼是关于职业前途的,不是如何参加比赛。
我的看法在employer中是普遍接受的看法,我也是给学ML的同学提个醒。愿不愿意接受
是自己的问题。有的人非要自己去碰了壁才知道厉害。
比如说我最近面试的不少的ML Ph.D., 觉得自己不需要刷题,面试被问到算法题还愤
愤不平,这不是找抽是什么?

【在 w***g 的大作中提到】
: 我基本同意你的观点。我觉得programming是万法之宗,写前端是programming,
: 写后台是programming,写底层是programming,做data science在我看来也是
: programming。Programming功夫练好了,其实做啥都可以。如果不是混吃等死
: 我觉得programmer不应该把自己定位为某种特定类型的programming。
: 但是我这个观点对我参加比赛有非常大的阻碍作用。就是我重头到尾都在追求
: 代码在设计上的优化和可重用性,最后花了大量力气打包测试。事实证明这些
: effort其实对比赛P用没有。如果你们去看目前公布出来的代码,只有我那个
: 版本是普通人下载了下去可以直接在自己的机器上跑的。
: 然后就是这个比赛我和我LD都花了非常大的力气。最后没拿到钱只能说是
: 技不如人。我那个PhD是一半图像处理+一半machine learning。我LP是

w***g
发帖数: 5958
42
我觉得这个论坛上应该没有你说的那种人。
我碰到那种人都不会和他们说话的。道不同不相为谋。

【在 h*i 的大作中提到】
: 参加比赛和职业是两码事。我的楼是关于职业前途的,不是如何参加比赛。
: 我的看法在employer中是普遍接受的看法,我也是给学ML的同学提个醒。愿不愿意接受
: 是自己的问题。有的人非要自己去碰了壁才知道厉害。
: 比如说我最近面试的不少的ML Ph.D., 觉得自己不需要刷题,面试被问到算法题还愤
: 愤不平,这不是找抽是什么?

h*i
发帖数: 3446
43
有则改之,无则加勉吧。这个论坛上没有最好。
我以前工作的单位里碰到过一些这样的,不过那是研究机构,倒也无所谓了。然后现在
面试的一些ML博士生有相当比例的是这样的,所以我觉得有必要提个醒。

【在 w***g 的大作中提到】
: 我觉得这个论坛上应该没有你说的那种人。
: 我碰到那种人都不会和他们说话的。道不同不相为谋。

h*i
发帖数: 3446
44
你当然很厉害了,我的意思也不是说是个程序员就可以进前10。但起码说明了不存在DS
自以为是的barrier to entry。
我主要是反对那种觉得搞DS才是动脑不动手的高级行业的说法。这个楼里面就有几个人
表示了这种想法,说得好像搞DS又轻松又高级的样子。就算搞这个,最后拿奖的也是搞
quant的人嘛。一个连编程都搞不定要去搞DS的人,能和搞quant的人比么?搞quant的
人会觉得自己是搞data science的么?

【在 w***g 的大作中提到】
: 我基本同意你的观点。我觉得programming是万法之宗,写前端是programming,
: 写后台是programming,写底层是programming,做data science在我看来也是
: programming。Programming功夫练好了,其实做啥都可以。如果不是混吃等死
: 我觉得programmer不应该把自己定位为某种特定类型的programming。
: 但是我这个观点对我参加比赛有非常大的阻碍作用。就是我重头到尾都在追求
: 代码在设计上的优化和可重用性,最后花了大量力气打包测试。事实证明这些
: effort其实对比赛P用没有。如果你们去看目前公布出来的代码,只有我那个
: 版本是普通人下载了下去可以直接在自己的机器上跑的。
: 然后就是这个比赛我和我LD都花了非常大的力气。最后没拿到钱只能说是
: 技不如人。我那个PhD是一半图像处理+一半machine learning。我LP是

n*****3
发帖数: 1584
45
其实 ds 和 quant programming style 还真挺像
糟快猛 地搞个model出来,

DS

【在 h*i 的大作中提到】
: 你当然很厉害了,我的意思也不是说是个程序员就可以进前10。但起码说明了不存在DS
: 自以为是的barrier to entry。
: 我主要是反对那种觉得搞DS才是动脑不动手的高级行业的说法。这个楼里面就有几个人
: 表示了这种想法,说得好像搞DS又轻松又高级的样子。就算搞这个,最后拿奖的也是搞
: quant的人嘛。一个连编程都搞不定要去搞DS的人,能和搞quant的人比么?搞quant的
: 人会觉得自己是搞data science的么?

h*****7
发帖数: 6781
46
请问前几名quant用的是什么工具+方法?
很好奇是他们的工具或者有什么神模型提供的alpha,还是他们能想出来一些
customized solution比如feature engineering之类的?

【在 w***g 的大作中提到】
: 我基本同意你的观点。我觉得programming是万法之宗,写前端是programming,
: 写后台是programming,写底层是programming,做data science在我看来也是
: programming。Programming功夫练好了,其实做啥都可以。如果不是混吃等死
: 我觉得programmer不应该把自己定位为某种特定类型的programming。
: 但是我这个观点对我参加比赛有非常大的阻碍作用。就是我重头到尾都在追求
: 代码在设计上的优化和可重用性,最后花了大量力气打包测试。事实证明这些
: effort其实对比赛P用没有。如果你们去看目前公布出来的代码,只有我那个
: 版本是普通人下载了下去可以直接在自己的机器上跑的。
: 然后就是这个比赛我和我LD都花了非常大的力气。最后没拿到钱只能说是
: 技不如人。我那个PhD是一半图像处理+一半machine learning。我LP是

a*f
发帖数: 1790
47
用这种问题去界定与其说面试不如说是为难别人。我不知道学校刚毕业的有没有接触过
这些内容,能不能现场回答你这个问题。但现场不能回答这个问题不等于别人就不合格
,也不等于别人在工作中接触了这些内容后不能很快解决这个问题。就像简单的编程面
试你要问别人a++和a+=1的不同,99%的大牛都得跪。

【在 l*******s 的大作中提到】
: 我说的搞DS的出身于cs,是说他们本身编程能力就挺强的。而不是你说的那种搞不了编
: 程只能去干别的。
: CS毕业的ML方向PHD,我见的很多,上学时工作时都不少,各种档次学校都有,编程理
: 论建模都很不错。当然了,可能您所在的地方不是这样?呵呵 别往心里去
: 还有,仔细读我的帖子,我说了半天,强调的是真正做过DS的人,反而不会觉得自己很
: 核心高大上。至于认为别人都不行,那只是你想象出来的。您真的做过DS吗?读贴要仔
: 细同学!还好是灌水发帖子,你要是连客户需求都读不懂,呵呵。
: wdong能得kaggle好成绩,固然厉害,但是这是普遍想象吗?这种牛人100个里面出几个
: ?就好像说邻居家小强当上了ceo,所以说我们小区都能当ceo?
: 最后,‘编程好的有觉得自己是专稿DS的吗’,你没见过真不代表没有。Kaggle的若干

a*****g
发帖数: 19398
48
哦。

所谓

【在 h*i 的大作中提到】
: 很多人看见别人用python搞ML, 参加比赛拿奖,搞得热火朝天,很羡慕。我来泼点冷
: 水。
: 用python搞ML刷数据,只是线下的ML训练阶段。这个阶段目前看用python有一定的优势
: 。但这个阶段在整个产品生产环境中,无论从哪个方面看都是很小的一部分,也就是所谓
: 的data scientist的工作。老实说,在大部分公司,这一行都是不太受待见的。你自己
: 觉得核心,别的人都不这么看。说来说去还是"nice to have",不是什么离了你公司就
: 不能运转的行当。
: 就举一个专门搞ML为业的一个初创公司为例吧,这样一个公司,最先要找的,必然是几
: 个full stack工程师,把前前后后的架子搭起来,随便搞点ML算法,弄个prototype
: ,好去忽悠钱,这些都没什么data scientist的事;

h*i
发帖数: 3446
49
问题在于Quant刷数据直接变成钱,0.1%的提高也许就是很多钱。这样的用例几乎就只
存在于Quant搞的行业中,而这些行业都不是搞DS的人能去竞争的。搞Quant的人都是什
么背景? 是这些编程搞不定要去转行做DS的人能比的么?
而DS存在的行业,都是0.1%的提高根本就没有区别的地方。这就是我说的,DS总是属于
一个nice to have的范畴,这就是根本问题,它不是一个能解决从无到有,从0到1的问
题的一个行业,所以到哪里都是外围,不是核心。
总之自己脑子要清醒,不要被忽悠了。现在忽悠”数据科学才是未来“的人,和那些忽
悠“21世纪是生物的世纪”的套路是一样的,忽悠的人都是高层的自己不做事的人。

【在 n*****3 的大作中提到】
: 其实 ds 和 quant programming style 还真挺像
: 糟快猛 地搞个model出来,
:
: DS

a*f
发帖数: 1790
50
据说常有一些高维偏微分方程的求解,特别是几组方程有dependency的时候,几乎不可
能有解析解,蒙特卡罗或者类似热力学方程到高维可以做一些模拟,但是计算量大复杂
,而且概率结果还要再分析。一般CS背景做编程可以,做模型和数据分析搞不定。

【在 h*****7 的大作中提到】
: 请问前几名quant用的是什么工具+方法?
: 很好奇是他们的工具或者有什么神模型提供的alpha,还是他们能想出来一些
: customized solution比如feature engineering之类的?

相关主题
转行的不应该看不起科班出身的Kaggle 被买了
100伪币悬赏:CNN这个东西本质上处理不了形变数据碗的结果出来了 weidong站上英雄榜了
数据科学碗2017Ai这个社团很多人是很坏的
进入Programming版参与讨论
h*****7
发帖数: 6781
51
是什么样的问题要用到偏微分方程?我只见过模型求解的时候用上
你是不是说model都一样,就是求解方法更优?模型是Hinton的DNN吗?
另外你说高维,意思是cost function是高维?

【在 a*f 的大作中提到】
: 据说常有一些高维偏微分方程的求解,特别是几组方程有dependency的时候,几乎不可
: 能有解析解,蒙特卡罗或者类似热力学方程到高维可以做一些模拟,但是计算量大复杂
: ,而且概率结果还要再分析。一般CS背景做编程可以,做模型和数据分析搞不定。

1 (共1页)
进入Programming版参与讨论
相关主题
Kaggle比赛禁止中国人参加有没有大牛愿意牵头搞一个 deep learning project
Zillow Prize讨论专用贴ML 需不需要搞懂那些数学
廖方舟 李哲 金奖! (转载)准备向wdong大牛学习单干了
什么都别说了,刷题是王道,我要加入拳皇帮了看了几个kaggle的答题,有点迷惑了
总结一下kaggle比赛已经全上内存了,还要40多秒啊
聊两句wdong的内功总纲转行的不应该看不起科班出身的
phd码工感觉是完全不同的一个档次100伪币悬赏:CNN这个东西本质上处理不了形变
kaggle上那批人太逆天了数据科学碗2017
相关话题的讨论汇总
话题: ml话题: ds话题: 编程话题: 公司话题: scientist