o****o 发帖数: 8077 | 1 谈了半天,其实主要是考察大规模高性能机器学习的实际经验。比如说每天上亿用户上
传照片,实时标定照片的内容meta data,如何对每个用户的数据实时学习更新。
工程上的实施难点是考察重点,至于基础理论和算法,那个人说了,大部分都懂,但是
最关键的是实施经验,这个一问就知道搞没搞过。你天天用package就肯定不行,自己
code过那些算法应该能应付一些这些问题,特别是性能方面,虽然工程上的很多细节没
搞过还是不知道,不过能给出大概方向。 |
w********e 发帖数: 944 | 2 oloolo, please provide more updates as the interview progresses further.
I'm really interested in this direction. As much as I'd like to pursue
this direction, I don't have a clue of how to.
Thanks! |
h***i 发帖数: 3844 | 3 但是最关键的是实施经验,这个一问就知道搞没搞过
oloolo表达的中心思想?
【在 w********e 的大作中提到】 : oloolo, please provide more updates as the interview progresses further. : I'm really interested in this direction. As much as I'd like to pursue : this direction, I don't have a clue of how to. : Thanks!
|
o****o 发帖数: 8077 | 4 我的中心思想是对于没有这种经验的人,内部换组是最容易进入获取经验的途径 :)
【在 h***i 的大作中提到】 : 但是最关键的是实施经验,这个一问就知道搞没搞过 : oloolo表达的中心思想?
|
l*******s 发帖数: 1258 | 5 这些问题,要是没从头实现过ML相关算法,真的是没法回答 |
c***z 发帖数: 6348 | 6 machine learning research scientist偏算法和工程实现
搞统计的应该去试试data scientist,偏business application的那种,比如
personalized marketing/ads targeting
My best value is translating business questions into technical ones.I can
program but programming is the least important thing I do. |
o****o 发帖数: 8077 | 7 hardcore的钱还是多些,可替代性低
【在 c***z 的大作中提到】 : machine learning research scientist偏算法和工程实现 : 搞统计的应该去试试data scientist,偏business application的那种,比如 : personalized marketing/ads targeting : My best value is translating business questions into technical ones.I can : program but programming is the least important thing I do.
|
c***z 发帖数: 6348 | 8 举个栗子
一群高超的工程师做了一个fraud model,accuracy高达99.99%,而且real time,
scalable
但是他们的model数学上等同于预测there is no fraud
这时咱们统计学家的价值就体现出来了 |
c***z 发帖数: 6348 | 9 看发展方向
研究类 - e.g. deep learning
工程类 - e.g. real time bidding
商业类 - e.g. ads targeting
都可以拿到很高,但是难度不同啊,商业应用明显最容易
【在 o****o 的大作中提到】 : hardcore的钱还是多些,可替代性低
|
c***z 发帖数: 6348 | 10 这里还有一个广度和深度的问题
LZ的职位应该是追求深度的,可见LZ也是一位大牛
对于职业初期的人比如说我,还是应该优先广度,多多探索各个领域,然后再追求深度
,在某一方面成为LZ那样的大牛
我本人的经历,读博士就是追求深度,往往不是新鲜人最好的选择。 |
|
|
o****o 发帖数: 8077 | 11 你说的做工程的都能全包,实际上在公司里这些都属于工程部门,只不过有些零碎没有
时间搞
【在 c***z 的大作中提到】 : 看发展方向 : 研究类 - e.g. deep learning : 工程类 - e.g. real time bidding : 商业类 - e.g. ads targeting : 都可以拿到很高,但是难度不同啊,商业应用明显最容易
|
c***z 发帖数: 6348 | 12 大牛确实可以做到
问题是大部分人都不是大牛啊
我个人的定位就是介于技术和商业之间的桥梁,二道贩子
技术变化太快,我跟不上
【在 o****o 的大作中提到】 : 你说的做工程的都能全包,实际上在公司里这些都属于工程部门,只不过有些零碎没有 : 时间搞
|
h***i 发帖数: 3844 | 13 agree,R不是用来搞这些的,
侧重点也不是整天玩model。
【在 o****o 的大作中提到】 : 你说的做工程的都能全包,实际上在公司里这些都属于工程部门,只不过有些零碎没有 : 时间搞
|
l*********s 发帖数: 5409 | 14 what is hardcore?
【在 o****o 的大作中提到】 : hardcore的钱还是多些,可替代性低
|
c***z 发帖数: 6348 | 15 工程实现吧
数据量上去了,就更多的是工程问题,而不是统计问题了
但是我觉得由商业问题到工程问题的过程还是建模,还是有统计的生存空间的
【在 l*********s 的大作中提到】 : what is hardcore?
|
o****o 发帖数: 8077 | 16 在工程上很多现成的模型用起来都面临无法scale out的问题,无论从模型本身还是工
程实现的角度。显然不能用别人写好的package,二是要自己根据公司的基础设施状况
写代码实现那些算法,同时要对算法进行修改,在性能和复杂度上求得平衡,这个时候
就是经验了。
【在 h***i 的大作中提到】 : agree,R不是用来搞这些的, : 侧重点也不是整天玩model。
|
n*****3 发帖数: 1584 | 17 说得很好。
但现在很多library 很不错了,基本的模型
实现很好了, 只要加内存, CPU ,大多情况应该够用了。
我觉得时间要用在business model 上, 不是 reinvent whell
【在 o****o 的大作中提到】 : 在工程上很多现成的模型用起来都面临无法scale out的问题,无论从模型本身还是工 : 程实现的角度。显然不能用别人写好的package,二是要自己根据公司的基础设施状况 : 写代码实现那些算法,同时要对算法进行修改,在性能和复杂度上求得平衡,这个时候 : 就是经验了。
|
c***z 发帖数: 6348 | 18 我很仰慕oloolo大牛,而且大牛也是我努力地目标,希望今后能达到那个高度
但是我更同意nacst23大牛说的
特别是对于统计背景的职场新鲜人而言,business model更重要
或者其实我的中心思想就是,搞统计的不要灰心,大数据时代还是有我们的一席之地的 |
o****o 发帖数: 8077 | 19 同意,对于大部分人遇到的情况,现有的库够用了,几十个GB的数据建模没问题的
不过对于TB级别的情况还是公司自己弄得
另外这个不是reinvent wheel,是真正的invention。虽然可能数学模型差不多,由于
规模的问题,就必须用新的算法,或者对原来的算法裁剪。就好像在统计里一般求
logistic回归,你用IRLS就好了,但是对于超大规模的也许就要用SGD,或者还有更多
需要tune的部分自己分析设计
至于对于业务模式的理解,其实在IT公司,工程部门相对跟的更紧,并没有说不理解的
问题。在实施这些算法的时候其实都要跟业务部门沟通,并不是自己关起门来搞,那是
junior干活的。
chaoz说的我觉得对统计背景的比较适合,毕竟不是吃写代码这碗饭的,术业有专攻。
【在 n*****3 的大作中提到】 : 说得很好。 : 但现在很多library 很不错了,基本的模型 : 实现很好了, 只要加内存, CPU ,大多情况应该够用了。 : 我觉得时间要用在business model 上, 不是 reinvent whell
|
r*****d 发帖数: 346 | 20 大家给力。
八仙过海各显神通。我给自己的定位跟chaoz说的一样。机器学习方面把off-the-shelf
的算法掌握好,理论娓娓道来,每个模型的喜忌心中有数,知道哪些包好,把包玩转,
对我来说这些就够了。。 |
|
|
D******n 发帖数: 2836 | 21 oloolo专攻的已经跟大部分在银行和药厂的人不一样的。跟像是engineering,考虑到
怎么大规模部署和优化的问题。
我也觉得从传统统计工业跳到IT很难,就跟之前版上有人说统计很多问题不是
engineering的问题(当然我是不同意的)。
传统统计工业的mind set就是局部或者protoyping, 真正的implementation,或者就
是prototyping时的效率根本不考虑。
【在 o****o 的大作中提到】 : 同意,对于大部分人遇到的情况,现有的库够用了,几十个GB的数据建模没问题的 : 不过对于TB级别的情况还是公司自己弄得 : 另外这个不是reinvent wheel,是真正的invention。虽然可能数学模型差不多,由于 : 规模的问题,就必须用新的算法,或者对原来的算法裁剪。就好像在统计里一般求 : logistic回归,你用IRLS就好了,但是对于超大规模的也许就要用SGD,或者还有更多 : 需要tune的部分自己分析设计 : 至于对于业务模式的理解,其实在IT公司,工程部门相对跟的更紧,并没有说不理解的 : 问题。在实施这些算法的时候其实都要跟业务部门沟通,并不是自己关起门来搞,那是 : junior干活的。 : chaoz说的我觉得对统计背景的比较适合,毕竟不是吃写代码这碗饭的,术业有专攻。
|
o****o 发帖数: 8077 | 22 我只是个人兴趣驱使。我不敢说我见过最多类型的商业问题,不过我肯定比大部分人见
过的,搞过的多,现在想深入点搞。高考没搞计算机,去了财经类;折腾半天还是想圆
个码农梦。
【在 D******n 的大作中提到】 : oloolo专攻的已经跟大部分在银行和药厂的人不一样的。跟像是engineering,考虑到 : 怎么大规模部署和优化的问题。 : 我也觉得从传统统计工业跳到IT很难,就跟之前版上有人说统计很多问题不是 : engineering的问题(当然我是不同意的)。 : 传统统计工业的mind set就是局部或者protoyping, 真正的implementation,或者就 : 是prototyping时的效率根本不考虑。
|
l******t 发帖数: 96 | 23 这种情况下accuracy没有意义吧
都用precision, recall, auc来评价好坏了吧
【在 c***z 的大作中提到】 : 举个栗子 : 一群高超的工程师做了一个fraud model,accuracy高达99.99%,而且real time, : scalable : 但是他们的model数学上等同于预测there is no fraud : 这时咱们统计学家的价值就体现出来了
|
m****v 发帖数: 780 | 24 你真以为eecs搞ML的人那么傻?
【在 c***z 的大作中提到】 : 举个栗子 : 一群高超的工程师做了一个fraud model,accuracy高达99.99%,而且real time, : scalable : 但是他们的model数学上等同于预测there is no fraud : 这时咱们统计学家的价值就体现出来了
|
m****v 发帖数: 780 | 25 ranking的话auc用得多
【在 l******t 的大作中提到】 : 这种情况下accuracy没有意义吧 : 都用precision, recall, auc来评价好坏了吧
|
c***z 发帖数: 6348 | 26 大牛也觉得应该先广后深是吧
有趣的是我本科学的计算机,后来读图论的博士,稍微涉及过并行计算
最后工作却是偏统计的
【在 o****o 的大作中提到】 : 我只是个人兴趣驱使。我不敢说我见过最多类型的商业问题,不过我肯定比大部分人见 : 过的,搞过的多,现在想深入点搞。高考没搞计算机,去了财经类;折腾半天还是想圆 : 个码农梦。
|
c***z 发帖数: 6348 | 27 我真遇到过
还有AB test不知道置信区间的
【在 m****v 的大作中提到】 : 你真以为eecs搞ML的人那么傻?
|
o****o 发帖数: 8077 | 28 这个看个人,大部分都是先广后深,就跟读研究生到博士一样。
不过在这个行业,随时都需要学习,工作需要啥就学啥。
【在 c***z 的大作中提到】 : 大牛也觉得应该先广后深是吧 : 有趣的是我本科学的计算机,后来读图论的博士,稍微涉及过并行计算 : 最后工作却是偏统计的
|
C*********e 发帖数: 587 | 29 the number of CS/EE ML engineers don't know this, is much smaller than Stat
ppl don't how to do the solid implementation ...
【在 c***z 的大作中提到】 : 我真遇到过 : 还有AB test不知道置信区间的
|
C*********e 发帖数: 587 | 30 exactly, in IT/internet firms, engineering department is directly linked
with business/sales division
for example, if there are some clients requirements, sales ppl will ask
engineers & PM directly, sometimes they will have a meeting together
【在 o****o 的大作中提到】 : 同意,对于大部分人遇到的情况,现有的库够用了,几十个GB的数据建模没问题的 : 不过对于TB级别的情况还是公司自己弄得 : 另外这个不是reinvent wheel,是真正的invention。虽然可能数学模型差不多,由于 : 规模的问题,就必须用新的算法,或者对原来的算法裁剪。就好像在统计里一般求 : logistic回归,你用IRLS就好了,但是对于超大规模的也许就要用SGD,或者还有更多 : 需要tune的部分自己分析设计 : 至于对于业务模式的理解,其实在IT公司,工程部门相对跟的更紧,并没有说不理解的 : 问题。在实施这些算法的时候其实都要跟业务部门沟通,并不是自己关起门来搞,那是 : junior干活的。 : chaoz说的我觉得对统计背景的比较适合,毕竟不是吃写代码这碗饭的,术业有专攻。
|
|
|
C*********e 发帖数: 587 | 31 ... this is your illusion, for big internet/IT firms (Google, Facebook,
Microsoft, etc),
(1) deep learning: this is research or the combination of research and
engineering (in Google, deep learning project is managed by distinguished
engineer and senior fellow Jeff Dean)
(2) real time bidding & ads targeting & ads optimization & personal
recommendation: all of these are engineering driven (sometimes there are
data analyst involved, sometimes not)
【在 c***z 的大作中提到】 : 看发展方向 : 研究类 - e.g. deep learning : 工程类 - e.g. real time bidding : 商业类 - e.g. ads targeting : 都可以拿到很高,但是难度不同啊,商业应用明显最容易
|
m****v 发帖数: 780 | 32 那这个人根本不是搞ml的
我还见过ee的phd去统计做prof的呢:
http://sites.stat.psu.edu/~jiali/
【在 c***z 的大作中提到】 : 我真遇到过 : 还有AB test不知道置信区间的
|
f********g 发帖数: 157 | 33 面试官说得不错。
【在 o****o 的大作中提到】 : 谈了半天,其实主要是考察大规模高性能机器学习的实际经验。比如说每天上亿用户上 : 传照片,实时标定照片的内容meta data,如何对每个用户的数据实时学习更新。 : 工程上的实施难点是考察重点,至于基础理论和算法,那个人说了,大部分都懂,但是 : 最关键的是实施经验,这个一问就知道搞没搞过。你天天用package就肯定不行,自己 : code过那些算法应该能应付一些这些问题,特别是性能方面,虽然工程上的很多细节没 : 搞过还是不知道,不过能给出大概方向。
|
o****o 发帖数: 8077 | 34 这人的背景那么强
EE的数学很难的,搞定STAT的部分问题不大
【在 m****v 的大作中提到】 : 那这个人根本不是搞ml的 : 我还见过ee的phd去统计做prof的呢: : http://sites.stat.psu.edu/~jiali/
|
l******t 发帖数: 96 | 35 stat的数学要难起来也能很难的...
【在 o****o 的大作中提到】 : 这人的背景那么强 : EE的数学很难的,搞定STAT的部分问题不大
|
A*******s 发帖数: 3942 | 36 true... but it is becoz of different priors--CS/EE graduates outnumber Stat
graduates probably over 100 times...
Stat
【在 C*********e 的大作中提到】 : the number of CS/EE ML engineers don't know this, is much smaller than Stat : ppl don't how to do the solid implementation ...
|
o****o 发帖数: 8077 | 37 我不否认这点,不过你要说难到EE的完全搞不了我觉得还不大可能
其实很多搞得好的学者都是跨学科的,没有必要分的那么清楚。
【在 l******t 的大作中提到】 : stat的数学要难起来也能很难的...
|
C*********e 发帖数: 587 | 38 I mean CS/EE ML engineers (not graduates), read my post again ...
even come to CS/EE graduates, not sure 100 times, at least not for PhD level
graduates
Stat
【在 A*******s 的大作中提到】 : true... but it is becoz of different priors--CS/EE graduates outnumber Stat : graduates probably over 100 times... : : Stat
|
h***i 发帖数: 3844 | 39 嗯,这个是业内人士。
【在 C*********e 的大作中提到】 : ... this is your illusion, for big internet/IT firms (Google, Facebook, : Microsoft, etc), : (1) deep learning: this is research or the combination of research and : engineering (in Google, deep learning project is managed by distinguished : engineer and senior fellow Jeff Dean) : (2) real time bidding & ads targeting & ads optimization & personal : recommendation: all of these are engineering driven (sometimes there are : data analyst involved, sometimes not)
|
D******n 发帖数: 2836 | 40 100 times is conservative.
Lots of stat ppl cant even write efficient code (most of time just patchwork
) save for any intend for solid implementation.
level
【在 C*********e 的大作中提到】 : I mean CS/EE ML engineers (not graduates), read my post again ... : even come to CS/EE graduates, not sure 100 times, at least not for PhD level : graduates : : Stat
|
|
|
w********e 发帖数: 944 | 41 oloolo大侠, 我记得你是保险公司做模型的. 你是怎么跳到IT公司去的?能介绍一下经
验么?
谢谢啦! |
c***z 发帖数: 6348 | 42 受教了
我没有能够拿到IT公司核心组的面试,只面过product analytics组的
其他面试主要都是marketing/ads公司的,所以经验有点偏颇
【在 C*********e 的大作中提到】 : ... this is your illusion, for big internet/IT firms (Google, Facebook, : Microsoft, etc), : (1) deep learning: this is research or the combination of research and : engineering (in Google, deep learning project is managed by distinguished : engineer and senior fellow Jeff Dean) : (2) real time bidding & ads targeting & ads optimization & personal : recommendation: all of these are engineering driven (sometimes there are : data analyst involved, sometimes not)
|
m****v 发帖数: 780 | 43 对于IT公司来说,数据量大而且实时,大数据量machine learning的问题以前已经在解
决,最近在解决的问题变成了如何处理实时的大数据量machine learning的问题,已经
部分解决的。Vowpal Wabbit 和 spark 算是这方面的努力。当然这是解决training的
速度问题。解决testing的速度问题目前还没太有人重视。我曾经利用search engine的
算法把一个传统的模型testing的速度提高了10倍,给CS的会议投稿,但这帮学术界的
评委只关系公式,对于效率的提高没有兴趣。这是工业界和学术界的差别。但是real
time biding一共最多就几百毫秒,qps经常是million级别的,不提高速度很多模型根
本没法用。training也得快,distribution随时在变,model变慢了,预测就差了,rtb
自然就赚不到钱了。所以模型系统的准确率和效率都非常重要。效率达不到,准确率就
没用了,或者会下降。
【在 c***z 的大作中提到】 : 受教了 : 我没有能够拿到IT公司核心组的面试,只面过product analytics组的 : 其他面试主要都是marketing/ads公司的,所以经验有点偏颇
|