由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 面了一个IT公司跟机器学习相关的职位
相关主题
请教 stat phd,finance phd今天早上google 统计面试的几个问题,新鲜热乎的
哪个stat test是比较两组之间是否有明显不同的?logistic regression用LASSO选择变量合适吗?
新人来报道, 顺便请大家给点意见Job opening
说说统计专业Master找工作的问题关于统计和CS的询问,请大家发表点意见,谢谢!
Looking for Stat/Econ fresh graduates (转载)两个internship offer, 该选哪一个?
how about job market for statistics Ph.D? (转载)Google
现在读统计cs还有多大希望两年后找到工作?SAS ODBC连接MySQL安装过程小结
Stat (SAS programmers, statisticians) Job Information[合集] 俺要去Google面试了,请给些建议!
相关话题的讨论汇总
话题: stat话题: ee话题: cs话题: 算法话题: 问题
进入Statistics版参与讨论
1 (共1页)
o****o
发帖数: 8077
1
谈了半天,其实主要是考察大规模高性能机器学习的实际经验。比如说每天上亿用户上
传照片,实时标定照片的内容meta data,如何对每个用户的数据实时学习更新。
工程上的实施难点是考察重点,至于基础理论和算法,那个人说了,大部分都懂,但是
最关键的是实施经验,这个一问就知道搞没搞过。你天天用package就肯定不行,自己
code过那些算法应该能应付一些这些问题,特别是性能方面,虽然工程上的很多细节没
搞过还是不知道,不过能给出大概方向。
w********e
发帖数: 944
2
oloolo, please provide more updates as the interview progresses further.
I'm really interested in this direction. As much as I'd like to pursue
this direction, I don't have a clue of how to.
Thanks!
h***i
发帖数: 3844
3
但是最关键的是实施经验,这个一问就知道搞没搞过
oloolo表达的中心思想?

【在 w********e 的大作中提到】
: oloolo, please provide more updates as the interview progresses further.
: I'm really interested in this direction. As much as I'd like to pursue
: this direction, I don't have a clue of how to.
: Thanks!

o****o
发帖数: 8077
4
我的中心思想是对于没有这种经验的人,内部换组是最容易进入获取经验的途径 :)

【在 h***i 的大作中提到】
: 但是最关键的是实施经验,这个一问就知道搞没搞过
: oloolo表达的中心思想?

l*******s
发帖数: 1258
5
这些问题,要是没从头实现过ML相关算法,真的是没法回答
c***z
发帖数: 6348
6
machine learning research scientist偏算法和工程实现
搞统计的应该去试试data scientist,偏business application的那种,比如
personalized marketing/ads targeting
My best value is translating business questions into technical ones.I can
program but programming is the least important thing I do.
o****o
发帖数: 8077
7
hardcore的钱还是多些,可替代性低

【在 c***z 的大作中提到】
: machine learning research scientist偏算法和工程实现
: 搞统计的应该去试试data scientist,偏business application的那种,比如
: personalized marketing/ads targeting
: My best value is translating business questions into technical ones.I can
: program but programming is the least important thing I do.

c***z
发帖数: 6348
8
举个栗子
一群高超的工程师做了一个fraud model,accuracy高达99.99%,而且real time,
scalable
但是他们的model数学上等同于预测there is no fraud
这时咱们统计学家的价值就体现出来了
c***z
发帖数: 6348
9
看发展方向
研究类 - e.g. deep learning
工程类 - e.g. real time bidding
商业类 - e.g. ads targeting
都可以拿到很高,但是难度不同啊,商业应用明显最容易

【在 o****o 的大作中提到】
: hardcore的钱还是多些,可替代性低
c***z
发帖数: 6348
10
这里还有一个广度和深度的问题
LZ的职位应该是追求深度的,可见LZ也是一位大牛
对于职业初期的人比如说我,还是应该优先广度,多多探索各个领域,然后再追求深度
,在某一方面成为LZ那样的大牛
我本人的经历,读博士就是追求深度,往往不是新鲜人最好的选择。
相关主题
how about job market for statistics Ph.D? (转载)今天早上google 统计面试的几个问题,新鲜热乎的
现在读统计cs还有多大希望两年后找到工作?logistic regression用LASSO选择变量合适吗?
Stat (SAS programmers, statisticians) Job InformationJob opening
进入Statistics版参与讨论
o****o
发帖数: 8077
11
你说的做工程的都能全包,实际上在公司里这些都属于工程部门,只不过有些零碎没有
时间搞

【在 c***z 的大作中提到】
: 看发展方向
: 研究类 - e.g. deep learning
: 工程类 - e.g. real time bidding
: 商业类 - e.g. ads targeting
: 都可以拿到很高,但是难度不同啊,商业应用明显最容易

c***z
发帖数: 6348
12
大牛确实可以做到
问题是大部分人都不是大牛啊
我个人的定位就是介于技术和商业之间的桥梁,二道贩子
技术变化太快,我跟不上

【在 o****o 的大作中提到】
: 你说的做工程的都能全包,实际上在公司里这些都属于工程部门,只不过有些零碎没有
: 时间搞

h***i
发帖数: 3844
13
agree,R不是用来搞这些的,
侧重点也不是整天玩model。

【在 o****o 的大作中提到】
: 你说的做工程的都能全包,实际上在公司里这些都属于工程部门,只不过有些零碎没有
: 时间搞

l*********s
发帖数: 5409
14
what is hardcore?

【在 o****o 的大作中提到】
: hardcore的钱还是多些,可替代性低
c***z
发帖数: 6348
15
工程实现吧
数据量上去了,就更多的是工程问题,而不是统计问题了
但是我觉得由商业问题到工程问题的过程还是建模,还是有统计的生存空间的

【在 l*********s 的大作中提到】
: what is hardcore?
o****o
发帖数: 8077
16
在工程上很多现成的模型用起来都面临无法scale out的问题,无论从模型本身还是工
程实现的角度。显然不能用别人写好的package,二是要自己根据公司的基础设施状况
写代码实现那些算法,同时要对算法进行修改,在性能和复杂度上求得平衡,这个时候
就是经验了。

【在 h***i 的大作中提到】
: agree,R不是用来搞这些的,
: 侧重点也不是整天玩model。

n*****3
发帖数: 1584
17
说得很好。
但现在很多library 很不错了,基本的模型
实现很好了, 只要加内存, CPU ,大多情况应该够用了。
我觉得时间要用在business model 上, 不是 reinvent whell

【在 o****o 的大作中提到】
: 在工程上很多现成的模型用起来都面临无法scale out的问题,无论从模型本身还是工
: 程实现的角度。显然不能用别人写好的package,二是要自己根据公司的基础设施状况
: 写代码实现那些算法,同时要对算法进行修改,在性能和复杂度上求得平衡,这个时候
: 就是经验了。

c***z
发帖数: 6348
18
我很仰慕oloolo大牛,而且大牛也是我努力地目标,希望今后能达到那个高度
但是我更同意nacst23大牛说的
特别是对于统计背景的职场新鲜人而言,business model更重要
或者其实我的中心思想就是,搞统计的不要灰心,大数据时代还是有我们的一席之地的
o****o
发帖数: 8077
19
同意,对于大部分人遇到的情况,现有的库够用了,几十个GB的数据建模没问题的
不过对于TB级别的情况还是公司自己弄得
另外这个不是reinvent wheel,是真正的invention。虽然可能数学模型差不多,由于
规模的问题,就必须用新的算法,或者对原来的算法裁剪。就好像在统计里一般求
logistic回归,你用IRLS就好了,但是对于超大规模的也许就要用SGD,或者还有更多
需要tune的部分自己分析设计
至于对于业务模式的理解,其实在IT公司,工程部门相对跟的更紧,并没有说不理解的
问题。在实施这些算法的时候其实都要跟业务部门沟通,并不是自己关起门来搞,那是
junior干活的。
chaoz说的我觉得对统计背景的比较适合,毕竟不是吃写代码这碗饭的,术业有专攻。

【在 n*****3 的大作中提到】
: 说得很好。
: 但现在很多library 很不错了,基本的模型
: 实现很好了, 只要加内存, CPU ,大多情况应该够用了。
: 我觉得时间要用在business model 上, 不是 reinvent whell

r*****d
发帖数: 346
20
大家给力。
八仙过海各显神通。我给自己的定位跟chaoz说的一样。机器学习方面把off-the-shelf
的算法掌握好,理论娓娓道来,每个模型的喜忌心中有数,知道哪些包好,把包玩转,
对我来说这些就够了。。
相关主题
关于统计和CS的询问,请大家发表点意见,谢谢!SAS ODBC连接MySQL安装过程小结
两个internship offer, 该选哪一个?[合集] 俺要去Google面试了,请给些建议!
Google[合集] 请教Risk Analyst的职业发展
进入Statistics版参与讨论
D******n
发帖数: 2836
21
oloolo专攻的已经跟大部分在银行和药厂的人不一样的。跟像是engineering,考虑到
怎么大规模部署和优化的问题。
我也觉得从传统统计工业跳到IT很难,就跟之前版上有人说统计很多问题不是
engineering的问题(当然我是不同意的)。
传统统计工业的mind set就是局部或者protoyping, 真正的implementation,或者就
是prototyping时的效率根本不考虑。

【在 o****o 的大作中提到】
: 同意,对于大部分人遇到的情况,现有的库够用了,几十个GB的数据建模没问题的
: 不过对于TB级别的情况还是公司自己弄得
: 另外这个不是reinvent wheel,是真正的invention。虽然可能数学模型差不多,由于
: 规模的问题,就必须用新的算法,或者对原来的算法裁剪。就好像在统计里一般求
: logistic回归,你用IRLS就好了,但是对于超大规模的也许就要用SGD,或者还有更多
: 需要tune的部分自己分析设计
: 至于对于业务模式的理解,其实在IT公司,工程部门相对跟的更紧,并没有说不理解的
: 问题。在实施这些算法的时候其实都要跟业务部门沟通,并不是自己关起门来搞,那是
: junior干活的。
: chaoz说的我觉得对统计背景的比较适合,毕竟不是吃写代码这碗饭的,术业有专攻。

o****o
发帖数: 8077
22
我只是个人兴趣驱使。我不敢说我见过最多类型的商业问题,不过我肯定比大部分人见
过的,搞过的多,现在想深入点搞。高考没搞计算机,去了财经类;折腾半天还是想圆
个码农梦。

【在 D******n 的大作中提到】
: oloolo专攻的已经跟大部分在银行和药厂的人不一样的。跟像是engineering,考虑到
: 怎么大规模部署和优化的问题。
: 我也觉得从传统统计工业跳到IT很难,就跟之前版上有人说统计很多问题不是
: engineering的问题(当然我是不同意的)。
: 传统统计工业的mind set就是局部或者protoyping, 真正的implementation,或者就
: 是prototyping时的效率根本不考虑。

l******t
发帖数: 96
23
这种情况下accuracy没有意义吧
都用precision, recall, auc来评价好坏了吧

【在 c***z 的大作中提到】
: 举个栗子
: 一群高超的工程师做了一个fraud model,accuracy高达99.99%,而且real time,
: scalable
: 但是他们的model数学上等同于预测there is no fraud
: 这时咱们统计学家的价值就体现出来了

m****v
发帖数: 780
24
你真以为eecs搞ML的人那么傻?

【在 c***z 的大作中提到】
: 举个栗子
: 一群高超的工程师做了一个fraud model,accuracy高达99.99%,而且real time,
: scalable
: 但是他们的model数学上等同于预测there is no fraud
: 这时咱们统计学家的价值就体现出来了

m****v
发帖数: 780
25
ranking的话auc用得多

【在 l******t 的大作中提到】
: 这种情况下accuracy没有意义吧
: 都用precision, recall, auc来评价好坏了吧

c***z
发帖数: 6348
26
大牛也觉得应该先广后深是吧
有趣的是我本科学的计算机,后来读图论的博士,稍微涉及过并行计算
最后工作却是偏统计的

【在 o****o 的大作中提到】
: 我只是个人兴趣驱使。我不敢说我见过最多类型的商业问题,不过我肯定比大部分人见
: 过的,搞过的多,现在想深入点搞。高考没搞计算机,去了财经类;折腾半天还是想圆
: 个码农梦。

c***z
发帖数: 6348
27
我真遇到过
还有AB test不知道置信区间的

【在 m****v 的大作中提到】
: 你真以为eecs搞ML的人那么傻?
o****o
发帖数: 8077
28
这个看个人,大部分都是先广后深,就跟读研究生到博士一样。
不过在这个行业,随时都需要学习,工作需要啥就学啥。

【在 c***z 的大作中提到】
: 大牛也觉得应该先广后深是吧
: 有趣的是我本科学的计算机,后来读图论的博士,稍微涉及过并行计算
: 最后工作却是偏统计的

C*********e
发帖数: 587
29
the number of CS/EE ML engineers don't know this, is much smaller than Stat
ppl don't how to do the solid implementation ...

【在 c***z 的大作中提到】
: 我真遇到过
: 还有AB test不知道置信区间的

C*********e
发帖数: 587
30
exactly, in IT/internet firms, engineering department is directly linked
with business/sales division
for example, if there are some clients requirements, sales ppl will ask
engineers & PM directly, sometimes they will have a meeting together

【在 o****o 的大作中提到】
: 同意,对于大部分人遇到的情况,现有的库够用了,几十个GB的数据建模没问题的
: 不过对于TB级别的情况还是公司自己弄得
: 另外这个不是reinvent wheel,是真正的invention。虽然可能数学模型差不多,由于
: 规模的问题,就必须用新的算法,或者对原来的算法裁剪。就好像在统计里一般求
: logistic回归,你用IRLS就好了,但是对于超大规模的也许就要用SGD,或者还有更多
: 需要tune的部分自己分析设计
: 至于对于业务模式的理解,其实在IT公司,工程部门相对跟的更紧,并没有说不理解的
: 问题。在实施这些算法的时候其实都要跟业务部门沟通,并不是自己关起门来搞,那是
: junior干活的。
: chaoz说的我觉得对统计背景的比较适合,毕竟不是吃写代码这碗饭的,术业有专攻。

相关主题
[合集] 现在统计已经变成哪个stat test是比较两组之间是否有明显不同的?
[合集] 这种情况是不是只能用macro?新人来报道, 顺便请大家给点意见
请教 stat phd,finance phd说说统计专业Master找工作的问题
进入Statistics版参与讨论
C*********e
发帖数: 587
31
... this is your illusion, for big internet/IT firms (Google, Facebook,
Microsoft, etc),
(1) deep learning: this is research or the combination of research and
engineering (in Google, deep learning project is managed by distinguished
engineer and senior fellow Jeff Dean)
(2) real time bidding & ads targeting & ads optimization & personal
recommendation: all of these are engineering driven (sometimes there are
data analyst involved, sometimes not)

【在 c***z 的大作中提到】
: 看发展方向
: 研究类 - e.g. deep learning
: 工程类 - e.g. real time bidding
: 商业类 - e.g. ads targeting
: 都可以拿到很高,但是难度不同啊,商业应用明显最容易

m****v
发帖数: 780
32
那这个人根本不是搞ml的
我还见过ee的phd去统计做prof的呢:
http://sites.stat.psu.edu/~jiali/

【在 c***z 的大作中提到】
: 我真遇到过
: 还有AB test不知道置信区间的

f********g
发帖数: 157
33
面试官说得不错。

【在 o****o 的大作中提到】
: 谈了半天,其实主要是考察大规模高性能机器学习的实际经验。比如说每天上亿用户上
: 传照片,实时标定照片的内容meta data,如何对每个用户的数据实时学习更新。
: 工程上的实施难点是考察重点,至于基础理论和算法,那个人说了,大部分都懂,但是
: 最关键的是实施经验,这个一问就知道搞没搞过。你天天用package就肯定不行,自己
: code过那些算法应该能应付一些这些问题,特别是性能方面,虽然工程上的很多细节没
: 搞过还是不知道,不过能给出大概方向。

o****o
发帖数: 8077
34
这人的背景那么强
EE的数学很难的,搞定STAT的部分问题不大

【在 m****v 的大作中提到】
: 那这个人根本不是搞ml的
: 我还见过ee的phd去统计做prof的呢:
: http://sites.stat.psu.edu/~jiali/

l******t
发帖数: 96
35
stat的数学要难起来也能很难的...

【在 o****o 的大作中提到】
: 这人的背景那么强
: EE的数学很难的,搞定STAT的部分问题不大

A*******s
发帖数: 3942
36
true... but it is becoz of different priors--CS/EE graduates outnumber Stat
graduates probably over 100 times...

Stat

【在 C*********e 的大作中提到】
: the number of CS/EE ML engineers don't know this, is much smaller than Stat
: ppl don't how to do the solid implementation ...

o****o
发帖数: 8077
37
我不否认这点,不过你要说难到EE的完全搞不了我觉得还不大可能
其实很多搞得好的学者都是跨学科的,没有必要分的那么清楚。

【在 l******t 的大作中提到】
: stat的数学要难起来也能很难的...
C*********e
发帖数: 587
38
I mean CS/EE ML engineers (not graduates), read my post again ...
even come to CS/EE graduates, not sure 100 times, at least not for PhD level
graduates

Stat

【在 A*******s 的大作中提到】
: true... but it is becoz of different priors--CS/EE graduates outnumber Stat
: graduates probably over 100 times...
:
: Stat

h***i
发帖数: 3844
39
嗯,这个是业内人士。

【在 C*********e 的大作中提到】
: ... this is your illusion, for big internet/IT firms (Google, Facebook,
: Microsoft, etc),
: (1) deep learning: this is research or the combination of research and
: engineering (in Google, deep learning project is managed by distinguished
: engineer and senior fellow Jeff Dean)
: (2) real time bidding & ads targeting & ads optimization & personal
: recommendation: all of these are engineering driven (sometimes there are
: data analyst involved, sometimes not)

D******n
发帖数: 2836
40
100 times is conservative.
Lots of stat ppl cant even write efficient code (most of time just patchwork
) save for any intend for solid implementation.

level

【在 C*********e 的大作中提到】
: I mean CS/EE ML engineers (not graduates), read my post again ...
: even come to CS/EE graduates, not sure 100 times, at least not for PhD level
: graduates
:
: Stat

相关主题
说说统计专业Master找工作的问题现在读统计cs还有多大希望两年后找到工作?
Looking for Stat/Econ fresh graduates (转载)Stat (SAS programmers, statisticians) Job Information
how about job market for statistics Ph.D? (转载)今天早上google 统计面试的几个问题,新鲜热乎的
进入Statistics版参与讨论
w********e
发帖数: 944
41
oloolo大侠, 我记得你是保险公司做模型的. 你是怎么跳到IT公司去的?能介绍一下经
验么?
谢谢啦!
c***z
发帖数: 6348
42
受教了
我没有能够拿到IT公司核心组的面试,只面过product analytics组的
其他面试主要都是marketing/ads公司的,所以经验有点偏颇

【在 C*********e 的大作中提到】
: ... this is your illusion, for big internet/IT firms (Google, Facebook,
: Microsoft, etc),
: (1) deep learning: this is research or the combination of research and
: engineering (in Google, deep learning project is managed by distinguished
: engineer and senior fellow Jeff Dean)
: (2) real time bidding & ads targeting & ads optimization & personal
: recommendation: all of these are engineering driven (sometimes there are
: data analyst involved, sometimes not)

m****v
发帖数: 780
43
对于IT公司来说,数据量大而且实时,大数据量machine learning的问题以前已经在解
决,最近在解决的问题变成了如何处理实时的大数据量machine learning的问题,已经
部分解决的。Vowpal Wabbit 和 spark 算是这方面的努力。当然这是解决training的
速度问题。解决testing的速度问题目前还没太有人重视。我曾经利用search engine的
算法把一个传统的模型testing的速度提高了10倍,给CS的会议投稿,但这帮学术界的
评委只关系公式,对于效率的提高没有兴趣。这是工业界和学术界的差别。但是real
time biding一共最多就几百毫秒,qps经常是million级别的,不提高速度很多模型根
本没法用。training也得快,distribution随时在变,model变慢了,预测就差了,rtb
自然就赚不到钱了。所以模型系统的准确率和效率都非常重要。效率达不到,准确率就
没用了,或者会下降。

【在 c***z 的大作中提到】
: 受教了
: 我没有能够拿到IT公司核心组的面试,只面过product analytics组的
: 其他面试主要都是marketing/ads公司的,所以经验有点偏颇

1 (共1页)
进入Statistics版参与讨论
相关主题
[合集] 俺要去Google面试了,请给些建议!Looking for Stat/Econ fresh graduates (转载)
[合集] 请教Risk Analyst的职业发展how about job market for statistics Ph.D? (转载)
[合集] 现在统计已经变成现在读统计cs还有多大希望两年后找到工作?
[合集] 这种情况是不是只能用macro?Stat (SAS programmers, statisticians) Job Information
请教 stat phd,finance phd今天早上google 统计面试的几个问题,新鲜热乎的
哪个stat test是比较两组之间是否有明显不同的?logistic regression用LASSO选择变量合适吗?
新人来报道, 顺便请大家给点意见Job opening
说说统计专业Master找工作的问题关于统计和CS的询问,请大家发表点意见,谢谢!
相关话题的讨论汇总
话题: stat话题: ee话题: cs话题: 算法话题: 问题