分享两个data scientist职位的面经 - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 分享两个data scientist职位的面经

相关主题
● 攒人品，求bless~ 新鲜面经 - Machine Learning Engineer	● 推荐个英文网站Date Science Central
● 想转行Data Science，求建议	● 下周面A和L的data scientist and data engineer. 有没有面经？一般问些啥？
● 可能有用的一些经验，也可能误导 (转载)	● [挖个坑]数据分析都有哪些开源工具呀？
● 发个狗家QA面经，已跪	● 征集版标
● 发个面经吧[Data Scientist]	● 求教! how to run python programs on a hadoop cluster
● 问一道面试题	● 杂七杂八的一些面经 (转载)
● irregular time series	● 我不会编程
● p value被摈弃了？如何算confidence interval之类的东西？	● 哪些公司在用大数据? Big Data?

相关话题的讨论汇总
话题: youtube话题: data话题: netflix话题: hadoop

进入DataSciences版参与讨论

(共1页)

M*Q
发帖数: 54

最近面了两个data scientist的职位，title虽然是data scientist，
但是从感觉上面来说很像是data analyst，分别是Netflix和YouTube。我个人是应用数
学的，做一些运筹优化和learning的东西。
第一轮都是和recruiter谈一谈，Netflix比较强调他们的culture，特别
嘱咐了要看他们的slides，聊的过程中也提到了很多这方面的内容。Youtube
相对随意的多，主要就是讲讲简历上面的东西。
第二轮，netflix问了会不会hadoop, hive，是否熟悉hadoop streaming interface，
我个人了解一些，但是在学校用的这个机会没有，所以就没追问下去。再就是问了
一些python和R，平时用哪个，为什么用这个不用那个。另外的问题实质上就是假设
检验方面的东西，熟悉常用的test就可以了。
youtube的第二轮上来问你有什么analysis的经验，我就讲了个project，问了很多
project里面的细节。后来问了一个问题，假设engineer有1000个同样的硬件，6个月之
后一个也没有坏，问这个reliability如何，我不知道怎么回答，说了一些东西。第二
个问题，就是linear regression，什么是linear regression，举个例子，怎么估计
参数，估计完了参数干什么。
两个都已经挂掉了，发在版上，有人申请同样职位的话可以借鉴一下。

c***z
发帖数: 6348

For the youtube one, this might help
http://statweb.stanford.edu/~serban/116/bayes.pdf
thanks a lot for sharing!

【在 M*Q 的大作中提到】

: 最近面了两个data scientist的职位，title虽然是data scientist，
: 但是从感觉上面来说很像是data analyst，分别是Netflix和YouTube。我个人是应用数
: 学的，做一些运筹优化和learning的东西。
: 第一轮都是和recruiter谈一谈，Netflix比较强调他们的culture，特别
: 嘱咐了要看他们的slides，聊的过程中也提到了很多这方面的内容。Youtube
: 相对随意的多，主要就是讲讲简历上面的东西。
: 第二轮，netflix问了会不会hadoop, hive，是否熟悉hadoop streaming interface，
: 我个人了解一些，但是在学校用的这个机会没有，所以就没追问下去。再就是问了
: 一些python和R，平时用哪个，为什么用这个不用那个。另外的问题实质上就是假设
: 检验方面的东西，熟悉常用的test就可以了。

M*Q
发帖数: 54

我其实没有明白这个问题从哪个角度入手。选择用Bayes的原因是？

【在 c***z 的大作中提到】

: For the youtube one, this might help
: http://statweb.stanford.edu/~serban/116/bayes.pdf
: thanks a lot for sharing!

b********y
发帖数: 559

netflix挂掉的原因是什么呢？感觉没问什么啊

h********3
发帖数: 2075

netflix在问hadoop相关的时候，基本上就已经拒掉楼主了。这些互联网公司，如果不
会manipulate data的话，基本上是干不了实际的活的。一般都倾向于选一个modeling
比较弱，但是能manipulate big data的人。
至于youtube那个，楼上提供的bayes的beta distribution只是一个naive的solution，
6个月这个时间信息没有用起来。要入Google大牛的法眼估计还不够。楼主可以去看看
专门关于life time, Reliability theory/Engineering。在自动化工程领域，有专门
一派的学科在研究这种问题。
非专业的人，简单看看exponential distribution和weibull就行了。
http://en.wikipedia.org/wiki/Exponential_distribution
http://en.wikipedia.org/wiki/Weibull_distribution

c********h
发帖数: 330

谢谢分享！
那个reliability的是什么意思呀？
感觉这种寿命的是不是假设exp dist？可以算出一个都没坏的概率，大概是个exp(-n*
lambda*t)，然后说明lambda很大？还是啥意思？

h********3
发帖数: 2075

lambda很大说明exp dist很陡，说明这玩意儿出现第一次failure这个事件的arrival
time会比较小，就是不太reliable。不过考虑failure的话，很多论文用weibull模型。

【在 c********h 的大作中提到】

: 谢谢分享！
: 那个reliability的是什么意思呀？
: 感觉这种寿命的是不是假设exp dist？可以算出一个都没坏的概率，大概是个exp(-n*
: lambda*t)，然后说明lambda很大？还是啥意思？

j*******g
发帖数: 331

这个应该是survival analysis, 楼上说的韦伯还有exponential都很常见，看看
queuing theory应该有帮助。

j*******g
发帖数: 331

统计里面搞这个的一般是生统的人，希望有大牛讲解一下

M*Q
发帖数: 54

netflix可能是这种情况吧，面试的时候一直跟我说我们不做model和algorithm，主要
是的工作就是处理数据，寻找insights，找些有用的feature，反复强调这个。
youtube的这个，从bayesian的角度入手原因是什么呢？我确实想过life time和
survival之类的东西，面试也提到了。另外只有六个月这一个信息应该怎么用呢？如果
是多个月的信息，我觉得会容易考虑些。基本上这个题也就把我挂了，后面问的实在是
太简单了，让我讲最小二乘。。。

modeling

【在 h********3 的大作中提到】

: netflix在问hadoop相关的时候，基本上就已经拒掉楼主了。这些互联网公司，如果不
: 会manipulate data的话，基本上是干不了实际的活的。一般都倾向于选一个modeling
: 比较弱，但是能manipulate big data的人。
: 至于youtube那个，楼上提供的bayes的beta distribution只是一个naive的solution，
: 6个月这个时间信息没有用起来。要入Google大牛的法眼估计还不够。楼主可以去看看
: 专门关于life time, Reliability theory/Engineering。在自动化工程领域，有专门
: 一派的学科在研究这种问题。
: 非专业的人，简单看看exponential distribution和weibull就行了。
: http://en.wikipedia.org/wiki/Exponential_distribution
: http://en.wikipedia.org/wiki/Weibull_distribution

相关主题
● 问一道面试题	● 推荐个英文网站Date Science Central
● irregular time series	● 下周面A和L的data scientist and data engineer. 有没有面经？一般问些啥？
● p value被摈弃了？如何算confidence interval之类的东西？	● [挖个坑]数据分析都有哪些开源工具呀？
进入DataSciences版参与讨论

S******y
发帖数: 1123

my python/hadoop class covers hadoop streaming in python
statsguy
m*********[email protected]
实战速成Python/R/Hadoop课程-
http://plus.google.com/+statsGuyMITBBS/about

【在 M*Q 的大作中提到】

: netflix可能是这种情况吧，面试的时候一直跟我说我们不做model和algorithm，主要
: 是的工作就是处理数据，寻找insights，找些有用的feature，反复强调这个。
: youtube的这个，从bayesian的角度入手原因是什么呢？我确实想过life time和
: survival之类的东西，面试也提到了。另外只有六个月这一个信息应该怎么用呢？如果
: 是多个月的信息，我觉得会容易考虑些。基本上这个题也就把我挂了，后面问的实在是
: 太简单了，让我讲最小二乘。。。
:
: modeling

T*****u
发帖数: 7103

那个reliability的东西，weibull distribution说不定可用

c********h
发帖数: 330

赞，这个没搞过reliability的，碰见这题肯定挂了，原来youtube好这口，学习学习

modeling

【在 h********3 的大作中提到】

f********e
发帖数: 1365

thanks for sharing,mark

【在 M*Q 的大作中提到】

x********e
发帖数: 241

thanks for sharing,我也是学统计的,学校里的东西都忘得差不多了,现在想找工作,准
备开始好好复习.

y******g
发帖数: 171

说下我的看法，那个reliability，假设 failure rate/6 months 是P，按Binomial算
算failure的概率，然后再算CI，能cover 0就可以了。这样得到的P可以用来衡量
reliability。
能按binomial，就也能转化为normal，加上error correction就好。最基本的统计课就
包好这种方法了吧。
如果时间足够长，观察到足够数量的failure，用cox model就好了。当然，
exponential model也行。

a****0
发帖数: 51

Survival analysis?

w*****a
发帖数: 218

听说 NEXFLIX 是这边 PAY 得很高但随时赶人的公司，文化极其恶劣（其次是 EBAY）
虽然TITLE 是 DATA SCIENTIST 但感觉不太像
凡是拿 CODING 当大学问的地方，大概都不会有什么 DATA SCIENCE
因为那东西对玩数据且稍微有点 CODING 基础的人来说，
最多也就是两个星期到一个月的事情
至于 YOUTUBE，感觉问的问题有点旁门左道
找工作很大程度上都是碰运气
不成也没啥大不了的
说不定过两天找到更好的地方

【在 M*Q 的大作中提到】

r******n
发帖数: 351

这道题跟relaibility关系不太大，主要看对hypothesis testing 或者 confidence
interval 的基本定义的理解。因为概率很低，所以不能近似成正态或者t分布，要用
exact CI 或者 exact hypothesis test.
http://stat.ethz.ch/R-manual/R-patched/library/stats/html/binom

【在 y******g 的大作中提到】

: 说下我的看法，那个reliability，假设 failure rate/6 months 是P，按Binomial算
: 算failure的概率，然后再算CI，能cover 0就可以了。这样得到的P可以用来衡量
: reliability。
: 能按binomial，就也能转化为normal，加上error correction就好。最基本的统计课就
: 包好这种方法了吧。
: 如果时间足够长，观察到足够数量的failure，用cox model就好了。当然，
: exponential model也行。

k*z
发帖数: 4704

其实所有跟coding和统计挂钩的东西都是半年培训的问题，结果只是有没有时间培训你
，你学完以后做的东西漂亮不漂亮。

相关主题
● 征集版标	● 我不会编程
● 求教! how to run python programs on a hadoop cluster	● 哪些公司在用大数据? Big Data?
● 杂七杂八的一些面经 (转载)	● 妹纸物理phd转data science求建议
进入DataSciences版参与讨论

y******g
发帖数: 171

p 小不代表着不能近似成normal，你应该看看概率入门。何时binomial可以近似成
normal，虽然没有严格的理论证明，但是还是有个公认的标准。这个sample size不小
，还是可以的。另外这里只计算最大可能的P值，就更增加了能近似成normal的可能性。

【在 r******n 的大作中提到】

: 这道题跟relaibility关系不太大，主要看对hypothesis testing 或者 confidence
: interval 的基本定义的理解。因为概率很低，所以不能近似成正态或者t分布，要用
: exact CI 或者 exact hypothesis test.
: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/binom

r******n
发帖数: 351

非常感谢你的提醒。这是从wiki里摘的一段话：
http://en.wikipedia.org/wiki/Binomial_proportion_confidence_int
The central limit theorem applies poorly to this distribution with a sample
size less than 30 or where the proportion is close to 0 or 1. The normal
approximation fails totally when the sample proportion is exactly zero or
exactly one.
这里就是 sample proportion is exactly zero 的情况。可以用exact或着wilson,
但是不能直接用Asymptotic normal。我猜这是面试官想考察的内容。不知道如果用
normal近似的话怎么计算。

性。

【在 y******g 的大作中提到】

: p 小不代表着不能近似成normal，你应该看看概率入门。何时binomial可以近似成
: normal，虽然没有严格的理论证明，但是还是有个公认的标准。这个sample size不小
: ，还是可以的。另外这里只计算最大可能的P值，就更增加了能近似成normal的可能性。

X******2
发帖数: 5859

这个说法比较靠谱。
就是对一系列gamma(单个零件6个月出故障概率)做假设检验，
根据所得p value,得出在若干显著水平下，gamma的范围。

【在 r******n 的大作中提到】

(共1页)

进入DataSciences版参与讨论

相关主题
● 哪些公司在用大数据? Big Data?	● 发个面经吧[Data Scientist]
● 妹纸物理phd转data science求建议	● 问一道面试题
● 本周去了 O'Reilly的 Strata Data Conference	● irregular time series
● 求资料Revolution Analytics 的 Using R with Hadoop 培训	● p value被摈弃了？如何算confidence interval之类的东西？
● 攒人品，求bless~ 新鲜面经 - Machine Learning Engineer	● 推荐个英文网站Date Science Central
● 想转行Data Science，求建议	● 下周面A和L的data scientist and data engineer. 有没有面经？一般问些啥？
● 可能有用的一些经验，也可能误导 (转载)	● [挖个坑]数据分析都有哪些开源工具呀？
● 发个狗家QA面经，已跪	● 征集版标

相关话题的讨论汇总
话题: youtube话题: data话题: netflix话题: hadoop

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天