由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 分享两个data scientist职位的面经
相关主题
攒人品,求bless~ 新鲜面经 - Machine Learning Engineer推荐个英文网站Date Science Central
想转行Data Science, 求建议下周面A和L的data scientist and data engineer. 有没有面经?一般问些啥?
可能有用的一些经验,也可能误导 (转载)[挖个坑]数据分析都有哪些开源工具呀?
发个狗家QA面经,已跪征集版标
发个面经吧[Data Scientist]求教! how to run python programs on a hadoop cluster
问一道面试题杂七杂八的一些面经 (转载)
irregular time series我不会编程
p value被摈弃了?如何算confidence interval之类的东西?哪些公司在用大数据? Big Data?
相关话题的讨论汇总
话题: youtube话题: data话题: netflix话题: hadoop
进入DataSciences版参与讨论
1 (共1页)
M*Q
发帖数: 54
1
最近面了两个data scientist的职位,title虽然是data scientist,
但是从感觉上面来说很像是data analyst,分别是Netflix和YouTube。我个人是应用数
学的,做一些运筹优化和learning的东西。
第一轮都是和recruiter谈一谈,Netflix比较强调他们的culture,特别
嘱咐了要看他们的slides,聊的过程中也提到了很多这方面的内容。Youtube
相对随意的多,主要就是讲讲简历上面的东西。
第二轮,netflix问了会不会hadoop, hive,是否熟悉hadoop streaming interface,
我个人了解一些,但是在学校用的这个机会没有,所以就没追问下去。再就是问了
一些python和R,平时用哪个,为什么用这个不用那个。另外的问题实质上就是假设
检验方面的东西,熟悉常用的test就可以了。
youtube的第二轮上来问你有什么analysis的经验,我就讲了个project,问了很多
project里面的细节。后来问了一个问题,假设engineer有1000个同样的硬件,6个月之
后一个也没有坏,问这个reliability如何,我不知道怎么回答,说了一些东西。第二
个问题,就是linear regression, 什么是linear regression,举个例子, 怎么估计
参数,估计完了参数干什么。
两个都已经挂掉了,发在版上,有人申请同样职位的话可以借鉴一下。
c***z
发帖数: 6348
2
For the youtube one, this might help
http://statweb.stanford.edu/~serban/116/bayes.pdf
thanks a lot for sharing!

【在 M*Q 的大作中提到】
: 最近面了两个data scientist的职位,title虽然是data scientist,
: 但是从感觉上面来说很像是data analyst,分别是Netflix和YouTube。我个人是应用数
: 学的,做一些运筹优化和learning的东西。
: 第一轮都是和recruiter谈一谈,Netflix比较强调他们的culture,特别
: 嘱咐了要看他们的slides,聊的过程中也提到了很多这方面的内容。Youtube
: 相对随意的多,主要就是讲讲简历上面的东西。
: 第二轮,netflix问了会不会hadoop, hive,是否熟悉hadoop streaming interface,
: 我个人了解一些,但是在学校用的这个机会没有,所以就没追问下去。再就是问了
: 一些python和R,平时用哪个,为什么用这个不用那个。另外的问题实质上就是假设
: 检验方面的东西,熟悉常用的test就可以了。

M*Q
发帖数: 54
3
我其实没有明白这个问题从哪个角度入手。选择用Bayes的原因是?

【在 c***z 的大作中提到】
: For the youtube one, this might help
: http://statweb.stanford.edu/~serban/116/bayes.pdf
: thanks a lot for sharing!

b********y
发帖数: 559
4
netflix挂掉的原因是什么呢?感觉没问什么啊
h********3
发帖数: 2075
5
netflix在问hadoop相关的时候,基本上就已经拒掉楼主了。这些互联网公司,如果不
会manipulate data的话,基本上是干不了实际的活的。一般都倾向于选一个modeling
比较弱,但是能manipulate big data的人。
至于youtube那个,楼上提供的bayes的beta distribution只是一个naive的solution,
6个月这个时间信息没有用起来。要入Google大牛的法眼估计还不够。楼主可以去看看
专门关于life time, Reliability theory/Engineering。在自动化工程领域,有专门
一派的学科在研究这种问题。
非专业的人,简单看看exponential distribution和weibull就行了。
http://en.wikipedia.org/wiki/Exponential_distribution
http://en.wikipedia.org/wiki/Weibull_distribution
c********h
发帖数: 330
6
谢谢分享!
那个reliability的是什么意思呀?
感觉这种寿命的是不是假设exp dist?可以算出一个都没坏的概率,大概是个exp(-n*
lambda*t),然后说明lambda很大?还是啥意思?
h********3
发帖数: 2075
7
lambda很大说明exp dist很陡,说明这玩意儿出现第一次failure这个事件的arrival
time会比较小,就是不太reliable。不过考虑failure的话,很多论文用weibull模型。

【在 c********h 的大作中提到】
: 谢谢分享!
: 那个reliability的是什么意思呀?
: 感觉这种寿命的是不是假设exp dist?可以算出一个都没坏的概率,大概是个exp(-n*
: lambda*t),然后说明lambda很大?还是啥意思?

j*******g
发帖数: 331
8
这个应该是survival analysis, 楼上说的韦伯还有exponential都很常见,看看
queuing theory应该有帮助。
j*******g
发帖数: 331
9
统计里面搞这个的一般是生统的人,希望有大牛讲解一下
M*Q
发帖数: 54
10
netflix可能是这种情况吧,面试的时候一直跟我说我们不做model和algorithm,主要
是的工作就是处理数据,寻找insights,找些有用的feature,反复强调这个。
youtube的这个,从bayesian的角度入手原因是什么呢?我确实想过life time和
survival之类的东西,面试也提到了。另外只有六个月这一个信息应该怎么用呢?如果
是多个月的信息,我觉得会容易考虑些。基本上这个题也就把我挂了,后面问的实在是
太简单了,让我讲最小二乘。。。

modeling

【在 h********3 的大作中提到】
: netflix在问hadoop相关的时候,基本上就已经拒掉楼主了。这些互联网公司,如果不
: 会manipulate data的话,基本上是干不了实际的活的。一般都倾向于选一个modeling
: 比较弱,但是能manipulate big data的人。
: 至于youtube那个,楼上提供的bayes的beta distribution只是一个naive的solution,
: 6个月这个时间信息没有用起来。要入Google大牛的法眼估计还不够。楼主可以去看看
: 专门关于life time, Reliability theory/Engineering。在自动化工程领域,有专门
: 一派的学科在研究这种问题。
: 非专业的人,简单看看exponential distribution和weibull就行了。
: http://en.wikipedia.org/wiki/Exponential_distribution
: http://en.wikipedia.org/wiki/Weibull_distribution

相关主题
问一道面试题推荐个英文网站Date Science Central
irregular time series下周面A和L的data scientist and data engineer. 有没有面经?一般问些啥?
p value被摈弃了?如何算confidence interval之类的东西?[挖个坑]数据分析都有哪些开源工具呀?
进入DataSciences版参与讨论
S******y
发帖数: 1123
11
my python/hadoop class covers hadoop streaming in python
statsguy
m*********[email protected]
实战速成Python/R/Hadoop课程-
http://plus.google.com/+statsGuyMITBBS/about

【在 M*Q 的大作中提到】
: netflix可能是这种情况吧,面试的时候一直跟我说我们不做model和algorithm,主要
: 是的工作就是处理数据,寻找insights,找些有用的feature,反复强调这个。
: youtube的这个,从bayesian的角度入手原因是什么呢?我确实想过life time和
: survival之类的东西,面试也提到了。另外只有六个月这一个信息应该怎么用呢?如果
: 是多个月的信息,我觉得会容易考虑些。基本上这个题也就把我挂了,后面问的实在是
: 太简单了,让我讲最小二乘。。。
:
: modeling

T*****u
发帖数: 7103
12
那个reliability的东西,weibull distribution说不定可用
c********h
发帖数: 330
13
赞,这个没搞过reliability的,碰见这题肯定挂了,原来youtube好这口,学习学习

modeling

【在 h********3 的大作中提到】
: netflix在问hadoop相关的时候,基本上就已经拒掉楼主了。这些互联网公司,如果不
: 会manipulate data的话,基本上是干不了实际的活的。一般都倾向于选一个modeling
: 比较弱,但是能manipulate big data的人。
: 至于youtube那个,楼上提供的bayes的beta distribution只是一个naive的solution,
: 6个月这个时间信息没有用起来。要入Google大牛的法眼估计还不够。楼主可以去看看
: 专门关于life time, Reliability theory/Engineering。在自动化工程领域,有专门
: 一派的学科在研究这种问题。
: 非专业的人,简单看看exponential distribution和weibull就行了。
: http://en.wikipedia.org/wiki/Exponential_distribution
: http://en.wikipedia.org/wiki/Weibull_distribution

f********e
发帖数: 1365
14
thanks for sharing,mark

【在 M*Q 的大作中提到】
: 最近面了两个data scientist的职位,title虽然是data scientist,
: 但是从感觉上面来说很像是data analyst,分别是Netflix和YouTube。我个人是应用数
: 学的,做一些运筹优化和learning的东西。
: 第一轮都是和recruiter谈一谈,Netflix比较强调他们的culture,特别
: 嘱咐了要看他们的slides,聊的过程中也提到了很多这方面的内容。Youtube
: 相对随意的多,主要就是讲讲简历上面的东西。
: 第二轮,netflix问了会不会hadoop, hive,是否熟悉hadoop streaming interface,
: 我个人了解一些,但是在学校用的这个机会没有,所以就没追问下去。再就是问了
: 一些python和R,平时用哪个,为什么用这个不用那个。另外的问题实质上就是假设
: 检验方面的东西,熟悉常用的test就可以了。

x********e
发帖数: 241
15
thanks for sharing,我也是学统计的,学校里的东西都忘得差不多了,现在想找工作,准
备开始好好复习.
y******g
发帖数: 171
16
说下我的看法,那个reliability,假设 failure rate/6 months 是P,按Binomial算
算failure的概率,然后再算CI,能cover 0就可以了。这样得到的P可以用来衡量
reliability。
能按binomial,就也能转化为normal,加上error correction就好。最基本的统计课就
包好这种方法了吧。
如果时间足够长,观察到足够数量的failure,用cox model就好了。当然,
exponential model也行。
a****0
发帖数: 51
17
Survival analysis?
w*****a
发帖数: 218
18
听说 NEXFLIX 是这边 PAY 得很高但随时赶人的公司,文化极其恶劣 (其次是 EBAY)
虽然TITLE 是 DATA SCIENTIST 但感觉不太像
凡是拿 CODING 当大学问的地方,大概都不会有什么 DATA SCIENCE
因为那东西对玩数据且稍微有点 CODING 基础的人来说,
最多也就是两个星期到一个月的事情
至于 YOUTUBE, 感觉问的问题有点旁门左道
找工作很大程度上都是碰运气
不成也没啥大不了的
说不定过两天找到更好的地方

【在 M*Q 的大作中提到】
: 最近面了两个data scientist的职位,title虽然是data scientist,
: 但是从感觉上面来说很像是data analyst,分别是Netflix和YouTube。我个人是应用数
: 学的,做一些运筹优化和learning的东西。
: 第一轮都是和recruiter谈一谈,Netflix比较强调他们的culture,特别
: 嘱咐了要看他们的slides,聊的过程中也提到了很多这方面的内容。Youtube
: 相对随意的多,主要就是讲讲简历上面的东西。
: 第二轮,netflix问了会不会hadoop, hive,是否熟悉hadoop streaming interface,
: 我个人了解一些,但是在学校用的这个机会没有,所以就没追问下去。再就是问了
: 一些python和R,平时用哪个,为什么用这个不用那个。另外的问题实质上就是假设
: 检验方面的东西,熟悉常用的test就可以了。

r******n
发帖数: 351
19
这道题跟relaibility关系不太大,主要看对hypothesis testing 或者 confidence
interval 的基本定义的理解。因为概率很低,所以不能近似成正态或者t分布,要用
exact CI 或者 exact hypothesis test.
http://stat.ethz.ch/R-manual/R-patched/library/stats/html/binom

【在 y******g 的大作中提到】
: 说下我的看法,那个reliability,假设 failure rate/6 months 是P,按Binomial算
: 算failure的概率,然后再算CI,能cover 0就可以了。这样得到的P可以用来衡量
: reliability。
: 能按binomial,就也能转化为normal,加上error correction就好。最基本的统计课就
: 包好这种方法了吧。
: 如果时间足够长,观察到足够数量的failure,用cox model就好了。当然,
: exponential model也行。

k*z
发帖数: 4704
20
其实所有跟coding和统计挂钩的东西都是半年培训的问题,结果只是有没有时间培训你
,你学完以后做的东西漂亮不漂亮。
相关主题
征集版标我不会编程
求教! how to run python programs on a hadoop cluster哪些公司在用大数据? Big Data?
杂七杂八的一些面经 (转载)妹纸物理phd转data science求建议
进入DataSciences版参与讨论
y******g
发帖数: 171
21
p 小不代表着不能近似成normal,你应该看看概率入门。何时binomial可以近似成
normal,虽然没有严格的理论证明,但是还是有个公认的标准。这个sample size不小
,还是可以的。另外这里只计算最大可能的P值,就更增加了能近似成normal的可能性。

【在 r******n 的大作中提到】
: 这道题跟relaibility关系不太大,主要看对hypothesis testing 或者 confidence
: interval 的基本定义的理解。因为概率很低,所以不能近似成正态或者t分布,要用
: exact CI 或者 exact hypothesis test.
: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/binom

r******n
发帖数: 351
22
非常感谢你的提醒。这是从wiki里摘的一段话:
http://en.wikipedia.org/wiki/Binomial_proportion_confidence_int
The central limit theorem applies poorly to this distribution with a sample
size less than 30 or where the proportion is close to 0 or 1. The normal
approximation fails totally when the sample proportion is exactly zero or
exactly one.
这里就是 sample proportion is exactly zero 的情况。 可以用exact或着wilson,
但是不能直接用Asymptotic normal。 我猜这是面试官想考察的内容。不知道如果用
normal近似的话怎么计算。

性。

【在 y******g 的大作中提到】
: p 小不代表着不能近似成normal,你应该看看概率入门。何时binomial可以近似成
: normal,虽然没有严格的理论证明,但是还是有个公认的标准。这个sample size不小
: ,还是可以的。另外这里只计算最大可能的P值,就更增加了能近似成normal的可能性。

X******2
发帖数: 5859
23
这个说法比较靠谱。
就是对一系列gamma(单个零件6个月出故障概率)做假设检验,
根据所得p value,得出在若干显著水平下,gamma的范围。

【在 r******n 的大作中提到】
: 这道题跟relaibility关系不太大,主要看对hypothesis testing 或者 confidence
: interval 的基本定义的理解。因为概率很低,所以不能近似成正态或者t分布,要用
: exact CI 或者 exact hypothesis test.
: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/binom

1 (共1页)
进入DataSciences版参与讨论
相关主题
哪些公司在用大数据? Big Data?发个面经吧[Data Scientist]
妹纸物理phd转data science求建议问一道面试题
本周去了 O'Reilly的 Strata Data Conferenceirregular time series
求资料Revolution Analytics 的 Using R with Hadoop 培训p value被摈弃了?如何算confidence interval之类的东西?
攒人品,求bless~ 新鲜面经 - Machine Learning Engineer推荐个英文网站Date Science Central
想转行Data Science, 求建议下周面A和L的data scientist and data engineer. 有没有面经?一般问些啥?
可能有用的一些经验,也可能误导 (转载)[挖个坑]数据分析都有哪些开源工具呀?
发个狗家QA面经,已跪征集版标
相关话题的讨论汇总
话题: youtube话题: data话题: netflix话题: hadoop