M*Q 发帖数: 54 | 1 最近面了两个data scientist的职位,title虽然是data scientist,
但是从感觉上面来说很像是data analyst,分别是Netflix和YouTube。我个人是应用数
学的,做一些运筹优化和learning的东西。
第一轮都是和recruiter谈一谈,Netflix比较强调他们的culture,特别
嘱咐了要看他们的slides,聊的过程中也提到了很多这方面的内容。Youtube
相对随意的多,主要就是讲讲简历上面的东西。
第二轮,netflix问了会不会hadoop, hive,是否熟悉hadoop streaming interface,
我个人了解一些,但是在学校用的这个机会没有,所以就没追问下去。再就是问了
一些python和R,平时用哪个,为什么用这个不用那个。另外的问题实质上就是假设
检验方面的东西,熟悉常用的test就可以了。
youtube的第二轮上来问你有什么analysis的经验,我就讲了个project,问了很多
project里面的细节。后来问了一个问题,假设engineer有1000个同样的硬件,6个月之
后一个也没有坏,问这个reliability如何,我不知道怎么回答,说了一些东西。第二
个问题,就是linear regression, 什么是linear regression,举个例子, 怎么估计
参数,估计完了参数干什么。
两个都已经挂掉了,发在版上,有人申请同样职位的话可以借鉴一下。 |
c***z 发帖数: 6348 | 2 For the youtube one, this might help
http://statweb.stanford.edu/~serban/116/bayes.pdf
thanks a lot for sharing!
【在 M*Q 的大作中提到】 : 最近面了两个data scientist的职位,title虽然是data scientist, : 但是从感觉上面来说很像是data analyst,分别是Netflix和YouTube。我个人是应用数 : 学的,做一些运筹优化和learning的东西。 : 第一轮都是和recruiter谈一谈,Netflix比较强调他们的culture,特别 : 嘱咐了要看他们的slides,聊的过程中也提到了很多这方面的内容。Youtube : 相对随意的多,主要就是讲讲简历上面的东西。 : 第二轮,netflix问了会不会hadoop, hive,是否熟悉hadoop streaming interface, : 我个人了解一些,但是在学校用的这个机会没有,所以就没追问下去。再就是问了 : 一些python和R,平时用哪个,为什么用这个不用那个。另外的问题实质上就是假设 : 检验方面的东西,熟悉常用的test就可以了。
|
M*Q 发帖数: 54 | 3 我其实没有明白这个问题从哪个角度入手。选择用Bayes的原因是?
【在 c***z 的大作中提到】 : For the youtube one, this might help : http://statweb.stanford.edu/~serban/116/bayes.pdf : thanks a lot for sharing!
|
b********y 发帖数: 559 | 4 netflix挂掉的原因是什么呢?感觉没问什么啊 |
h********3 发帖数: 2075 | 5 netflix在问hadoop相关的时候,基本上就已经拒掉楼主了。这些互联网公司,如果不
会manipulate data的话,基本上是干不了实际的活的。一般都倾向于选一个modeling
比较弱,但是能manipulate big data的人。
至于youtube那个,楼上提供的bayes的beta distribution只是一个naive的solution,
6个月这个时间信息没有用起来。要入Google大牛的法眼估计还不够。楼主可以去看看
专门关于life time, Reliability theory/Engineering。在自动化工程领域,有专门
一派的学科在研究这种问题。
非专业的人,简单看看exponential distribution和weibull就行了。
http://en.wikipedia.org/wiki/Exponential_distribution
http://en.wikipedia.org/wiki/Weibull_distribution |
c********h 发帖数: 330 | 6 谢谢分享!
那个reliability的是什么意思呀?
感觉这种寿命的是不是假设exp dist?可以算出一个都没坏的概率,大概是个exp(-n*
lambda*t),然后说明lambda很大?还是啥意思? |
h********3 发帖数: 2075 | 7 lambda很大说明exp dist很陡,说明这玩意儿出现第一次failure这个事件的arrival
time会比较小,就是不太reliable。不过考虑failure的话,很多论文用weibull模型。
【在 c********h 的大作中提到】 : 谢谢分享! : 那个reliability的是什么意思呀? : 感觉这种寿命的是不是假设exp dist?可以算出一个都没坏的概率,大概是个exp(-n* : lambda*t),然后说明lambda很大?还是啥意思?
|
j*******g 发帖数: 331 | 8 这个应该是survival analysis, 楼上说的韦伯还有exponential都很常见,看看
queuing theory应该有帮助。 |
j*******g 发帖数: 331 | 9 统计里面搞这个的一般是生统的人,希望有大牛讲解一下 |
M*Q 发帖数: 54 | 10 netflix可能是这种情况吧,面试的时候一直跟我说我们不做model和algorithm,主要
是的工作就是处理数据,寻找insights,找些有用的feature,反复强调这个。
youtube的这个,从bayesian的角度入手原因是什么呢?我确实想过life time和
survival之类的东西,面试也提到了。另外只有六个月这一个信息应该怎么用呢?如果
是多个月的信息,我觉得会容易考虑些。基本上这个题也就把我挂了,后面问的实在是
太简单了,让我讲最小二乘。。。
modeling
【在 h********3 的大作中提到】 : netflix在问hadoop相关的时候,基本上就已经拒掉楼主了。这些互联网公司,如果不 : 会manipulate data的话,基本上是干不了实际的活的。一般都倾向于选一个modeling : 比较弱,但是能manipulate big data的人。 : 至于youtube那个,楼上提供的bayes的beta distribution只是一个naive的solution, : 6个月这个时间信息没有用起来。要入Google大牛的法眼估计还不够。楼主可以去看看 : 专门关于life time, Reliability theory/Engineering。在自动化工程领域,有专门 : 一派的学科在研究这种问题。 : 非专业的人,简单看看exponential distribution和weibull就行了。 : http://en.wikipedia.org/wiki/Exponential_distribution : http://en.wikipedia.org/wiki/Weibull_distribution
|
|
|
S******y 发帖数: 1123 | 11 my python/hadoop class covers hadoop streaming in python
statsguy
m*********[email protected]
实战速成Python/R/Hadoop课程-
http://plus.google.com/+statsGuyMITBBS/about
【在 M*Q 的大作中提到】 : netflix可能是这种情况吧,面试的时候一直跟我说我们不做model和algorithm,主要 : 是的工作就是处理数据,寻找insights,找些有用的feature,反复强调这个。 : youtube的这个,从bayesian的角度入手原因是什么呢?我确实想过life time和 : survival之类的东西,面试也提到了。另外只有六个月这一个信息应该怎么用呢?如果 : 是多个月的信息,我觉得会容易考虑些。基本上这个题也就把我挂了,后面问的实在是 : 太简单了,让我讲最小二乘。。。 : : modeling
|
T*****u 发帖数: 7103 | 12 那个reliability的东西,weibull distribution说不定可用 |
c********h 发帖数: 330 | 13 赞,这个没搞过reliability的,碰见这题肯定挂了,原来youtube好这口,学习学习
modeling
【在 h********3 的大作中提到】 : netflix在问hadoop相关的时候,基本上就已经拒掉楼主了。这些互联网公司,如果不 : 会manipulate data的话,基本上是干不了实际的活的。一般都倾向于选一个modeling : 比较弱,但是能manipulate big data的人。 : 至于youtube那个,楼上提供的bayes的beta distribution只是一个naive的solution, : 6个月这个时间信息没有用起来。要入Google大牛的法眼估计还不够。楼主可以去看看 : 专门关于life time, Reliability theory/Engineering。在自动化工程领域,有专门 : 一派的学科在研究这种问题。 : 非专业的人,简单看看exponential distribution和weibull就行了。 : http://en.wikipedia.org/wiki/Exponential_distribution : http://en.wikipedia.org/wiki/Weibull_distribution
|
f********e 发帖数: 1365 | 14 thanks for sharing,mark
【在 M*Q 的大作中提到】 : 最近面了两个data scientist的职位,title虽然是data scientist, : 但是从感觉上面来说很像是data analyst,分别是Netflix和YouTube。我个人是应用数 : 学的,做一些运筹优化和learning的东西。 : 第一轮都是和recruiter谈一谈,Netflix比较强调他们的culture,特别 : 嘱咐了要看他们的slides,聊的过程中也提到了很多这方面的内容。Youtube : 相对随意的多,主要就是讲讲简历上面的东西。 : 第二轮,netflix问了会不会hadoop, hive,是否熟悉hadoop streaming interface, : 我个人了解一些,但是在学校用的这个机会没有,所以就没追问下去。再就是问了 : 一些python和R,平时用哪个,为什么用这个不用那个。另外的问题实质上就是假设 : 检验方面的东西,熟悉常用的test就可以了。
|
x********e 发帖数: 241 | 15 thanks for sharing,我也是学统计的,学校里的东西都忘得差不多了,现在想找工作,准
备开始好好复习. |
y******g 发帖数: 171 | 16 说下我的看法,那个reliability,假设 failure rate/6 months 是P,按Binomial算
算failure的概率,然后再算CI,能cover 0就可以了。这样得到的P可以用来衡量
reliability。
能按binomial,就也能转化为normal,加上error correction就好。最基本的统计课就
包好这种方法了吧。
如果时间足够长,观察到足够数量的failure,用cox model就好了。当然,
exponential model也行。 |
a****0 发帖数: 51 | |
w*****a 发帖数: 218 | 18 听说 NEXFLIX 是这边 PAY 得很高但随时赶人的公司,文化极其恶劣 (其次是 EBAY)
虽然TITLE 是 DATA SCIENTIST 但感觉不太像
凡是拿 CODING 当大学问的地方,大概都不会有什么 DATA SCIENCE
因为那东西对玩数据且稍微有点 CODING 基础的人来说,
最多也就是两个星期到一个月的事情
至于 YOUTUBE, 感觉问的问题有点旁门左道
找工作很大程度上都是碰运气
不成也没啥大不了的
说不定过两天找到更好的地方
【在 M*Q 的大作中提到】 : 最近面了两个data scientist的职位,title虽然是data scientist, : 但是从感觉上面来说很像是data analyst,分别是Netflix和YouTube。我个人是应用数 : 学的,做一些运筹优化和learning的东西。 : 第一轮都是和recruiter谈一谈,Netflix比较强调他们的culture,特别 : 嘱咐了要看他们的slides,聊的过程中也提到了很多这方面的内容。Youtube : 相对随意的多,主要就是讲讲简历上面的东西。 : 第二轮,netflix问了会不会hadoop, hive,是否熟悉hadoop streaming interface, : 我个人了解一些,但是在学校用的这个机会没有,所以就没追问下去。再就是问了 : 一些python和R,平时用哪个,为什么用这个不用那个。另外的问题实质上就是假设 : 检验方面的东西,熟悉常用的test就可以了。
|
r******n 发帖数: 351 | 19 这道题跟relaibility关系不太大,主要看对hypothesis testing 或者 confidence
interval 的基本定义的理解。因为概率很低,所以不能近似成正态或者t分布,要用
exact CI 或者 exact hypothesis test.
http://stat.ethz.ch/R-manual/R-patched/library/stats/html/binom
【在 y******g 的大作中提到】 : 说下我的看法,那个reliability,假设 failure rate/6 months 是P,按Binomial算 : 算failure的概率,然后再算CI,能cover 0就可以了。这样得到的P可以用来衡量 : reliability。 : 能按binomial,就也能转化为normal,加上error correction就好。最基本的统计课就 : 包好这种方法了吧。 : 如果时间足够长,观察到足够数量的failure,用cox model就好了。当然, : exponential model也行。
|
k*z 发帖数: 4704 | 20 其实所有跟coding和统计挂钩的东西都是半年培训的问题,结果只是有没有时间培训你
,你学完以后做的东西漂亮不漂亮。 |
|
|
y******g 发帖数: 171 | 21 p 小不代表着不能近似成normal,你应该看看概率入门。何时binomial可以近似成
normal,虽然没有严格的理论证明,但是还是有个公认的标准。这个sample size不小
,还是可以的。另外这里只计算最大可能的P值,就更增加了能近似成normal的可能性。
【在 r******n 的大作中提到】 : 这道题跟relaibility关系不太大,主要看对hypothesis testing 或者 confidence : interval 的基本定义的理解。因为概率很低,所以不能近似成正态或者t分布,要用 : exact CI 或者 exact hypothesis test. : http://stat.ethz.ch/R-manual/R-patched/library/stats/html/binom
|
r******n 发帖数: 351 | 22 非常感谢你的提醒。这是从wiki里摘的一段话:
http://en.wikipedia.org/wiki/Binomial_proportion_confidence_int
The central limit theorem applies poorly to this distribution with a sample
size less than 30 or where the proportion is close to 0 or 1. The normal
approximation fails totally when the sample proportion is exactly zero or
exactly one.
这里就是 sample proportion is exactly zero 的情况。 可以用exact或着wilson,
但是不能直接用Asymptotic normal。 我猜这是面试官想考察的内容。不知道如果用
normal近似的话怎么计算。
性。
【在 y******g 的大作中提到】 : p 小不代表着不能近似成normal,你应该看看概率入门。何时binomial可以近似成 : normal,虽然没有严格的理论证明,但是还是有个公认的标准。这个sample size不小 : ,还是可以的。另外这里只计算最大可能的P值,就更增加了能近似成normal的可能性。
|
X******2 发帖数: 5859 | 23 这个说法比较靠谱。
就是对一系列gamma(单个零件6个月出故障概率)做假设检验,
根据所得p value,得出在若干显著水平下,gamma的范围。
【在 r******n 的大作中提到】 : 这道题跟relaibility关系不太大,主要看对hypothesis testing 或者 confidence : interval 的基本定义的理解。因为概率很低,所以不能近似成正态或者t分布,要用 : exact CI 或者 exact hypothesis test. : http://stat.ethz.ch/R-manual/R-patched/library/stats/html/binom
|