由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - T家onsite面经
相关主题
spark 问题Statistics PhD 如何转data scientist
怎么计算距离比较好?困惑: 用cross validationce 来评估performance的时候,还需要把原始的dataset区分为train 和test吗?
p value被摈弃了?如何算confidence interval之类的东西?請問某種bootstrap的名稱和reference (转载)
[Road map] From ClickStream to ConsumerInsight下周面A和L的data scientist and data engineer. 有没有面经?一般问些啥?
[Data Science Project] Location data quality杂七杂八的一些面经 (转载)
计算 confidence interval 和 prediction interval的一般方法攒人品,求bless~ 新鲜面经 - Machine Learning Engineer
New Grad怎么找IT公司data scientist/analyst?F家DS,analytics电面面经,贡献一个sql相关 (转载)
怎样能才能快速的找到KNN分享两个data scientist职位的面经
相关话题的讨论汇总
话题: ds话题: 小哥话题: 然后话题: test话题: ab
进入DataSciences版参与讨论
1 (共1页)
c***z
发帖数: 6348
1
T家的人都挺nice的,首先谢谢放水的各位同胞,更要感谢的是内推的哥们。
电面问了unfair coin的问题,Bayesian解决。然后问了树,我差不多忘光了。国人小
哥放水过了。
onsite第一轮,印度小哥工程师,问weighted random number生成器,磕磕碰碰答出来
了,边界条件老是出问题。我直接说了,我可能不是他见过的最好的programmer。
第二轮,印度小哥DS,问一个uniform random生成0-9这些digits,成为一个string;
当string包含所有digits的时候停下来。问string length,可以用Markov chain解决。
第三轮,东欧小哥DS,问怎么利用syndicated tweet增加sign on, 我说要么减少用户
的努力,要么增加用户的体验,然后具体讲到怎么做tweets之间的relevance,我说用
cosine distance + topic distance。第二个问题是怎么fit一个step wise
regression line。就是普通的数学,编程的时候用一下DP。
第四轮,国人小哥DS,问AB test,我说要bootstrap来做confidence interval,他说
如果不bootstrap呢,我有点愣住了,然后百般提示之下,说要不T test吧。然后他说T
家AB test两边sample都上百万,我又愣住了,说这样的话p value会inflate,然后总
是会reject hypothesis。然后聊了会儿bandit algorithm。国人小哥非常谦虚,没有
因为我指出他们的问题而不高兴。
第五轮,ABC产品经理,问如果我有一百万做什么,我说做慈善。本以为是一个热身问
题,结果变成了主要问题,就是讨论怎么把idea变成产品,怎么利用T家的平台。我没
有很好的把这个idea和data science结合起来。
总之自己感觉不错,HR也说overall very positive,然后被HC干掉了。于是move on,
安心的去微软了。因为从不刷题,原本就没有指望能去T家。然后微软出了裁员这档子
事,真是麻烦。
D**u
发帖数: 288
2
赞分享, 恭喜微软offer:)

决。

【在 c***z 的大作中提到】
: T家的人都挺nice的,首先谢谢放水的各位同胞,更要感谢的是内推的哥们。
: 电面问了unfair coin的问题,Bayesian解决。然后问了树,我差不多忘光了。国人小
: 哥放水过了。
: onsite第一轮,印度小哥工程师,问weighted random number生成器,磕磕碰碰答出来
: 了,边界条件老是出问题。我直接说了,我可能不是他见过的最好的programmer。
: 第二轮,印度小哥DS,问一个uniform random生成0-9这些digits,成为一个string;
: 当string包含所有digits的时候停下来。问string length,可以用Markov chain解决。
: 第三轮,东欧小哥DS,问怎么利用syndicated tweet增加sign on, 我说要么减少用户
: 的努力,要么增加用户的体验,然后具体讲到怎么做tweets之间的relevance,我说用
: cosine distance + topic distance。第二个问题是怎么fit一个step wise

D*********e
发帖数: 646
3
小声问,t家是。。。Tesla?
l*******m
发帖数: 1096
4
又开始折腾了?赞

决。

【在 c***z 的大作中提到】
: T家的人都挺nice的,首先谢谢放水的各位同胞,更要感谢的是内推的哥们。
: 电面问了unfair coin的问题,Bayesian解决。然后问了树,我差不多忘光了。国人小
: 哥放水过了。
: onsite第一轮,印度小哥工程师,问weighted random number生成器,磕磕碰碰答出来
: 了,边界条件老是出问题。我直接说了,我可能不是他见过的最好的programmer。
: 第二轮,印度小哥DS,问一个uniform random生成0-9这些digits,成为一个string;
: 当string包含所有digits的时候停下来。问string length,可以用Markov chain解决。
: 第三轮,东欧小哥DS,问怎么利用syndicated tweet增加sign on, 我说要么减少用户
: 的努力,要么增加用户的体验,然后具体讲到怎么做tweets之间的relevance,我说用
: cosine distance + topic distance。第二个问题是怎么fit一个step wise

c***z
发帖数: 6348
5
不想折腾了,所以去微软
T是twitter
l*******m
发帖数: 1096
6
其实,DS水太混,没几个头懂。我是尽量做软工的活,比较happy. 后来ds组做得不行
,非要我上。好吧,干了半年我就跳槽了,都tmd是狗屁不通,爷躲不行吗

【在 c***z 的大作中提到】
: 不想折腾了,所以去微软
: T是twitter

c***z
发帖数: 6348
7
DS还是太新了,领导们基本都是转行的,DBA,统计,CS,MBA都有
FLGT这些公司也太新了,DS方面的储备还是比不上Y和M,可惜Y和M本身在走下坡路

【在 l*******m 的大作中提到】
: 其实,DS水太混,没几个头懂。我是尽量做软工的活,比较happy. 后来ds组做得不行
: ,非要我上。好吧,干了半年我就跳槽了,都tmd是狗屁不通,爷躲不行吗

c***z
发帖数: 6348
8
总是reject hypothesis其实也没有错,因为这么大sample,差不多就是population了
问题是sample bias,不管sample多大,都需要bootstrap一下,或者其他方式correct
一下
其实还是蛮想去T的,不过只能move on了
c******y
发帖数: 3269
9
Congrats, Lz in WA or CA office?
D*********e
发帖数: 646
10
TWTR快倒闭了吧,长期工作没觉得很有前途。但是如果现在去能捞一笔股票,收购的时
候至少赚50%

correct

【在 c***z 的大作中提到】
: 总是reject hypothesis其实也没有错,因为这么大sample,差不多就是population了
: 问题是sample bias,不管sample多大,都需要bootstrap一下,或者其他方式correct
: 一下
: 其实还是蛮想去T的,不过只能move on了

相关主题
计算 confidence interval 和 prediction interval的一般方法Statistics PhD 如何转data scientist
New Grad怎么找IT公司data scientist/analyst?困惑: 用cross validationce 来评估performance的时候,还需要把原始的dataset区分为train 和test吗?
怎样能才能快速的找到KNN請問某種bootstrap的名稱和reference (转载)
进入DataSciences版参与讨论
c***z
发帖数: 6348
11
Redmond office
T如果请我就不会倒了啊 :P
p***0
发帖数: 233
12
恭喜LZ!软是什么时候的offer?我等了一两个月onsite还没安排下来。HM都跑路了。
。哭

【在 c***z 的大作中提到】
: Redmond office
: T如果请我就不会倒了啊 :P

c***z
发帖数: 6348
13
微软面试一周之内下的offer,然后拼命催拼命催
别哭,我进去以后refer你好了
B*****g
发帖数: 34098
14
面试题呢?

【在 c***z 的大作中提到】
: 微软面试一周之内下的offer,然后拼命催拼命催
: 别哭,我进去以后refer你好了

T*****u
发帖数: 7103
15
ye refer wo ba
l******n
发帖数: 9344
16
cong~
seattle还是挺不错的

【在 c***z 的大作中提到】
: 微软面试一周之内下的offer,然后拼命催拼命催
: 别哭,我进去以后refer你好了

c***z
发帖数: 6348
17
M家有些基础知识的题,剩下的扯淡
技巧是平时做ppt,面试的时候放ppt
放完以后问目光呆滞的面试官:有什么问题吗?
T家就是因为没有机会放ppt,所以挂了

【在 B*****g 的大作中提到】
: 面试题呢?
c***z
发帖数: 6348
18
多谢多谢
搞到了绿卡就去投奔你

【在 l******n 的大作中提到】
: cong~
: seattle还是挺不错的

g**********l
发帖数: 214
19
@chaoz
你是带电脑去面试,放ppt, 还是把它打印出来带去的?
又是怎么环境下把它秀出来的呢?请分享一下吧。 thanks!
g**********l
发帖数: 214
20
@chaoz
你是带电脑去面试,放ppt, 还是把它打印出来带去的?
又是怎么环境下把它秀出来的呢?请分享一下吧。 thanks!
相关主题
下周面A和L的data scientist and data engineer. 有没有面经?一般问些啥?F家DS,analytics电面面经,贡献一个sql相关 (转载)
杂七杂八的一些面经 (转载)分享两个data scientist职位的面经
攒人品,求bless~ 新鲜面经 - Machine Learning Engineer最近的一些面经
进入DataSciences版参与讨论
c***z
发帖数: 6348
21
flash disc
when people ask you to talk about your experience, say:" I happen to have
some slides..."
g**********l
发帖数: 214
22
what is flask disc??
like usb drive? then you need to bring your own computer?
i guess you do need to bring your computer, because if the interview room
usually do not provide a computer.
c***z
发帖数: 6348
23
yes, but is that really an issue? :)

【在 g**********l 的大作中提到】
: what is flask disc??
: like usb drive? then you need to bring your own computer?
: i guess you do need to bring your computer, because if the interview room
: usually do not provide a computer.

g**********l
发帖数: 214
24
i guess it is okay, just a bit awkward. =)
another question: usually the presentation will include confidential
information right?
like if u r doing a project to predict X, then you somewhat need to talk
about any business insight or explanation from the models. but isn't that
inappropriate? (in the sense that i would be sharing internal sensitive
information to outside companies)
thanks for sharing your experience.
d***e
发帖数: 193
25
恭喜chao哥拿到微软offer!
放ppt这个很赞啊,ppt是跟自己平时工作有关的内容吗?还是一些自己做的其他的
project?要做很多data visualization的东西比如图表值了的吗?
谢谢lz回答

【在 c***z 的大作中提到】
: M家有些基础知识的题,剩下的扯淡
: 技巧是平时做ppt,面试的时候放ppt
: 放完以后问目光呆滞的面试官:有什么问题吗?
: T家就是因为没有机会放ppt,所以挂了

c***z
发帖数: 6348
26
PPT其实很tricky,关于confidential information的原则就是不能放上去,tricky的
部分就是怎么区分哪些是保密的。
比如说建模,一般模型是公开的,因为有paper,但是参数是保密的,结果更加是保密
的,最最保密的是数据来源。所以我一般只说什么模型。如果追问,就说保密,不能说
。其实这样更让人尊重。你如果面试的时候可以把前公司的机密都说了,那以后再跳槽
的时候呢?
有趣的是,基本上只有国人会追问其他部分,其他人一般心领神会。我知道其实对方只
是好奇,但是等我入职了再问不行么?看来我们的保密教育还是需要努力的:)
其他的风格什么的就是个人爱好了。我喜欢极简风格,因为懒。也因为如果放太多细节
会information overload,也容易被人问住。
d*********k
发帖数: 1239
27
第四轮,国人小哥DS,问AB test,我说要bootstrap来做confidence interval,他说
如果不bootstrap呢,我有点愣住了,然后百般提示之下,说要不T test吧。然后他说T
家AB test两边sample都上百万,我又愣住了,说这样的话p value会inflate,然后总
是会reject hypothesis。然后聊了会儿bandit algorithm。国人小哥非常谦虚,没有
因为我指出他们的问题而不高兴。
这个问题怎么解决呢? 如果我的ttest是直接用所有的数据点(不存在sampling),由
于size很大,我有时候时发现,经常会不符合常理的要拒绝null hypothesis(pvalue<
0.05)

correct

【在 c***z 的大作中提到】
: 总是reject hypothesis其实也没有错,因为这么大sample,差不多就是population了
: 问题是sample bias,不管sample多大,都需要bootstrap一下,或者其他方式correct
: 一下
: 其实还是蛮想去T的,不过只能move on了

c***z
发帖数: 6348
28
This is because p value increases as standard error decreases, and the
latter decreases as sample size increases
Check out the formula and the math is very simple
In other words, it is time to dump p values altogether

说T
pvalue<

【在 d*********k 的大作中提到】
: 第四轮,国人小哥DS,问AB test,我说要bootstrap来做confidence interval,他说
: 如果不bootstrap呢,我有点愣住了,然后百般提示之下,说要不T test吧。然后他说T
: 家AB test两边sample都上百万,我又愣住了,说这样的话p value会inflate,然后总
: 是会reject hypothesis。然后聊了会儿bandit algorithm。国人小哥非常谦虚,没有
: 因为我指出他们的问题而不高兴。
: 这个问题怎么解决呢? 如果我的ttest是直接用所有的数据点(不存在sampling),由
: 于size很大,我有时候时发现,经常会不符合常理的要拒绝null hypothesis(pvalue<
: 0.05)
:
: correct

l*****6
发帖数: 446
29
恭喜成功跳槽M!
赞精彩面经!
斑竹又要搬家啦。。。
d*********k
发帖数: 1239
30
那怎么解决这个问题?
特别是在null hypothesis成立的前提下,pvalue还是个uniform的distribution
我现在工作中就遇到了这个问题

【在 c***z 的大作中提到】
: This is because p value increases as standard error decreases, and the
: latter decreases as sample size increases
: Check out the formula and the math is very simple
: In other words, it is time to dump p values altogether
:
: 说T
: pvalue<

相关主题
求 zillow data scientist 面经怎么计算距离比较好?
想请问以下F家DS的面经可以么?p value被摈弃了?如何算confidence interval之类的东西?
spark 问题[Road map] From ClickStream to ConsumerInsight
进入DataSciences版参与讨论
c***z
发帖数: 6348
31
Use bootstrapping to construct 100 subsamples of smaller sizes say 500 on
each side, then you have two distributions of results to compare; use K-S
test, the p value should be fine.

【在 d*********k 的大作中提到】
: 那怎么解决这个问题?
: 特别是在null hypothesis成立的前提下,pvalue还是个uniform的distribution
: 我现在工作中就遇到了这个问题

c***z
发帖数: 6348
32
多谢!
确实又要搬家,我爱人差点freak out

【在 l*****6 的大作中提到】
: 恭喜成功跳槽M!
: 赞精彩面经!
: 斑竹又要搬家啦。。。

g**********l
发帖数: 214
33
谢版主干货
能不能深入说说哪些能讲呢
what model is usually short right, like one slide. (and often business side
don't care or don't know about model anyway)

【在 c***z 的大作中提到】
: PPT其实很tricky,关于confidential information的原则就是不能放上去,tricky的
: 部分就是怎么区分哪些是保密的。
: 比如说建模,一般模型是公开的,因为有paper,但是参数是保密的,结果更加是保密
: 的,最最保密的是数据来源。所以我一般只说什么模型。如果追问,就说保密,不能说
: 。其实这样更让人尊重。你如果面试的时候可以把前公司的机密都说了,那以后再跳槽
: 的时候呢?
: 有趣的是,基本上只有国人会追问其他部分,其他人一般心领神会。我知道其实对方只
: 是好奇,但是等我入职了再问不行么?看来我们的保密教育还是需要努力的:)
: 其他的风格什么的就是个人爱好了。我喜欢极简风格,因为懒。也因为如果放太多细节
: 会information overload,也容易被人问住。

c***z
发帖数: 6348
34
这个很难回答,公开发表的东西能说,其他的case by case
不过有个原则就是你不知道能不能说的,别说

side

【在 g**********l 的大作中提到】
: 谢版主干货
: 能不能深入说说哪些能讲呢
: what model is usually short right, like one slide. (and often business side
: don't care or don't know about model anyway)

L*******R
发帖数: 105
35
话说应该是p value降低吧?调低 alpha 也可以吧。如果是ttest的话sample size很大
那就是df 趋近于无穷,即使test statistics没变p value也会急剧减少,当sample
mean和target mean的difference基本不变的情况下就会有更加容易reject hypothesis
的错觉

【在 c***z 的大作中提到】
: This is because p value increases as standard error decreases, and the
: latter decreases as sample size increases
: Check out the formula and the math is very simple
: In other words, it is time to dump p values altogether
:
: 说T
: pvalue<

c****a
发帖数: 3173
36
楼主能内推我软软吗?统计硕士,BME phd
1 (共1页)
进入DataSciences版参与讨论
相关主题
分享两个data scientist职位的面经[Data Science Project] Location data quality
最近的一些面经计算 confidence interval 和 prediction interval的一般方法
求 zillow data scientist 面经New Grad怎么找IT公司data scientist/analyst?
想请问以下F家DS的面经可以么?怎样能才能快速的找到KNN
spark 问题Statistics PhD 如何转data scientist
怎么计算距离比较好?困惑: 用cross validationce 来评估performance的时候,还需要把原始的dataset区分为train 和test吗?
p value被摈弃了?如何算confidence interval之类的东西?請問某種bootstrap的名稱和reference (转载)
[Road map] From ClickStream to ConsumerInsight下周面A和L的data scientist and data engineer. 有没有面经?一般问些啥?
相关话题的讨论汇总
话题: ds话题: 小哥话题: 然后话题: test话题: ab