d***e 发帖数: 193 | 1 【 以下文字转载自 JobHunting 讨论区 】
发信人: ISphoenix (beta3), 信区: JobHunting
标 题: Data scientist / Machine Learning Engineer 相关面试题
关键字: data scientist,machine learning
发信站: BBS 未名空间站 (Sun Oct 19 17:31:36 2014, 美东)
去年我找工作的时候发现板上针对data scientist,machine learning engineer面试
题总结很少,所以尽量申请了很多公司面试相关职位,想看看行业里这个方向都在问什
么。有幸去过不少地方面试,现在把那些题目整理整理(全部来自Amazon, Microsoft,
Yelp, Pinterest,
Square, Google, Glassdoor, Groupon的电面和onsite),希望能帮助在找相关工作的
同学们。
题目写的简略,请大家见谅
====================
1. Given a coin you don’t know it’s fair or unfair. Throw it 6 times and
get 1 tail and 5 head. Determine whether it’s fair or not. What’s your
confidence value?
2. Given Amazon data, how to predict which users are going to be top
shoppers in this holiday season.
3. Which regression methods are you familiar? How to evaluate regression
result?
4. Write down the formula for logistic regression. How to determine the
coefficients given the data?
5. How do you evaluate regression?
For example, in this particular case:
item click-through-rate predicted rate
1 0.04 0.06
2 0.68 0.78
3 0.27 0.19
4 0.52 0.57
…
6. What’s the formula for SVM? What is decision boundary?
7. A field with unknown number of rabbits. Catch 100 rabbits and put a label
on each of them. A few days later, catch 300 rabbits and found 60 with
labels. Estimate how many rabbits are there?
8. Given 10 coins with 1 unfair coin and 9 fair coins. The unfair coin has &
#8532; prob. to be head. Now random select 1 coin and throw it 3 times. You
observe head, head, tail. What’s the probability that the selected coin is
the unfair one?
9. What’s the formula for Naive Bayesian classifier? What’s the assumption
in the formula? What kind of data is Naive Bayesian good at? What is not?
10. What is the real distribution of click-through rate of items? If you
want to build a predictor/classifier for this data, how do you do it? How do
you divide the data?
11. You have a stream of data coming in, in the format as the following:
item_id, views, clicks, time
1 100 10 2013-11-28
1 1000 350 2013-11-29
1 200 14 2013-11-30
2 127 13 2013-12-1
…
The same id are consecutive.
Click through rate = clicks / views.
On every day, I want to output the item id when its click through rate is
larger than a given threshold.
For example, at day 1, item 1’s rate is 10/100=10%, day2, its (10+350)/(100
+1000)=0.32. day3 it is (10+350+14)/(100+1000+200)=0.28.
If my threshold is 0.3, then at day 1, I don’t output. On day2 I output. On
day3, I don’t output.
11. Given a dictionary and a string. Write a function, if every word is in
the dictionary return true, otherwise return false.
12. Generate all the permutation of a string.
For example, abc, acb, cba, …
13. We want to add a new feature to our product. How to determine if people
like it?
A/B testing. How to do A/B testing? How many ways? pros and cons?
14. 44.3% vs 47.2% is it significant?
15. Design a function to calculate people’s interest to a place against the
distance to the place.
16. How to encourage people to write more reviews on Yelp? How to determine
who are likely to write reviews? How to increase the registration rate of
Yelp? What features to add for a better Yelp app? We are expanding to other
countries. Which country we should enter first?
17. What’s the difference between classification and regression?
18. Can you explain how decision tree works? How to build a decision tree
from data?
19. What is regularization in regression? Why do regularization? How to do
regularization?
20. What is gradient descent? stochastic gradient descent?
21. We have a database of . When user
inputs a product name, how to return results fast?
22. If user gives a budget value, how to find the most expensive product
under budget? Assume the data fits in memory. What data structure, or
algorithm you use to find the product quickly? Write the program for it.
23. Given yelp data, how to find top 10 restaurants in America?
24. Given a large file that we don’t know how many lines are there. It
doesn’t fit into memory. We want to sample K lines from the file uniformly.
Write a program for it.
25. How to determine if one advertisement is performing better than the
other?
26. How to evaluate classification result? What if the results are in
probability mode?
If I want to build a classifier, but the data is very unbalanced. I have a
few positive samples but a lot of negative samples. What should I do?
27. Given a lot of data, I want to random sample 1% of them. How to do it
efficiently?
28. When a new user signs up Pinterest, we want to know its interests. We
decide to show the user a few pins, 2 pins at a time. Let the user choose
which pin s/he likes. After the user clicks on one of the 2, we select
another 2 pins.
Question: how to design the system and select the pins so that we can
achieve our goal?
29. Write a function to compute sqrt(X). Write a function to compute pow(x,
n) [square root and power)
30. Given a matrix
a b c d
e f g h
i j k l
Print it in this order:
a f k
b g l
c h
d
e j
i
31. Given a matrix and an array of words, find if the words are in the
matrix. You can search the
matrix in all directions: from left to right, right to left, up to down,
down to up, or diagonally.
For example
w o r x b
h e l o v
i n d e m
then the word “world” is in the matrix.
32. Given a coordinates, and two points A and B. How many ways to go from A
to B? You can only move up or right.
For example, from (1, 1) to (5, 7), one possible way is 1,1 -> 2, 1… 5, 1 -
> 5,2 -> ..5, 7
33. In a city where there are only vertical and horizontal streets. There
are people on the cross point. These people want to meet. Please find a
cross point to minimize the cost for all the people to move.
34. Design a job search ranking algorithm on glassdoor
35. How to identify review spam?
36. Glassdoor has this kind of data about a job : (position, company,
location, salary). For example (Software Engineer, Microsoft, Seattle, $125K
). For some records, all four entires are available. But for others, the
salary is missing. Design a way to estimate salary for those records.
37. When to send emails to users in a day can get maximum click through rate?
38. Youtube has video play log like this:
Video ID, time
vid1 t1
vid2 t2
... ...
The log is super large.
Find out the top 10 played videos on youtube in a given week.
39. Write a program to copy a graph
40. A bank has this access log:
IP address, time
ip1 t1
ip2 t2
... ...
If one ip accessed K times within m seconds, it may be an attack.
Given the log, identify all IPs that may cause attack. |
T*****u 发帖数: 7103 | |
h*****7 发帖数: 6781 | 3 我出的题
简述 vc dimension 以及和 svm 关系
svm怎么实现?有没有比smo更快的?
各种kernel空间维度,怎么用
简述MAP, fisher information
简述MCMC基本类型,难点
bayesian vs frequentist pros and cons
boostrap好处,性质
手推PCA
向量求导手推
微分方程手推
简述categorical处理
牛顿法,共轭梯度,模拟退火,各类优化求解
各种图搜索
真做过ML的,上面都是小意思
没做过的,基本没可能突击出来 |
w********m 发帖数: 1137 | 4 大牛,这些问题用代码怎么实现?
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
T*****u 发帖数: 7103 | 5 你还是考手推lanczos好啦。恍若回到了当年数值分析考试,都是手推,没有cheat
sheet,只许用一张16开演算纸。可以正反面用。
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
h*****7 发帖数: 6781 | |
h*****7 发帖数: 6781 | 7 问答题而已
coding自有其他人去花时间陪着
【在 w********m 的大作中提到】 : 大牛,这些问题用代码怎么实现?
|
b********h 发帖数: 2451 | 8 都会,大牛,你找人么?
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
h*****7 发帖数: 6781 | 9 等机会
【在 b********h 的大作中提到】 : 都会,大牛,你找人么?
|
d******e 发帖数: 7844 | 10 Linear SVM的话比SMO快的算法不少。对于用了Nonlinear Kernel的SVM,有啥比SMO更
快速的算法?
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
|
|
d******e 发帖数: 7844 | 11 好八股的面试题,呵呵。
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
h*****7 发帖数: 6781 | 12 大都是open question
没考ANN POSIX不算八股
【在 d******e 的大作中提到】 : 好八股的面试题,呵呵。
|
d******e 发帖数: 7844 | 13 基本都是照本宣科的东西,学过了就知道。
考察不出真正做modelling的能力,还不如预测下个月销量这种问题靠谱。
【在 h*****7 的大作中提到】 : 大都是open question : 没考ANN POSIX不算八股
|
f*********2 发帖数: 48 | 14 老大,做ML的这些都是入门要求,您所提到的这些俺都能手推。
还能顺着 Fisher information 侃一点 information geometry;吹吹 MCMC 的几个经
典算法,包括 reversible jump MCMC;大谈主观贝叶斯和客观贝叶斯,以及和频率派
的那些恩恩怨怨;解常微方程不敢,聊一聊它的定性与稳定性理论,像 Lyapunov的几
个定理还是可以的;耍矩阵是一方面,另外还懂点张量分析;微分几何和微分拓扑都学
过,捡捡还能继续;从 Newton 法、梯度下降法、Lagrange 乘子法(包括对偶问题、
二次规划)到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。
以我个人的经验,懂这些有个屁用!
手推更是变态!!又不是作发考题。就是当教书匠,大牛 Ng 讲课还拿着稿呢。
所以,我尊重你的学识,鄙视你的几乎致人内伤的考题!!!
老子花了很长时间总结失败的面试,基本与智商无关。最关键的是情商,得会幽默着侃
晕你的考官,得有一个阳光健康的外型。
至于工业界里的数学,计算机系或物理系本科的就够了。我们组的一个白人老油条,虽
然除了玩得仍然不太熟练的PCA什么都不会,但他就有本事跟什么人都能侃到一起。这
个本事,恰恰是咱们欠缺的技能。
作为资深WSN,我想我的考题就是:你是华人吗?是就放水,不是就出个分支数未知的
高斯混合模型让你手推!!!!
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
T*****u 发帖数: 7103 | 15 没有健康阳光的外形,有什么slide或者网上教程可以推荐吗
【在 f*********2 的大作中提到】 : 老大,做ML的这些都是入门要求,您所提到的这些俺都能手推。 : 还能顺着 Fisher information 侃一点 information geometry;吹吹 MCMC 的几个经 : 典算法,包括 reversible jump MCMC;大谈主观贝叶斯和客观贝叶斯,以及和频率派 : 的那些恩恩怨怨;解常微方程不敢,聊一聊它的定性与稳定性理论,像 Lyapunov的几 : 个定理还是可以的;耍矩阵是一方面,另外还懂点张量分析;微分几何和微分拓扑都学 : 过,捡捡还能继续;从 Newton 法、梯度下降法、Lagrange 乘子法(包括对偶问题、 : 二次规划)到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。 : 以我个人的经验,懂这些有个屁用! : 手推更是变态!!又不是作发考题。就是当教书匠,大牛 Ng 讲课还拿着稿呢。 : 所以,我尊重你的学识,鄙视你的几乎致人内伤的考题!!!
|
f*********2 发帖数: 48 | 16 每天坚持听郭德纲于谦的对口相声,以及刘宝瑞的单口。
笑的形式可以参阅金三胖,发型就不必了。
把大肚囊练掉,刮掉那唏嘘的胡子,换双好鞋,穿一身干净的衣服,放下 Bishop 的那
本烂书,从现在开始你的侃大山生涯。。。
【在 T*****u 的大作中提到】 : 没有健康阳光的外形,有什么slide或者网上教程可以推荐吗
|
T*****u 发帖数: 7103 | 17 闹鬼了,我正在听郭德纲,感情是入门了。
【在 f*********2 的大作中提到】 : 每天坚持听郭德纲于谦的对口相声,以及刘宝瑞的单口。 : 笑的形式可以参阅金三胖,发型就不必了。 : 把大肚囊练掉,刮掉那唏嘘的胡子,换双好鞋,穿一身干净的衣服,放下 Bishop 的那 : 本烂书,从现在开始你的侃大山生涯。。。
|
c***z 发帖数: 6348 | 18 大牛,您这是找人教课还是找人解决问题 :P
您的这些问题我都得一个个去google
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
c***z 发帖数: 6348 | 19 我的问题
1. 找出top k items,不要求real time
2. how to compare two distributions
3. feature generation from unstructured data
4. fundamentals of your favorite model
5. understanding of the bias variance tradeoff
6. fundamentals of gradient decent
7. what will you do if you have all the money you need
8. how do you multitask (or how to avoid it)
9. how much do you know about us |
f*********2 发帖数: 48 | 20 和你不太一样,我是面朝大海,喝瓶啤酒。
请大侠对我的回答给予指点!
什么是 top k items,求解释。
一大堆方法,例如 KL divergence,Kolmogorov-Smirnov goodness-of-fit test, etc.
这个得问专家,哪些 feature 是和问题有关的
这个能说出一大堆。一般地,好的模型的想法都是简单为美。
跷跷板呗。如果系统误差给定,Bias+Var=一个常数,一个增大,另一个就减小。
譬如找局部最小,就是每一步都朝最陡的方向跳。要保证每步都往下跳哦~
其实,梯度下降法就是 Newton-Raphson 方法的一个简化版本。
面朝大海,喝瓶啤酒。如果肚子有空间,再加碗凉皮。
客户着急哪个做哪个
用狗狗查!
【在 c***z 的大作中提到】 : 我的问题 : 1. 找出top k items,不要求real time : 2. how to compare two distributions : 3. feature generation from unstructured data : 4. fundamentals of your favorite model : 5. understanding of the bias variance tradeoff : 6. fundamentals of gradient decent : 7. what will you do if you have all the money you need : 8. how do you multitask (or how to avoid it) : 9. how much do you know about us
|
|
|
f*********2 发帖数: 48 | 21 我有个更变态的问题:linear SVM of type nu-regression 和 GLM 什么关系?
【在 d******e 的大作中提到】 : Linear SVM的话比SMO快的算法不少。对于用了Nonlinear Kernel的SVM,有啥比SMO更 : 快速的算法?
|
T*****u 发帖数: 7103 | 22 你的题更像问一个人对machine learning的common sense。没在蓝翔踢过足球没关系,
但更关心球感是不是好啊?
【在 c***z 的大作中提到】 : 我的问题 : 1. 找出top k items,不要求real time : 2. how to compare two distributions : 3. feature generation from unstructured data : 4. fundamentals of your favorite model : 5. understanding of the bias variance tradeoff : 6. fundamentals of gradient decent : 7. what will you do if you have all the money you need : 8. how do you multitask (or how to avoid it) : 9. how much do you know about us
|
d******e 发帖数: 7844 | 23 所以说这玩意就是八股。
做faculty这些远远不够,做engineer这些玩意基本没用。
【在 f*********2 的大作中提到】 : 老大,做ML的这些都是入门要求,您所提到的这些俺都能手推。 : 还能顺着 Fisher information 侃一点 information geometry;吹吹 MCMC 的几个经 : 典算法,包括 reversible jump MCMC;大谈主观贝叶斯和客观贝叶斯,以及和频率派 : 的那些恩恩怨怨;解常微方程不敢,聊一聊它的定性与稳定性理论,像 Lyapunov的几 : 个定理还是可以的;耍矩阵是一方面,另外还懂点张量分析;微分几何和微分拓扑都学 : 过,捡捡还能继续;从 Newton 法、梯度下降法、Lagrange 乘子法(包括对偶问题、 : 二次规划)到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。 : 以我个人的经验,懂这些有个屁用! : 手推更是变态!!又不是作发考题。就是当教书匠,大牛 Ng 讲课还拿着稿呢。 : 所以,我尊重你的学识,鄙视你的几乎致人内伤的考题!!!
|
d******e 发帖数: 7844 | 24 够BT,我连nu-SVR都没听说过。
【在 f*********2 的大作中提到】 : 我有个更变态的问题:linear SVM of type nu-regression 和 GLM 什么关系?
|
l****g 发帖数: 761 | 25 我也负责我们组ML面试, 我对你的出题很难苟同
你出的这些题背得怎么熟,如果我要solve一个 PB level data problem, 怎么用?
所以我就不拍了,以前有个贴总结的挺好我就直接贴过来吧:
发信人: Algorithmic (Zeal), 信区: JobHunting
标 题: Re: 为什么你么都说现在招聘走做题路线
发信站: BBS 未名空间站 (Mon Dec 23 17:31:14 2013, 美东)
本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Lemur.
请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
first choice of clustering when you see some arbitrary data.
对于Classification,Old Stuff Like KNN works well in many cases. Kernel
algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大
规模数据上得使用。
Other algorithms like MinHash, LSH, KD-trees etc are all old.
我的论点是,工业界真正使用的算法,没有那么多fancy的东西,因为确实大多数
recent publish的work都不怎么work。都是tune parameters和选择性得测试data set
搞出来灌水的。一旦你拿出那些算法在大规模真实数据上一跑,大部分都不怎么work。
或者tune了N久比传统算法好不了多少,还不稳定。
举例来说一个work的,page rank algorithm,这还是实现在真实系统里的。你要是实
现过你就知道,比起kleinberg的HITS algorithm没有什么优势,但是Google实现的好
,关键是加了很多有用的不被学术界所齿的heuristics,所以效果不错。
如果你确实认为近年的research极大得促进了科技得进步,改善了人类的生活,请告诉
我近三年有什么publish在NIPS/ICML/WWW/KDD/COLT上的work被大规模的应用到了实际
系统中,I am glad to know。我去学习。btw,deep learning去年NIPS很火,技术被
google买了,那东西是彻底的刁丝翻身,NN这种没有理论得东西被statistical ML领域
的人鄙视多少年了。Again,The true fact is我很菜。 我的的知识很落伍。很久没跟
进最新的paper了。你要是能educate我,是个好事儿,我正好去学习。偷偷implement
一下这些牛逼算法赚个大的。
After Ph.D., you may make significant contribution to the area, you may not.
Most likely not. But you will gain the ability to tell whether something is
really working or it is just "claimed working".
Working algorithms are usually very very simple. 忽悠algorithms are usually
intentionally made complex and not working. 我觉得如果连这个都没练出来,那几
百篇paper是白读了。
What's the shortest lie in computer science? "It works".
What's the shortest truth in computer science? "It sucks".
没有任何冒犯做research的人的意思,我也干这个,我就是想说,虽然不时会有一些比较
牛逼的算法出现,(比如像SVM,就是work)。但残酷的现实就是,绝大部分的
research work都
没有什么significant contribution,除了发paper没啥用。这个估计读了phd的都有感
受。
所以灌完水拿了个phd. ,要去工业界,不用认为自己就牛逼得不得了,好像比没读phd
的高几等。
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
d******e 发帖数: 7844 | 26 其实弄些基础知识screen掉一些人就足够了。
完全没必要搞得多fancy。
set
implement
not.
is
usually
比较
phd
【在 l****g 的大作中提到】 : 我也负责我们组ML面试, 我对你的出题很难苟同 : 你出的这些题背得怎么熟,如果我要solve一个 PB level data problem, 怎么用? : 所以我就不拍了,以前有个贴总结的挺好我就直接贴过来吧: : 发信人: Algorithmic (Zeal), 信区: JobHunting : 标 题: Re: 为什么你么都说现在招聘走做题路线 : 发信站: BBS 未名空间站 (Mon Dec 23 17:31:14 2013, 美东) : 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。 : 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的 : text retrieval system中. : 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
|
c***z 发帖数: 6348 | 27 和你不太一样,我是面朝大海,喝瓶啤酒。
请大侠对我的回答给予指点!
指导不敢,相互切磋:)
什么是 top k items,求解释。
就是SQL表,找出top selling item什么的
遇到三哥,就问问real time怎么弄 - min heap max heap 都要用,足够麻烦了
一大堆方法,例如 KL divergence,Kolmogorov-Smirnov goodness-of-fit test, etc.
要求解释原理,为什么离散分布不能用KS
遇到三哥,就问如果KS不是用min distance而是mean distance 会怎样
这个得问专家,哪些 feature 是和问题有关的
会给一个project,比如地图上GPS点的分布
这个能说出一大堆。一般地,好的模型的想法都是简单为美。
会问细节,比如decision tree 如何split
遇到三哥问问如果decision tree randomly split会怎样
跷跷板呗。如果系统误差给定,Bias+Var=一个常数,一个增大,另一个就减小。
差不多,顺便问问lasso
譬如找局部最小,就是每一步都朝最陡的方向跳。要保证每步都往下跳哦~
其实,梯度下降法就是 Newton-Raphson 方法的一个简化版本。
差不多,顺便问问为什么有时候不收敛
三哥就让推一下logit gradient decent
面朝大海,喝瓶啤酒。如果肚子有空间,再加碗凉皮。
啤酒什么牌子的
三哥就说culture不合适,大家喝的不是一个牌子的啤酒
客户着急哪个做哪个
用户当然都着急。这个还是的自己和老板讨论优先级。
用狗狗查!
现查来不及了吧 :)
【在 c***z 的大作中提到】 : 我的问题 : 1. 找出top k items,不要求real time : 2. how to compare two distributions : 3. feature generation from unstructured data : 4. fundamentals of your favorite model : 5. understanding of the bias variance tradeoff : 6. fundamentals of gradient decent : 7. what will you do if you have all the money you need : 8. how do you multitask (or how to avoid it) : 9. how much do you know about us
|
f*********2 发帖数: 48 | 28 分布函数已知,就用 Kullback-Leibler divergence 刻画二者差异。但这个 KL
divergence 不满足对称性,因此不是距离。
分布函数未知,大样本情况下用经验分布函数近似。比较二者,KS test 离散连续通吃
,统计量由 maximum distance between empirical distribution functions 构造,
服从 Kolmogorov 分布。
我老板的座佑铭是“客户是上帝〃,客户让干什么就干什么。
青岛啤酒不错。
etc.
【在 c***z 的大作中提到】 : 和你不太一样,我是面朝大海,喝瓶啤酒。 : 请大侠对我的回答给予指点! : 指导不敢,相互切磋:) : : 什么是 top k items,求解释。 : 就是SQL表,找出top selling item什么的 : 遇到三哥,就问问real time怎么弄 - min heap max heap 都要用,足够麻烦了 : 一大堆方法,例如 KL divergence,Kolmogorov-Smirnov goodness-of-fit test, etc. : 要求解释原理,为什么离散分布不能用KS : 遇到三哥,就问如果KS不是用min distance而是mean distance 会怎样
|
c***z 发帖数: 6348 | 29
基本上都是分布函数未知,或者没那个美国时间折腾,所以上KS
离散分布由于tie太多,p value会偏低,对于KS stat的CI会过于乐观 - 但是 who
cares
KS stat确实基于max distance,我记错了;如果用mean distance会怎样?
还有一个我爱问的,就是能不能用KL或者KS或者其他什么cos之类的做k mean
clustering
客户不是上帝,老板才是上帝。
对于客户,最重要的是manage expectation,不能让干什么就干什么 - 否则后果你试
试就知道了
事实上,对于老板也是要manage expectation,不能让干什么就干什么 - 但是你要够牛
区别是前者可以用老板做肉盾,用老板的credit,后者只能用自己的credit
青岛啤酒+1
【在 f*********2 的大作中提到】 : 分布函数已知,就用 Kullback-Leibler divergence 刻画二者差异。但这个 KL : divergence 不满足对称性,因此不是距离。 : 分布函数未知,大样本情况下用经验分布函数近似。比较二者,KS test 离散连续通吃 : ,统计量由 maximum distance between empirical distribution functions 构造, : 服从 Kolmogorov 分布。 : 我老板的座佑铭是“客户是上帝〃,客户让干什么就干什么。 : 青岛啤酒不错。 : : etc.
|
c***z 发帖数: 6348 | 30 对,这种东西要学通了,确实就是一种感觉。死记硬背没什么意思,推公式也是推一次
就够了,但是对于什么时候上什么工具,必须要融会贯通。
【在 T*****u 的大作中提到】 : 你的题更像问一个人对machine learning的common sense。没在蓝翔踢过足球没关系, : 但更关心球感是不是好啊?
|
|
|
c***z 发帖数: 6348 | 31 要出难题我分分钟可以出,直接拿我的本行组合数学的教材就行,也不需要太多专业知
识 - 人家都没法抱怨我刁难
但是对我来说,面试的核心就是对方不蠢不二,不是猪一样的队友 |
T*****u 发帖数: 7103 | 32 +1。我的标准是第一对行业有common sense,第二绝对不能有big ego,第三人不傻,
愿意学。我们项目里有两个人,一个学理论物理出身,一个核物理转计算机,都是米国
人,都干过辩论队,第一点没有,第二点很多,第三点确实都很聪明,结果把我害惨了
。。。
【在 c***z 的大作中提到】 : 要出难题我分分钟可以出,直接拿我的本行组合数学的教材就行,也不需要太多专业知 : 识 - 人家都没法抱怨我刁难 : 但是对我来说,面试的核心就是对方不蠢不二,不是猪一样的队友
|
T*****u 发帖数: 7103 | 33 大牛你们有总结一下这些缩写吗?我看的很头晕。:) |
f*********2 发帖数: 48 | 34 manage expectation +10
学习了,的确如此。
够牛
【在 c***z 的大作中提到】 : 要出难题我分分钟可以出,直接拿我的本行组合数学的教材就行,也不需要太多专业知 : 识 - 人家都没法抱怨我刁难 : 但是对我来说,面试的核心就是对方不蠢不二,不是猪一样的队友
|
f*********2 发帖数: 48 | 35 一般地,数学系的能证,物理系的能算。这样的人用好了,可以有正能量。
我总觉得心理学,尤其是人际交往那类的,比统计学和机器学习实用多了。
【在 T*****u 的大作中提到】 : +1。我的标准是第一对行业有common sense,第二绝对不能有big ego,第三人不傻, : 愿意学。我们项目里有两个人,一个学理论物理出身,一个核物理转计算机,都是米国 : 人,都干过辩论队,第一点没有,第二点很多,第三点确实都很聪明,结果把我害惨了 : 。。。
|
g*****o 发帖数: 812 | 36 人际交往完全不用心理学好么→_→
就像组装电脑不用去学补码乘法
【在 f*********2 的大作中提到】 : 一般地,数学系的能证,物理系的能算。这样的人用好了,可以有正能量。 : 我总觉得心理学,尤其是人际交往那类的,比统计学和机器学习实用多了。
|
T*****u 发帖数: 7103 | 37 有时间讲讲这俩二逼野猪队友的事。我叫着不做sales的话也没那么高要求,该做什么
事的时候拿什么样的调调就好。wave hands的场合就wave hands,有些conference上各
种新的算法结果的就瞎吹吹,哪怕精度永远不可重复,客户没交钱的时候给他希望把他
哄进来,做项目的时候要明白自己的constraint和expectation,该要更多resource的
时候要更多的resource,该trade off的时候trade off。
【在 f*********2 的大作中提到】 : 一般地,数学系的能证,物理系的能算。这样的人用好了,可以有正能量。 : 我总觉得心理学,尤其是人际交往那类的,比统计学和机器学习实用多了。
|
l********k 发帖数: 14844 | 38 这些题要是能做出来80%,再加上点金融知识,应该可以上墙街了吧。 |
d*****1 发帖数: 10 | |
h*****7 发帖数: 6781 | 40 首先这些都是ML基础性的东西,而且是open question,没有任何刁难的意思。楼上也
有很多人说了他们都会。
其二统计和应数不是死记硬背的科目,考察的也不是死记硬背,而是有没有这方面的
sense。有些东西不懂完全没问题,但是得有这个sense去思考去阐释。
60分钟内想考察一个CS PhD,是很难的,特别是ML这种应用领域
如果面entry level或者analytics,才会问简单的分析问题
【在 d******e 的大作中提到】 : 基本都是照本宣科的东西,学过了就知道。 : 考察不出真正做modelling的能力,还不如预测下个月销量这种问题靠谱。
|
|
|
h*****7 发帖数: 6781 | 41 既然说到法考题,哥可以负责任说,法考题面试从来没人问你技术问题,只会针对你的
项目发问
法考题最重要的几项要求基本和技术无关
【在 d******e 的大作中提到】 : 所以说这玩意就是八股。 : 做faculty这些远远不够,做engineer这些玩意基本没用。
|
h*****7 发帖数: 6781 | 42 其实是寂寞了找人聊天:p
聊得入港一个不会都不要紧
【在 c***z 的大作中提到】 : 大牛,您这是找人教课还是找人解决问题 :P : 您的这些问题我都得一个个去google
|
f*********2 发帖数: 48 | 43 对~~~~~头~~~~
看对眼儿,咋地都行。
【在 h*****7 的大作中提到】 : 其实是寂寞了找人聊天:p : 聊得入港一个不会都不要紧
|
C**********r 发帖数: 8189 | 44
点个赞。
【在 f*********2 的大作中提到】 : 老大,做ML的这些都是入门要求,您所提到的这些俺都能手推。 : 还能顺着 Fisher information 侃一点 information geometry;吹吹 MCMC 的几个经 : 典算法,包括 reversible jump MCMC;大谈主观贝叶斯和客观贝叶斯,以及和频率派 : 的那些恩恩怨怨;解常微方程不敢,聊一聊它的定性与稳定性理论,像 Lyapunov的几 : 个定理还是可以的;耍矩阵是一方面,另外还懂点张量分析;微分几何和微分拓扑都学 : 过,捡捡还能继续;从 Newton 法、梯度下降法、Lagrange 乘子法(包括对偶问题、 : 二次规划)到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。 : 以我个人的经验,懂这些有个屁用! : 手推更是变态!!又不是作发考题。就是当教书匠,大牛 Ng 讲课还拿着稿呢。 : 所以,我尊重你的学识,鄙视你的几乎致人内伤的考题!!!
|
C**********r 发帖数: 8189 | 45
老米没有大ego的很少啊。。。 求对待大ego但眼高手低者的好方法。
【在 T*****u 的大作中提到】 : +1。我的标准是第一对行业有common sense,第二绝对不能有big ego,第三人不傻, : 愿意学。我们项目里有两个人,一个学理论物理出身,一个核物理转计算机,都是米国 : 人,都干过辩论队,第一点没有,第二点很多,第三点确实都很聪明,结果把我害惨了 : 。。。
|
d***e 发帖数: 193 | 46 【 以下文字转载自 JobHunting 讨论区 】
发信人: ISphoenix (beta3), 信区: JobHunting
标 题: Data scientist / Machine Learning Engineer 相关面试题
关键字: data scientist,machine learning
发信站: BBS 未名空间站 (Sun Oct 19 17:31:36 2014, 美东)
去年我找工作的时候发现板上针对data scientist,machine learning engineer面试
题总结很少,所以尽量申请了很多公司面试相关职位,想看看行业里这个方向都在问什
么。有幸去过不少地方面试,现在把那些题目整理整理(全部来自Amazon, Microsoft,
Yelp, Pinterest,
Square, Google, Glassdoor, Groupon的电面和onsite),希望能帮助在找相关工作的
同学们。
题目写的简略,请大家见谅
====================
1. Given a coin you don’t know it’s fair or unfair. Throw it 6 times and
get 1 tail and 5 head. Determine whether it’s fair or not. What’s your
confidence value?
2. Given Amazon data, how to predict which users are going to be top
shoppers in this holiday season.
3. Which regression methods are you familiar? How to evaluate regression
result?
4. Write down the formula for logistic regression. How to determine the
coefficients given the data?
5. How do you evaluate regression?
For example, in this particular case:
item click-through-rate predicted rate
1 0.04 0.06
2 0.68 0.78
3 0.27 0.19
4 0.52 0.57
…
6. What’s the formula for SVM? What is decision boundary?
7. A field with unknown number of rabbits. Catch 100 rabbits and put a label
on each of them. A few days later, catch 300 rabbits and found 60 with
labels. Estimate how many rabbits are there?
8. Given 10 coins with 1 unfair coin and 9 fair coins. The unfair coin has &
#8532; prob. to be head. Now random select 1 coin and throw it 3 times. You
observe head, head, tail. What’s the probability that the selected coin is
the unfair one?
9. What’s the formula for Naive Bayesian classifier? What’s the assumption
in the formula? What kind of data is Naive Bayesian good at? What is not?
10. What is the real distribution of click-through rate of items? If you
want to build a predictor/classifier for this data, how do you do it? How do
you divide the data?
11. You have a stream of data coming in, in the format as the following:
item_id, views, clicks, time
1 100 10 2013-11-28
1 1000 350 2013-11-29
1 200 14 2013-11-30
2 127 13 2013-12-1
…
The same id are consecutive.
Click through rate = clicks / views.
On every day, I want to output the item id when its click through rate is
larger than a given threshold.
For example, at day 1, item 1’s rate is 10/100=10%, day2, its (10+350)/(100
+1000)=0.32. day3 it is (10+350+14)/(100+1000+200)=0.28.
If my threshold is 0.3, then at day 1, I don’t output. On day2 I output. On
day3, I don’t output.
11. Given a dictionary and a string. Write a function, if every word is in
the dictionary return true, otherwise return false.
12. Generate all the permutation of a string.
For example, abc, acb, cba, …
13. We want to add a new feature to our product. How to determine if people
like it?
A/B testing. How to do A/B testing? How many ways? pros and cons?
14. 44.3% vs 47.2% is it significant?
15. Design a function to calculate people’s interest to a place against the
distance to the place.
16. How to encourage people to write more reviews on Yelp? How to determine
who are likely to write reviews? How to increase the registration rate of
Yelp? What features to add for a better Yelp app? We are expanding to other
countries. Which country we should enter first?
17. What’s the difference between classification and regression?
18. Can you explain how decision tree works? How to build a decision tree
from data?
19. What is regularization in regression? Why do regularization? How to do
regularization?
20. What is gradient descent? stochastic gradient descent?
21. We have a database of . When user
inputs a product name, how to return results fast?
22. If user gives a budget value, how to find the most expensive product
under budget? Assume the data fits in memory. What data structure, or
algorithm you use to find the product quickly? Write the program for it.
23. Given yelp data, how to find top 10 restaurants in America?
24. Given a large file that we don’t know how many lines are there. It
doesn’t fit into memory. We want to sample K lines from the file uniformly.
Write a program for it.
25. How to determine if one advertisement is performing better than the
other?
26. How to evaluate classification result? What if the results are in
probability mode?
If I want to build a classifier, but the data is very unbalanced. I have a
few positive samples but a lot of negative samples. What should I do?
27. Given a lot of data, I want to random sample 1% of them. How to do it
efficiently?
28. When a new user signs up Pinterest, we want to know its interests. We
decide to show the user a few pins, 2 pins at a time. Let the user choose
which pin s/he likes. After the user clicks on one of the 2, we select
another 2 pins.
Question: how to design the system and select the pins so that we can
achieve our goal?
29. Write a function to compute sqrt(X). Write a function to compute pow(x,
n) [square root and power)
30. Given a matrix
a b c d
e f g h
i j k l
Print it in this order:
a f k
b g l
c h
d
e j
i
31. Given a matrix and an array of words, find if the words are in the
matrix. You can search the
matrix in all directions: from left to right, right to left, up to down,
down to up, or diagonally.
For example
w o r x b
h e l o v
i n d e m
then the word “world” is in the matrix.
32. Given a coordinates, and two points A and B. How many ways to go from A
to B? You can only move up or right.
For example, from (1, 1) to (5, 7), one possible way is 1,1 -> 2, 1… 5, 1 -
> 5,2 -> ..5, 7
33. In a city where there are only vertical and horizontal streets. There
are people on the cross point. These people want to meet. Please find a
cross point to minimize the cost for all the people to move.
34. Design a job search ranking algorithm on glassdoor
35. How to identify review spam?
36. Glassdoor has this kind of data about a job : (position, company,
location, salary). For example (Software Engineer, Microsoft, Seattle, $125K
). For some records, all four entires are available. But for others, the
salary is missing. Design a way to estimate salary for those records.
37. When to send emails to users in a day can get maximum click through rate?
38. Youtube has video play log like this:
Video ID, time
vid1 t1
vid2 t2
... ...
The log is super large.
Find out the top 10 played videos on youtube in a given week.
39. Write a program to copy a graph
40. A bank has this access log:
IP address, time
ip1 t1
ip2 t2
... ...
If one ip accessed K times within m seconds, it may be an attack.
Given the log, identify all IPs that may cause attack. |
T*****u 发帖数: 7103 | |
h*****7 发帖数: 6781 | 48 我出的题
简述 vc dimension 以及和 svm 关系
svm怎么实现?有没有比smo更快的?
各种kernel空间维度,怎么用
简述MAP, fisher information
简述MCMC基本类型,难点
bayesian vs frequentist pros and cons
boostrap好处,性质
手推PCA
向量求导手推
微分方程手推
简述categorical处理
牛顿法,共轭梯度,模拟退火,各类优化求解
各种图搜索
真做过ML的,上面都是小意思
没做过的,基本没可能突击出来 |
w********m 发帖数: 1137 | 49 大牛,这些问题用代码怎么实现?
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
T*****u 发帖数: 7103 | 50 你还是考手推lanczos好啦。恍若回到了当年数值分析考试,都是手推,没有cheat
sheet,只许用一张16开演算纸。可以正反面用。
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
|
|
h*****7 发帖数: 6781 | |
h*****7 发帖数: 6781 | 52 问答题而已
coding自有其他人去花时间陪着
【在 w********m 的大作中提到】 : 大牛,这些问题用代码怎么实现?
|
b********h 发帖数: 2451 | 53 都会,大牛,你找人么?
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
h*****7 发帖数: 6781 | 54 等机会
【在 b********h 的大作中提到】 : 都会,大牛,你找人么?
|
d******e 发帖数: 7844 | 55 Linear SVM的话比SMO快的算法不少。对于用了Nonlinear Kernel的SVM,有啥比SMO更
快速的算法?
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
d******e 发帖数: 7844 | 56 好八股的面试题,呵呵。
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
h*****7 发帖数: 6781 | 57 大都是open question
没考ANN POSIX不算八股
【在 d******e 的大作中提到】 : 好八股的面试题,呵呵。
|
d******e 发帖数: 7844 | 58 基本都是照本宣科的东西,学过了就知道。
考察不出真正做modelling的能力,还不如预测下个月销量这种问题靠谱。
【在 h*****7 的大作中提到】 : 大都是open question : 没考ANN POSIX不算八股
|
f*********2 发帖数: 48 | 59 老大,做ML的这些都是入门要求,您所提到的这些俺都能手推。
还能顺着 Fisher information 侃一点 information geometry;吹吹 MCMC 的几个经
典算法,包括 reversible jump MCMC;大谈主观贝叶斯和客观贝叶斯,以及和频率派
的那些恩恩怨怨;解常微方程不敢,聊一聊它的定性与稳定性理论,像 Lyapunov的几
个定理还是可以的;耍矩阵是一方面,另外还懂点张量分析;微分几何和微分拓扑都学
过,捡捡还能继续;从 Newton 法、梯度下降法、Lagrange 乘子法(包括对偶问题、
二次规划)到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。
以我个人的经验,懂这些有个屁用!
手推更是变态!!又不是作发考题。就是当教书匠,大牛 Ng 讲课还拿着稿呢。
所以,我尊重你的学识,鄙视你的几乎致人内伤的考题!!!
老子花了很长时间总结失败的面试,基本与智商无关。最关键的是情商,得会幽默着侃
晕你的考官,得有一个阳光健康的外型。
至于工业界里的数学,计算机系或物理系本科的就够了。我们组的一个白人老油条,虽
然除了玩得仍然不太熟练的PCA什么都不会,但他就有本事跟什么人都能侃到一起。这
个本事,恰恰是咱们欠缺的技能。
作为资深WSN,我想我的考题就是:你是华人吗?是就放水,不是就出个分支数未知的
高斯混合模型让你手推!!!!
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
T*****u 发帖数: 7103 | 60 没有健康阳光的外形,有什么slide或者网上教程可以推荐吗
【在 f*********2 的大作中提到】 : 老大,做ML的这些都是入门要求,您所提到的这些俺都能手推。 : 还能顺着 Fisher information 侃一点 information geometry;吹吹 MCMC 的几个经 : 典算法,包括 reversible jump MCMC;大谈主观贝叶斯和客观贝叶斯,以及和频率派 : 的那些恩恩怨怨;解常微方程不敢,聊一聊它的定性与稳定性理论,像 Lyapunov的几 : 个定理还是可以的;耍矩阵是一方面,另外还懂点张量分析;微分几何和微分拓扑都学 : 过,捡捡还能继续;从 Newton 法、梯度下降法、Lagrange 乘子法(包括对偶问题、 : 二次规划)到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。 : 以我个人的经验,懂这些有个屁用! : 手推更是变态!!又不是作发考题。就是当教书匠,大牛 Ng 讲课还拿着稿呢。 : 所以,我尊重你的学识,鄙视你的几乎致人内伤的考题!!!
|
|
|
f*********2 发帖数: 48 | 61 每天坚持听郭德纲于谦的对口相声,以及刘宝瑞的单口。
笑的形式可以参阅金三胖,发型就不必了。
把大肚囊练掉,刮掉那唏嘘的胡子,换双好鞋,穿一身干净的衣服,放下 Bishop 的那
本烂书,从现在开始你的侃大山生涯。。。
【在 T*****u 的大作中提到】 : 没有健康阳光的外形,有什么slide或者网上教程可以推荐吗
|
T*****u 发帖数: 7103 | 62 闹鬼了,我正在听郭德纲,感情是入门了。
【在 f*********2 的大作中提到】 : 每天坚持听郭德纲于谦的对口相声,以及刘宝瑞的单口。 : 笑的形式可以参阅金三胖,发型就不必了。 : 把大肚囊练掉,刮掉那唏嘘的胡子,换双好鞋,穿一身干净的衣服,放下 Bishop 的那 : 本烂书,从现在开始你的侃大山生涯。。。
|
c***z 发帖数: 6348 | 63 大牛,您这是找人教课还是找人解决问题 :P
您的这些问题我都得一个个去google
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
c***z 发帖数: 6348 | 64 我的问题
1. 找出top k items,不要求real time
2. how to compare two distributions
3. feature generation from unstructured data
4. fundamentals of your favorite model
5. understanding of the bias variance tradeoff
6. fundamentals of gradient decent
7. what will you do if you have all the money you need
8. how do you multitask (or how to avoid it)
9. how much do you know about us |
f*********2 发帖数: 48 | 65 和你不太一样,我是面朝大海,喝瓶啤酒。
请大侠对我的回答给予指点!
什么是 top k items,求解释。
一大堆方法,例如 KL divergence,Kolmogorov-Smirnov goodness-of-fit test, etc.
这个得问专家,哪些 feature 是和问题有关的
这个能说出一大堆。一般地,好的模型的想法都是简单为美。
跷跷板呗。如果系统误差给定,Bias+Var=一个常数,一个增大,另一个就减小。
譬如找局部最小,就是每一步都朝最陡的方向跳。要保证每步都往下跳哦~
其实,梯度下降法就是 Newton-Raphson 方法的一个简化版本。
面朝大海,喝瓶啤酒。如果肚子有空间,再加碗凉皮。
客户着急哪个做哪个
用狗狗查!
【在 c***z 的大作中提到】 : 我的问题 : 1. 找出top k items,不要求real time : 2. how to compare two distributions : 3. feature generation from unstructured data : 4. fundamentals of your favorite model : 5. understanding of the bias variance tradeoff : 6. fundamentals of gradient decent : 7. what will you do if you have all the money you need : 8. how do you multitask (or how to avoid it) : 9. how much do you know about us
|
f*********2 发帖数: 48 | 66 我有个更变态的问题:linear SVM of type nu-regression 和 GLM 什么关系?
【在 d******e 的大作中提到】 : Linear SVM的话比SMO快的算法不少。对于用了Nonlinear Kernel的SVM,有啥比SMO更 : 快速的算法?
|
T*****u 发帖数: 7103 | 67 你的题更像问一个人对machine learning的common sense。没在蓝翔踢过足球没关系,
但更关心球感是不是好啊?
【在 c***z 的大作中提到】 : 我的问题 : 1. 找出top k items,不要求real time : 2. how to compare two distributions : 3. feature generation from unstructured data : 4. fundamentals of your favorite model : 5. understanding of the bias variance tradeoff : 6. fundamentals of gradient decent : 7. what will you do if you have all the money you need : 8. how do you multitask (or how to avoid it) : 9. how much do you know about us
|
d******e 发帖数: 7844 | 68 所以说这玩意就是八股。
做faculty这些远远不够,做engineer这些玩意基本没用。
【在 f*********2 的大作中提到】 : 老大,做ML的这些都是入门要求,您所提到的这些俺都能手推。 : 还能顺着 Fisher information 侃一点 information geometry;吹吹 MCMC 的几个经 : 典算法,包括 reversible jump MCMC;大谈主观贝叶斯和客观贝叶斯,以及和频率派 : 的那些恩恩怨怨;解常微方程不敢,聊一聊它的定性与稳定性理论,像 Lyapunov的几 : 个定理还是可以的;耍矩阵是一方面,另外还懂点张量分析;微分几何和微分拓扑都学 : 过,捡捡还能继续;从 Newton 法、梯度下降法、Lagrange 乘子法(包括对偶问题、 : 二次规划)到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。 : 以我个人的经验,懂这些有个屁用! : 手推更是变态!!又不是作发考题。就是当教书匠,大牛 Ng 讲课还拿着稿呢。 : 所以,我尊重你的学识,鄙视你的几乎致人内伤的考题!!!
|
d******e 发帖数: 7844 | 69 够BT,我连nu-SVR都没听说过。
【在 f*********2 的大作中提到】 : 我有个更变态的问题:linear SVM of type nu-regression 和 GLM 什么关系?
|
l****g 发帖数: 761 | 70 我也负责我们组ML面试, 我对你的出题很难苟同
你出的这些题背得怎么熟,如果我要solve一个 PB level data problem, 怎么用?
所以我就不拍了,以前有个贴总结的挺好我就直接贴过来吧:
发信人: Algorithmic (Zeal), 信区: JobHunting
标 题: Re: 为什么你么都说现在招聘走做题路线
发信站: BBS 未名空间站 (Mon Dec 23 17:31:14 2013, 美东)
本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Lemur.
请告诉我任意一个clustering algorithm,other than Kmeans,will be your safe
first choice of clustering when you see some arbitrary data.
对于Classification,Old Stuff Like KNN works well in many cases. Kernel
algorithms are good publishing baselines, 但它们NxN 的需求极大得限制了它在大
规模数据上得使用。
Other algorithms like MinHash, LSH, KD-trees etc are all old.
我的论点是,工业界真正使用的算法,没有那么多fancy的东西,因为确实大多数
recent publish的work都不怎么work。都是tune parameters和选择性得测试data set
搞出来灌水的。一旦你拿出那些算法在大规模真实数据上一跑,大部分都不怎么work。
或者tune了N久比传统算法好不了多少,还不稳定。
举例来说一个work的,page rank algorithm,这还是实现在真实系统里的。你要是实
现过你就知道,比起kleinberg的HITS algorithm没有什么优势,但是Google实现的好
,关键是加了很多有用的不被学术界所齿的heuristics,所以效果不错。
如果你确实认为近年的research极大得促进了科技得进步,改善了人类的生活,请告诉
我近三年有什么publish在NIPS/ICML/WWW/KDD/COLT上的work被大规模的应用到了实际
系统中,I am glad to know。我去学习。btw,deep learning去年NIPS很火,技术被
google买了,那东西是彻底的刁丝翻身,NN这种没有理论得东西被statistical ML领域
的人鄙视多少年了。Again,The true fact is我很菜。 我的的知识很落伍。很久没跟
进最新的paper了。你要是能educate我,是个好事儿,我正好去学习。偷偷implement
一下这些牛逼算法赚个大的。
After Ph.D., you may make significant contribution to the area, you may not.
Most likely not. But you will gain the ability to tell whether something is
really working or it is just "claimed working".
Working algorithms are usually very very simple. 忽悠algorithms are usually
intentionally made complex and not working. 我觉得如果连这个都没练出来,那几
百篇paper是白读了。
What's the shortest lie in computer science? "It works".
What's the shortest truth in computer science? "It sucks".
没有任何冒犯做research的人的意思,我也干这个,我就是想说,虽然不时会有一些比较
牛逼的算法出现,(比如像SVM,就是work)。但残酷的现实就是,绝大部分的
research work都
没有什么significant contribution,除了发paper没啥用。这个估计读了phd的都有感
受。
所以灌完水拿了个phd. ,要去工业界,不用认为自己就牛逼得不得了,好像比没读phd
的高几等。
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|
|
|
d******e 发帖数: 7844 | 71 其实弄些基础知识screen掉一些人就足够了。
完全没必要搞得多fancy。
set
implement
not.
is
usually
比较
phd
【在 l****g 的大作中提到】 : 我也负责我们组ML面试, 我对你的出题很难苟同 : 你出的这些题背得怎么熟,如果我要solve一个 PB level data problem, 怎么用? : 所以我就不拍了,以前有个贴总结的挺好我就直接贴过来吧: : 发信人: Algorithmic (Zeal), 信区: JobHunting : 标 题: Re: 为什么你么都说现在招聘走做题路线 : 发信站: BBS 未名空间站 (Mon Dec 23 17:31:14 2013, 美东) : 本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。 : 请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的 : text retrieval system中. : 请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
|
c***z 发帖数: 6348 | 72 和你不太一样,我是面朝大海,喝瓶啤酒。
请大侠对我的回答给予指点!
指导不敢,相互切磋:)
什么是 top k items,求解释。
就是SQL表,找出top selling item什么的
遇到三哥,就问问real time怎么弄 - min heap max heap 都要用,足够麻烦了
一大堆方法,例如 KL divergence,Kolmogorov-Smirnov goodness-of-fit test, etc.
要求解释原理,为什么离散分布不能用KS
遇到三哥,就问如果KS不是用min distance而是mean distance 会怎样
这个得问专家,哪些 feature 是和问题有关的
会给一个project,比如地图上GPS点的分布
这个能说出一大堆。一般地,好的模型的想法都是简单为美。
会问细节,比如decision tree 如何split
遇到三哥问问如果decision tree randomly split会怎样
跷跷板呗。如果系统误差给定,Bias+Var=一个常数,一个增大,另一个就减小。
差不多,顺便问问lasso
譬如找局部最小,就是每一步都朝最陡的方向跳。要保证每步都往下跳哦~
其实,梯度下降法就是 Newton-Raphson 方法的一个简化版本。
差不多,顺便问问为什么有时候不收敛
三哥就让推一下logit gradient decent
面朝大海,喝瓶啤酒。如果肚子有空间,再加碗凉皮。
啤酒什么牌子的
三哥就说culture不合适,大家喝的不是一个牌子的啤酒
客户着急哪个做哪个
用户当然都着急。这个还是的自己和老板讨论优先级。
用狗狗查!
现查来不及了吧 :)
【在 c***z 的大作中提到】 : 我的问题 : 1. 找出top k items,不要求real time : 2. how to compare two distributions : 3. feature generation from unstructured data : 4. fundamentals of your favorite model : 5. understanding of the bias variance tradeoff : 6. fundamentals of gradient decent : 7. what will you do if you have all the money you need : 8. how do you multitask (or how to avoid it) : 9. how much do you know about us
|
f*********2 发帖数: 48 | 73 分布函数已知,就用 Kullback-Leibler divergence 刻画二者差异。但这个 KL
divergence 不满足对称性,因此不是距离。
分布函数未知,大样本情况下用经验分布函数近似。比较二者,KS test 离散连续通吃
,统计量由 maximum distance between empirical distribution functions 构造,
服从 Kolmogorov 分布。
我老板的座佑铭是“客户是上帝〃,客户让干什么就干什么。
青岛啤酒不错。
etc.
【在 c***z 的大作中提到】 : 和你不太一样,我是面朝大海,喝瓶啤酒。 : 请大侠对我的回答给予指点! : 指导不敢,相互切磋:) : : 什么是 top k items,求解释。 : 就是SQL表,找出top selling item什么的 : 遇到三哥,就问问real time怎么弄 - min heap max heap 都要用,足够麻烦了 : 一大堆方法,例如 KL divergence,Kolmogorov-Smirnov goodness-of-fit test, etc. : 要求解释原理,为什么离散分布不能用KS : 遇到三哥,就问如果KS不是用min distance而是mean distance 会怎样
|
c***z 发帖数: 6348 | 74
基本上都是分布函数未知,或者没那个美国时间折腾,所以上KS
离散分布由于tie太多,p value会偏低,对于KS stat的CI会过于乐观 - 但是 who
cares
KS stat确实基于max distance,我记错了;如果用mean distance会怎样?
还有一个我爱问的,就是能不能用KL或者KS或者其他什么cos之类的做k mean
clustering
客户不是上帝,老板才是上帝。
对于客户,最重要的是manage expectation,不能让干什么就干什么 - 否则后果你试
试就知道了
事实上,对于老板也是要manage expectation,不能让干什么就干什么 - 但是你要够牛
区别是前者可以用老板做肉盾,用老板的credit,后者只能用自己的credit
青岛啤酒+1
【在 f*********2 的大作中提到】 : 分布函数已知,就用 Kullback-Leibler divergence 刻画二者差异。但这个 KL : divergence 不满足对称性,因此不是距离。 : 分布函数未知,大样本情况下用经验分布函数近似。比较二者,KS test 离散连续通吃 : ,统计量由 maximum distance between empirical distribution functions 构造, : 服从 Kolmogorov 分布。 : 我老板的座佑铭是“客户是上帝〃,客户让干什么就干什么。 : 青岛啤酒不错。 : : etc.
|
c***z 发帖数: 6348 | 75 对,这种东西要学通了,确实就是一种感觉。死记硬背没什么意思,推公式也是推一次
就够了,但是对于什么时候上什么工具,必须要融会贯通。
【在 T*****u 的大作中提到】 : 你的题更像问一个人对machine learning的common sense。没在蓝翔踢过足球没关系, : 但更关心球感是不是好啊?
|
c***z 发帖数: 6348 | 76 要出难题我分分钟可以出,直接拿我的本行组合数学的教材就行,也不需要太多专业知
识 - 人家都没法抱怨我刁难
但是对我来说,面试的核心就是对方不蠢不二,不是猪一样的队友 |
T*****u 发帖数: 7103 | 77 +1。我的标准是第一对行业有common sense,第二绝对不能有big ego,第三人不傻,
愿意学。我们项目里有两个人,一个学理论物理出身,一个核物理转计算机,都是米国
人,都干过辩论队,第一点没有,第二点很多,第三点确实都很聪明,结果把我害惨了
。。。
【在 c***z 的大作中提到】 : 要出难题我分分钟可以出,直接拿我的本行组合数学的教材就行,也不需要太多专业知 : 识 - 人家都没法抱怨我刁难 : 但是对我来说,面试的核心就是对方不蠢不二,不是猪一样的队友
|
T*****u 发帖数: 7103 | 78 大牛你们有总结一下这些缩写吗?我看的很头晕。:) |
f*********2 发帖数: 48 | 79 manage expectation +10
学习了,的确如此。
够牛
【在 c***z 的大作中提到】 : 要出难题我分分钟可以出,直接拿我的本行组合数学的教材就行,也不需要太多专业知 : 识 - 人家都没法抱怨我刁难 : 但是对我来说,面试的核心就是对方不蠢不二,不是猪一样的队友
|
f*********2 发帖数: 48 | 80 一般地,数学系的能证,物理系的能算。这样的人用好了,可以有正能量。
我总觉得心理学,尤其是人际交往那类的,比统计学和机器学习实用多了。
【在 T*****u 的大作中提到】 : +1。我的标准是第一对行业有common sense,第二绝对不能有big ego,第三人不傻, : 愿意学。我们项目里有两个人,一个学理论物理出身,一个核物理转计算机,都是米国 : 人,都干过辩论队,第一点没有,第二点很多,第三点确实都很聪明,结果把我害惨了 : 。。。
|
|
|
g*****o 发帖数: 812 | 81 人际交往完全不用心理学好么→_→
就像组装电脑不用去学补码乘法
【在 f*********2 的大作中提到】 : 一般地,数学系的能证,物理系的能算。这样的人用好了,可以有正能量。 : 我总觉得心理学,尤其是人际交往那类的,比统计学和机器学习实用多了。
|
T*****u 发帖数: 7103 | 82 有时间讲讲这俩二逼野猪队友的事。我叫着不做sales的话也没那么高要求,该做什么
事的时候拿什么样的调调就好。wave hands的场合就wave hands,有些conference上各
种新的算法结果的就瞎吹吹,哪怕精度永远不可重复,客户没交钱的时候给他希望把他
哄进来,做项目的时候要明白自己的constraint和expectation,该要更多resource的
时候要更多的resource,该trade off的时候trade off。
【在 f*********2 的大作中提到】 : 一般地,数学系的能证,物理系的能算。这样的人用好了,可以有正能量。 : 我总觉得心理学,尤其是人际交往那类的,比统计学和机器学习实用多了。
|
l********k 发帖数: 14844 | 83 这些题要是能做出来80%,再加上点金融知识,应该可以上墙街了吧。 |
d*****1 发帖数: 10 | |
h*****7 发帖数: 6781 | 85 首先这些都是ML基础性的东西,而且是open question,没有任何刁难的意思。楼上也
有很多人说了他们都会。
其二统计和应数不是死记硬背的科目,考察的也不是死记硬背,而是有没有这方面的
sense。有些东西不懂完全没问题,但是得有这个sense去思考去阐释。
60分钟内想考察一个CS PhD,是很难的,特别是ML这种应用领域
如果面entry level或者analytics,才会问简单的分析问题
【在 d******e 的大作中提到】 : 基本都是照本宣科的东西,学过了就知道。 : 考察不出真正做modelling的能力,还不如预测下个月销量这种问题靠谱。
|
h*****7 发帖数: 6781 | 86 既然说到法考题,哥可以负责任说,法考题面试从来没人问你技术问题,只会针对你的
项目发问
法考题最重要的几项要求基本和技术无关
【在 d******e 的大作中提到】 : 所以说这玩意就是八股。 : 做faculty这些远远不够,做engineer这些玩意基本没用。
|
h*****7 发帖数: 6781 | 87 其实是寂寞了找人聊天:p
聊得入港一个不会都不要紧
【在 c***z 的大作中提到】 : 大牛,您这是找人教课还是找人解决问题 :P : 您的这些问题我都得一个个去google
|
f*********2 发帖数: 48 | 88 对~~~~~头~~~~
看对眼儿,咋地都行。
【在 h*****7 的大作中提到】 : 其实是寂寞了找人聊天:p : 聊得入港一个不会都不要紧
|
C**********r 发帖数: 8189 | 89
点个赞。
【在 f*********2 的大作中提到】 : 老大,做ML的这些都是入门要求,您所提到的这些俺都能手推。 : 还能顺着 Fisher information 侃一点 information geometry;吹吹 MCMC 的几个经 : 典算法,包括 reversible jump MCMC;大谈主观贝叶斯和客观贝叶斯,以及和频率派 : 的那些恩恩怨怨;解常微方程不敢,聊一聊它的定性与稳定性理论,像 Lyapunov的几 : 个定理还是可以的;耍矩阵是一方面,另外还懂点张量分析;微分几何和微分拓扑都学 : 过,捡捡还能继续;从 Newton 法、梯度下降法、Lagrange 乘子法(包括对偶问题、 : 二次规划)到 Levenberg-Marquardt 法、BFGS 法等非线性最优化算法都能手推。 : 以我个人的经验,懂这些有个屁用! : 手推更是变态!!又不是作发考题。就是当教书匠,大牛 Ng 讲课还拿着稿呢。 : 所以,我尊重你的学识,鄙视你的几乎致人内伤的考题!!!
|
C**********r 发帖数: 8189 | 90
老米没有大ego的很少啊。。。 求对待大ego但眼高手低者的好方法。
【在 T*****u 的大作中提到】 : +1。我的标准是第一对行业有common sense,第二绝对不能有big ego,第三人不傻, : 愿意学。我们项目里有两个人,一个学理论物理出身,一个核物理转计算机,都是米国 : 人,都干过辩论队,第一点没有,第二点很多,第三点确实都很聪明,结果把我害惨了 : 。。。
|
|
|
d******e 发帖数: 7844 | 91 没人问你技术问题,很大程度是因为你没什么技术... ...
BTW:我又考了下古,发现你在抱怨NIPS的圈子,我猜你NIPS要么没发过,要么最多发
个一篇半篇的... ...我觉得就不要张口闭口大谈ML的Common Sense了... ...
【在 h*****7 的大作中提到】 : 既然说到法考题,哥可以负责任说,法考题面试从来没人问你技术问题,只会针对你的 : 项目发问 : 法考题最重要的几项要求基本和技术无关
|
d******e 发帖数: 7844 | 92 考察PhD的水平,自然看他的Project的质量,和他对自己project的理解。
问这些东西完全没有用。只要正经上过Machine Learning课程的,简单复习一下就都搞
定了。根本看不出区别。
【在 h*****7 的大作中提到】 : 首先这些都是ML基础性的东西,而且是open question,没有任何刁难的意思。楼上也 : 有很多人说了他们都会。 : 其二统计和应数不是死记硬背的科目,考察的也不是死记硬背,而是有没有这方面的 : sense。有些东西不懂完全没问题,但是得有这个sense去思考去阐释。 : 60分钟内想考察一个CS PhD,是很难的,特别是ML这种应用领域 : 如果面entry level或者analytics,才会问简单的分析问题
|
T*****u 发帖数: 7103 | 93 让他吹,让他作,让他死
【在 C**********r 的大作中提到】 : : 老米没有大ego的很少啊。。。 求对待大ego但眼高手低者的好方法。
|
e*******n 发帖数: 872 | 94 1. Given a coin you don’t know it’s fair or unfair. Throw it 6 times and
get 1 tail and 5 head. Determine whether it’s fair or not. What’s your
confidence value?
我的答案是:
H0: the coin is fair
Ha: the coin is unfair
significance level alpha:
alpha = P(reject H0 wrongly when we have 5 head| H0 is true)
= choose(6,1)*(1/2)^6 = 6*(0.5^6) = 0.09375
because alpha > 0.05, we do not have enough evidence to reject H0, and we
accpte H0, so the coin is fair
confidence value = 1 - alpha = 1 - 0.09375 = 0.90625
不知道对不对,求指教 |
d******e 发帖数: 7844 | 95 没人问你技术问题,很大程度是因为你没什么技术... ...
BTW:我又考了下古,发现你在抱怨NIPS的圈子,我猜你NIPS要么没发过,要么最多发
个一篇半篇的... ...我觉得就不要张口闭口大谈ML的Common Sense了... ...
【在 h*****7 的大作中提到】 : 既然说到法考题,哥可以负责任说,法考题面试从来没人问你技术问题,只会针对你的 : 项目发问 : 法考题最重要的几项要求基本和技术无关
|
d******e 发帖数: 7844 | 96 考察PhD的水平,自然看他的Project的质量,和他对自己project的理解。
问这些东西完全没有用。只要正经上过Machine Learning课程的,简单复习一下就都搞
定了。根本看不出区别。
【在 h*****7 的大作中提到】 : 首先这些都是ML基础性的东西,而且是open question,没有任何刁难的意思。楼上也 : 有很多人说了他们都会。 : 其二统计和应数不是死记硬背的科目,考察的也不是死记硬背,而是有没有这方面的 : sense。有些东西不懂完全没问题,但是得有这个sense去思考去阐释。 : 60分钟内想考察一个CS PhD,是很难的,特别是ML这种应用领域 : 如果面entry level或者analytics,才会问简单的分析问题
|
T*****u 发帖数: 7103 | 97 让他吹,让他作,让他死
【在 C**********r 的大作中提到】 : : 老米没有大ego的很少啊。。。 求对待大ego但眼高手低者的好方法。
|
x*********0 发帖数: 651 | |
C*Y 发帖数: 679 | |
h*********d 发帖数: 109 | 100
Microsoft,
【在 d***e 的大作中提到】 : 【 以下文字转载自 JobHunting 讨论区 】 : 发信人: ISphoenix (beta3), 信区: JobHunting : 标 题: Data scientist / Machine Learning Engineer 相关面试题 : 关键字: data scientist,machine learning : 发信站: BBS 未名空间站 (Sun Oct 19 17:31:36 2014, 美东) : 去年我找工作的时候发现板上针对data scientist,machine learning engineer面试 : 题总结很少,所以尽量申请了很多公司面试相关职位,想看看行业里这个方向都在问什 : 么。有幸去过不少地方面试,现在把那些题目整理整理(全部来自Amazon, Microsoft, : Yelp, Pinterest, : Square, Google, Glassdoor, Groupon的电面和onsite),希望能帮助在找相关工作的
|
|
|
n******7 发帖数: 12463 | 101 作为google型选手
看到007的问题心里拔凉拔凉的
您又给了我一丝希望
【在 c***z 的大作中提到】 : 大牛,您这是找人教课还是找人解决问题 :P : 您的这些问题我都得一个个去google
|
n******7 发帖数: 12463 | 102
外行请教一下用Hellinger distance如何?
我最近遇到这个问题,试过Hellinger distance,还有有chi-square statistic, 都不
太好,
最后用的非常简单的一个距离定义搞定的
没办法,数据太差,只有简单的才work,但是老板觉得很可能被问道这里
【在 f*********2 的大作中提到】 : 分布函数已知,就用 Kullback-Leibler divergence 刻画二者差异。但这个 KL : divergence 不满足对称性,因此不是距离。 : 分布函数未知,大样本情况下用经验分布函数近似。比较二者,KS test 离散连续通吃 : ,统计量由 maximum distance between empirical distribution functions 构造, : 服从 Kolmogorov 分布。 : 我老板的座佑铭是“客户是上帝〃,客户让干什么就干什么。 : 青岛啤酒不错。 : : etc.
|
j*********d 发帖数: 342 | |
f*****5 发帖数: 16 | |
j*5 发帖数: 315 | 105 Mark
★ 发自iPhone App: ChineseWeb 13
【在 d***e 的大作中提到】 : 【 以下文字转载自 JobHunting 讨论区 】 : 发信人: ISphoenix (beta3), 信区: JobHunting : 标 题: Data scientist / Machine Learning Engineer 相关面试题 : 关键字: data scientist,machine learning : 发信站: BBS 未名空间站 (Sun Oct 19 17:31:36 2014, 美东) : 去年我找工作的时候发现板上针对data scientist,machine learning engineer面试 : 题总结很少,所以尽量申请了很多公司面试相关职位,想看看行业里这个方向都在问什 : 么。有幸去过不少地方面试,现在把那些题目整理整理(全部来自Amazon, Microsoft, : Yelp, Pinterest, : Square, Google, Glassdoor, Groupon的电面和onsite),希望能帮助在找相关工作的
|
x*********0 发帖数: 651 | |
C*Y 发帖数: 679 | |
n******7 发帖数: 12463 | 108 作为google型选手
看到007的问题心里拔凉拔凉的
您又给了我一丝希望
【在 c***z 的大作中提到】 : 大牛,您这是找人教课还是找人解决问题 :P : 您的这些问题我都得一个个去google
|
n******7 发帖数: 12463 | 109
外行请教一下用Hellinger distance如何?
我最近遇到这个问题,试过Hellinger distance,还有有chi-square statistic, 都不
太好,
最后用的非常简单的一个距离定义搞定的
没办法,数据太差,只有简单的才work,但是老板觉得很可能被问道这里
【在 f*********2 的大作中提到】 : 分布函数已知,就用 Kullback-Leibler divergence 刻画二者差异。但这个 KL : divergence 不满足对称性,因此不是距离。 : 分布函数未知,大样本情况下用经验分布函数近似。比较二者,KS test 离散连续通吃 : ,统计量由 maximum distance between empirical distribution functions 构造, : 服从 Kolmogorov 分布。 : 我老板的座佑铭是“客户是上帝〃,客户让干什么就干什么。 : 青岛啤酒不错。 : : etc.
|
j*********d 发帖数: 342 | |
|
|
f*****5 发帖数: 16 | |
j*5 发帖数: 315 | 112 Mark
★ 发自iPhone App: ChineseWeb 13
【在 d***e 的大作中提到】 : 【 以下文字转载自 JobHunting 讨论区 】 : 发信人: ISphoenix (beta3), 信区: JobHunting : 标 题: Data scientist / Machine Learning Engineer 相关面试题 : 关键字: data scientist,machine learning : 发信站: BBS 未名空间站 (Sun Oct 19 17:31:36 2014, 美东) : 去年我找工作的时候发现板上针对data scientist,machine learning engineer面试 : 题总结很少,所以尽量申请了很多公司面试相关职位,想看看行业里这个方向都在问什 : 么。有幸去过不少地方面试,现在把那些题目整理整理(全部来自Amazon, Microsoft, : Yelp, Pinterest, : Square, Google, Glassdoor, Groupon的电面和onsite),希望能帮助在找相关工作的
|
x********o 发帖数: 2092 | 113 大牛,好多不会啊
【在 h*****7 的大作中提到】 : 我出的题 : 简述 vc dimension 以及和 svm 关系 : svm怎么实现?有没有比smo更快的? : 各种kernel空间维度,怎么用 : 简述MAP, fisher information : 简述MCMC基本类型,难点 : bayesian vs frequentist pros and cons : boostrap好处,性质 : 手推PCA : 向量求导手推
|