boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - Apple 电话面试 面经
相关主题
在实际工作MySQL query optimization的问题
问一个和统计相关的算法面试题 (转载)
昨天考了SAS ADVANCED,不难
[合集] 请EXCEL 高手指点
update (some interview experiences)--急,面试求助:用ACCESS
问一下SQL in Python。
How to communicate between R and Access
Import data in R
SQL 有证书考试吗?
用SQL或者ACCESS来做Query design/data extraction
相关话题的讨论汇总
话题: queries话题: 5k话题: query话题: distance话题: frequency
进入Statistics版参与讨论
1 (共1页)
s********n
发帖数: 80
1
感觉不是很好,一共就问了一个问题,关于Map 定位,现在正在用一个算法A,然后想
比较是不是算法B更好,数据库里面保存了上个月的20M的Queries,现在要从这20M里面
挑5K个拿来比较,当挑出这5K个之后,对于每个query,算法A和算法B都会给一个结果
,已有算法对这结果进行打分。问题是怎么挑着5K个queries?
我说了两个方法,最简单的就是randomly挑,但是又有缺点,就是可能会有queries是
类似的。当然每个query根据搜索的内容,发出query的地址不同都是不同的。我觉得可
能的缺点是没法考虑outlier。
另外一种方法就是先归类,哪怕有1M的queries都是搜附近的starbucks是哪里,我也就
在这5K要提交的queries里面抽一个是问starbucks在哪里。把剩下的席位留给其他很不
一样的Queries。但是这个里面需要建立一个东西来衡量不同queries的distance。尽量
保证着5K个queries两两之间的distance比较大。然后他问你这样算出来的结果能代表
那20M的queries吗?我说不能,但是你能知道两种算法AB在不同queries里面的表现如
何。
B******5
发帖数: 4676
2
What is the position?
s********n
发帖数: 80
3
是algorithm Analyst/Statistician

【在 B******5 的大作中提到】
: What is the position?
b********8
发帖数: 3059
4
cross validation

【在 s********n 的大作中提到】
: 是algorithm Analyst/Statistician
s********n
发帖数: 80
5
能具体说说怎么用这个CV来抽取5K个query吗

【在 b********8 的大作中提到】
: cross validation
l******n
发帖数: 9344
6
要知道怎么挑,首先要确定你想干什么?你想要比较哪方面的性能,然后才能确定怎么选

【在 s********n 的大作中提到】
: 感觉不是很好,一共就问了一个问题,关于Map 定位,现在正在用一个算法A,然后想
: 比较是不是算法B更好,数据库里面保存了上个月的20M的Queries,现在要从这20M里面
: 挑5K个拿来比较,当挑出这5K个之后,对于每个query,算法A和算法B都会给一个结果
: ,已有算法对这结果进行打分。问题是怎么挑着5K个queries?
: 我说了两个方法,最简单的就是randomly挑,但是又有缺点,就是可能会有queries是
: 类似的。当然每个query根据搜索的内容,发出query的地址不同都是不同的。我觉得可
: 能的缺点是没法考虑outlier。
: 另外一种方法就是先归类,哪怕有1M的queries都是搜附近的starbucks是哪里,我也就
: 在这5K要提交的queries里面抽一个是问starbucks在哪里。把剩下的席位留给其他很不
: 一样的Queries。但是这个里面需要建立一个东西来衡量不同queries的distance。尽量

g******2
发帖数: 234
7
I think the key is to use weighted sampling, you could try the following
1. sample by vertical buckets
2. sample using frequency weights
3. sample using accuracy weights
I think what you answered is close to the first option.
D**u
发帖数: 288
8
有意思,这个不是考experiment design + A/B testing 么. distance metric 可以用
zipcode,city name, etc来做么? 如果没有zipcode只有text,可以calculate text
string 之间的相似程度,有好几个algorithm,作为distance...不过,不会真只有
text吧, submit 时间,ip address, latlong 这些都没有啊?
很多A/B testing 的问题都要sequentially 分几步 test, 还有没有提供什么其他条
件和信息?query 都是什么样的?
以上都是乱讲的
D**u
发帖数: 288
9
with respect地问两句:
Accuracy 不是sample拿到后,算完才有的么?
frequency 如果query text都不一样怎样算?

【在 g******2 的大作中提到】
: I think the key is to use weighted sampling, you could try the following
: 1. sample by vertical buckets
: 2. sample using frequency weights
: 3. sample using accuracy weights
: I think what you answered is close to the first option.

h***i
发帖数: 3844
10
clustering based on something like editdistance, domain name, etc?
or even weight based on revenue

【在 D**u 的大作中提到】
: with respect地问两句:
: Accuracy 不是sample拿到后,算完才有的么?
: frequency 如果query text都不一样怎样算?

g******2
发帖数: 234
11
I think usually they know the query accuracy through human evaluation, click
duration or some other method.
For frequency, you could calculate that based on 1. raw query (sounds like
lots of queries, but there are actually lots of high frequency queries) 2.
user cookie/ip (where you could obtain some useful information from the
users, like their location, frequency of using the product, and so on). Of
course there are lots of other ways to do it, but those are the simplest
ones I think.

【在 D**u 的大作中提到】
: with respect地问两句:
: Accuracy 不是sample拿到后,算完才有的么?
: frequency 如果query text都不一样怎样算?

s********n
发帖数: 80
12
我一开始也是想着要先分类,但是本来是想根据text来分类,好比都是搜starbucks,
那我就归为一类。但是后来想想,在LA搜starbucks和在一个荒郊野岭搜starbucks还是
很不一样的,直接合并为一类不是很好,所以就给每一个可能的值,比如text,IP
address, time之类的都给算个distance,然后加权算一个总的distance。抽5K个
sample的时候就尽量让总的distance最大。
但是这些distance的值我觉得还应该用在后面的AB对于这5K个queries的计算结果上,
但是就是不知道该怎么结合这distance和计算结果了。

text

【在 D**u 的大作中提到】
: 有意思,这个不是考experiment design + A/B testing 么. distance metric 可以用
: zipcode,city name, etc来做么? 如果没有zipcode只有text,可以calculate text
: string 之间的相似程度,有好几个algorithm,作为distance...不过,不会真只有
: text吧, submit 时间,ip address, latlong 这些都没有啊?
: 很多A/B testing 的问题都要sequentially 分几步 test, 还有没有提供什么其他条
: 件和信息?query 都是什么样的?
: 以上都是乱讲的

1 (共1页)
进入Statistics版参与讨论
相关主题
用SQL或者ACCESS来做Query design/data extraction
看世界杯,有没有做SAS的同学?? (转载)
有没有做SAS的同学?我能帮着推荐一下 (转载)
[Mysql] how to return NULL count in group by query
请问:query about checking consistency (转载)
请大侠指教,在R 里面run query的问题。
面试的SQL问题一般问些啥?
reporting analyst面试的问题回答
啥叫DATABASE STRUCTURE?
help! whether 'cat(of ' could be used in proc sql?
相关话题的讨论汇总
话题: queries话题: 5k话题: query话题: distance话题: frequency