由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 问道Twitter面试题
相关主题
how to get the top k queries from a search log of terabytes of data?rocket fuel 面试题
职业杯上一个DATABASE题目。问一道面试题。
新鲜面试题常见面试题求助:top N query in last 24 days, last days ...
两道面试题求问一道面试题
请教SQL Query 面试题非常常见的面试题:数据太多,用MySQL查询太慢该怎么办?
考大家一道SQL面试题c++!
讨论几道amazon phone面试题一道题
问一道 facebook 面试题有包子,花街的一道题,请指教
相关话题的讨论汇总
话题: twitter话题: machines话题: machine话题: top话题: query
进入JobHunting版参与讨论
1 (共1页)
r*****b
发帖数: 310
1
Describe how to get the top k queries from a search log of terabytes of data
. Memory/Disk per machine is limited but you can use multiple machines.
如果以前讨论过, 哪位大牛能否给个链接? 先谢过了!
l******l
发帖数: 1088
2
每个machine用priority queue返回,然后再对所有返回的弄个priority queue?
r*****b
发帖数: 310
3
你是说每个machine用一个size K的priority queue?
这样结果好像不一定对吧。比如说一个query它在每一台机器上都不是top K的,但加起
来总和在top K上。
g*********e
发帖数: 14401
4
对每个query hash 保证同一query被分配到同一machine上 在每台机器上对query数进
行排序
然后取top k
然后把所有机器上的top k merge起来
a********m
发帖数: 15480
5
每一个url都要保证在同一台机器上处理,这样不会有后来相加的关系。

【在 r*****b 的大作中提到】
: 你是说每个machine用一个size K的priority queue?
: 这样结果好像不一定对吧。比如说一个query它在每一台机器上都不是top K的,但加起
: 来总和在top K上。

r*****b
发帖数: 310
6
我也有类似的想法...如果这些query已经在不同的machines的log上,我们得先把它们
redistribute到不同的machines上,对吧?
r*****b
发帖数: 310
7
没看到秋虫的回复,对。。。
1 (共1页)
进入JobHunting版参与讨论
相关主题
有包子,花街的一道题,请指教请教SQL Query 面试题
G家面题考大家一道SQL面试题
stream palindrome讨论几道amazon phone面试题
贡献两道google面试题问一道 facebook 面试题
how to get the top k queries from a search log of terabytes of data?rocket fuel 面试题
职业杯上一个DATABASE题目。问一道面试题。
新鲜面试题常见面试题求助:top N query in last 24 days, last days ...
两道面试题求问一道面试题
相关话题的讨论汇总
话题: twitter话题: machines话题: machine话题: top话题: query