r*****b 发帖数: 310 | 1 Describe how to get the top k queries from a search log of terabytes of data
. Memory/Disk per machine is limited but you can use multiple machines.
如果以前讨论过, 哪位大牛能否给个链接? 先谢过了! |
l******l 发帖数: 1088 | 2 每个machine用priority queue返回,然后再对所有返回的弄个priority queue? |
r*****b 发帖数: 310 | 3 你是说每个machine用一个size K的priority queue?
这样结果好像不一定对吧。比如说一个query它在每一台机器上都不是top K的,但加起
来总和在top K上。 |
g*********e 发帖数: 14401 | 4 对每个query hash 保证同一query被分配到同一machine上 在每台机器上对query数进
行排序
然后取top k
然后把所有机器上的top k merge起来 |
a********m 发帖数: 15480 | 5 每一个url都要保证在同一台机器上处理,这样不会有后来相加的关系。
【在 r*****b 的大作中提到】 : 你是说每个machine用一个size K的priority queue? : 这样结果好像不一定对吧。比如说一个query它在每一台机器上都不是top K的,但加起 : 来总和在top K上。
|
r*****b 发帖数: 310 | 6 我也有类似的想法...如果这些query已经在不同的machines的log上,我们得先把它们
redistribute到不同的machines上,对吧? |
r*****b 发帖数: 310 | |