由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 请教,求最近5分钟,10分钟,1小时内Top 3的搜索关键字, 这题有什么好的想法?
相关主题
Amazon电面,比楼层扔鸡蛋题更难的智力题G家面题
问个算法题:寻找两个点之间的所有路径how to get the top k queries from a search log of terabytes of data?
一道design题问道Twitter面试题
a system design questionstream palindrome
what is the internal implementation of DequeMathWorks被拒
c++!算法:按照字典序求第k个排列数
一道题我也来道题吧
有包子,花街的一道题,请指教电面bloomberg的,你们拿到onsite了吗
相关话题的讨论汇总
话题: top话题: 词频话题: 分钟话题: 小时话题: 这题
进入JobHunting版参与讨论
1 (共1页)
c********u
发帖数: 1177
1
假设这个query log分布在很多台机器上
在每个机器上上做词频统计,然后归拢排序起来求出top3, 同时在每个机器上有个线程
每几秒种去踢掉一些expire的词频,同时加入新搜索的词频?大致这么个过程?
请教各位大牛 有什么高招,谢谢
c******a
发帖数: 789
2
在每个机器上上做词频统计,然后归拢排序起来求出top3---这个同意,但基本可以
确定不能在一台机上归拢,得partition。
每几秒踢这个不同意。超过一小时的都得踢,最少每秒就得踢一次。
但如果这样一直踢又不scalable了,明儿要找2小时、24小时内的top3,你得等1、23个
小时build数据才能做。
我也没有好解法,问了问室友,说拿b tree,一边aggreate很多info在每个节点。想不
通。。。
c******a
发帖数: 789
3
换个角度想,如果是个sql数据库,5min 10min 任何时段,一个sql就搞定了。
sql的底层数据结构就是b+树,说不定真可以那么搞。。。
c********u
发帖数: 1177
4
每次查询都要load一次数据库。。。。
更不scalable了啊

【在 c******a 的大作中提到】
: 换个角度想,如果是个sql数据库,5min 10min 任何时段,一个sql就搞定了。
: sql的底层数据结构就是b+树,说不定真可以那么搞。。。

A***o
发帖数: 358
5
用3个deque, 3个histogram,query来的时候去查histogram,time out 或者 数据来的
时候更新 deque 和 histogram
1 (共1页)
进入JobHunting版参与讨论
相关主题
电面bloomberg的,你们拿到onsite了吗what is the internal implementation of Deque
question 2: o(1) euque and dequeue?c++!
Google经典题目一问一道题
问道题(分球问题)有包子,花街的一道题,请指教
Amazon电面,比楼层扔鸡蛋题更难的智力题G家面题
问个算法题:寻找两个点之间的所有路径how to get the top k queries from a search log of terabytes of data?
一道design题问道Twitter面试题
a system design questionstream palindrome
相关话题的讨论汇总
话题: top话题: 词频话题: 分钟话题: 小时话题: 这题