由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 一道大数据的题,讨论一下
相关主题
g电面,新鲜面经贴华人版程序员简历,大家帮忙拍砖成印度版
Yelp面经+题目讨论某大公司面试题
G家电面的两个题面试: Take home project
[面经]YELP家不刷题的惨烈后果问一道glassdoor上看到的yahoo电面题
一个较难的pythpn输出函数运行信息的project.问一道题目
CS 面试题总结(1)再上到题
新鲜面试题找最近的点,这题咋解?
在线紧急求助一道system design面试题,面经内附Ebay三电面,攒人品
相关话题的讨论汇总
话题: ip话题: url话题: country话题: top话题: heap
进入JobHunting版参与讨论
1 (共1页)
b****z
发帖数: 176
1
题目是这样的。
Inputs:
1. Text file containing IP-range (lost/highest IPs inclusive) and country-
code, ~10MB
2. Text file containing browser-IP and URL requested by that browser, ~1TB
Outputs:
1. Top-10 countries that generated the most requests.
2. Top-10 most requested URLs grouped by country.
exact counts are not important. Assume a single machine (16-core / 32-GB
RAM/ 4TB drive) dedicated to this job
第一问应该是用heap做。但是第二问还没有想到很好的方法。
s**x
发帖数: 7506
2
How to map ip to a country efficiently? 以前有个同事喜欢问差不多同样的问题,
好像就是用两个level, first level direct small hash, second level binary
search.
Group by country is easy as we only have 200+ countries .
Group by country + url will be a lot, since not require exact number, you
probably can just main a small heap, say 10000 country + url , then find the
last top 10.
抛砖引玉。
s******7
发帖数: 1758
3
我来扔个砖头吧,没做过big data, 为面试专门看了一下
1苯办法,文件肯定至少要读一遍的,读的时候每个ip判断国家,按200个国家分成200
个文件, 同时用一个long[20]数组记录着个国家的ip数,数组排序就得到前10
2.每个国家的文件,根据该国的ip数和request数,一个或者分做多个(32G/ip数*
request数)map(ip, request number),再读一遍,用heap就可以找到 top 10了
m*****k
发帖数: 731
4
1 用的是browser IP, 直接读文件, update 一个HashMap , req_count>, update 一个小文件,文件名为URL_HASH,小文件只有一条纪录:<
countryCode_of_URL,
URL,req_count>
最后再heaplify一下HashMap, 不需要用long[20]数组和排序。
2 用的是URL,用上一步生成的所有小文件建立200+个堆。精确解。
c********r
发帖数: 107
5
mark
b*******d
发帖数: 750
6
map side join....
m*****n
发帖数: 2152
7
这道题很简单啊。
建一个二维histogram, x axis用IP分bin (可以每个country一个bin),y axis用
URL的hash value分bin。
然后顺序读入所有数据, fill 相对应的bin。内存绝对够用。
然后把histogram projection到x axis,建个10位的heap,用heap sort,搞定(1).
然后把histogram projection到y axis,建个10位的heap,用heap sort,搞定(2).

【在 b****z 的大作中提到】
: 题目是这样的。
: Inputs:
: 1. Text file containing IP-range (lost/highest IPs inclusive) and country-
: code, ~10MB
: 2. Text file containing browser-IP and URL requested by that browser, ~1TB
: Outputs:
: 1. Top-10 countries that generated the most requests.
: 2. Top-10 most requested URLs grouped by country.
: exact counts are not important. Assume a single machine (16-core / 32-GB
: RAM/ 4TB drive) dedicated to this job

1 (共1页)
进入JobHunting版参与讨论
相关主题
Ebay三电面,攒人品一个较难的pythpn输出函数运行信息的project.
问一道题(3)CS 面试题总结(1)
讨论:一个Google面经算法题新鲜面试题
我花了一个小时才调通过这个程序在线紧急求助一道system design面试题,面经内附
g电面,新鲜面经贴华人版程序员简历,大家帮忙拍砖成印度版
Yelp面经+题目讨论某大公司面试题
G家电面的两个题面试: Take home project
[面经]YELP家不刷题的惨烈后果问一道glassdoor上看到的yahoo电面题
相关话题的讨论汇总
话题: ip话题: url话题: country话题: top话题: heap