由买买提看人间百态
登录
首页
论坛
未名存档
话题女王
小圈子
马甲追踪
版面排名
流量曲线
水枪排名
发帖量曲线
发帖版面饼图
发帖时间柱图
关于本站
帮助
boards
本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字
访问原贴
JobHunting版
- 问个海量数据处理问题
相关主题
●
能在这里问个算法题目么?
●
一道design题
●
问个L家设计题 大数据处理的
●
请教,求最近5分钟,10分钟,1小时内Top 3的搜索关键字, 这题有什么好的想法?
●
问个大数据处理的面试题
●
谷歌面经
●
问个spark的问题
●
Hot startup coding test 的问题
●
这个题怎么做啊?
●
一道design题
●
雅虎面经
●
报个A家的面经
●
发G店面面经(已挂),为即将到来的onsite求bless
●
问一道airbnb的面试题
●
Amazon On-site 面经+求bless,快两周了还没消息。
●
龟板主题
相关话题的讨论汇总
话题: 文件
话题: 5000
话题: 1g
话题: 每个
话题: 大小
进入JobHunting版参与讨论
1
(共1页)
e***s
发帖数: 799
1
有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大
小是1M。返回频数最高的100个词
参考答案:1.Hash(x)%5000 把每个词映射到5000个小文件里,大小约200k。
2.在每个文件里,用HASH_MAP统计词频,把每个文件里的TOP100留下。
3.N-way merge sort 5000个文件。
但我的问题是,如果这1G大的文件里,每个词都是同一个词。或者比较极端的一个次出
现>5000次。怎么平均映射到5000个小文件中呢?
f*******t
发帖数: 7549
2
小文件再分
1
(共1页)
进入JobHunting版参与讨论
相关主题
●
龟板主题
●
这个题怎么做啊?
●
談談怎麽談薪水的策略与技巧之一
●
雅虎面经
●
NUS的assistant prof和下面几个比如何? (转载)
●
发G店面面经(已挂),为即将到来的onsite求bless
●
cs 的专业,大公司找人会看学校的背景么
●
Amazon On-site 面经+求bless,快两周了还没消息。
●
能在这里问个算法题目么?
●
一道design题
●
问个L家设计题 大数据处理的
●
请教,求最近5分钟,10分钟,1小时内Top 3的搜索关键字, 这题有什么好的想法?
●
问个大数据处理的面试题
●
谷歌面经
●
问个spark的问题
●
Hot startup coding test 的问题
相关话题的讨论汇总
话题: 文件
话题: 5000
话题: 1g
话题: 每个
话题: 大小
未名新帖统计
// 7月16日
#
版面
帖数(主题数)
-
全站
4871 (796)
1
Military
3777 (569)
2
Stock
341 (51)
3
Joke
117 (17)
4
History
116 (3)
5
Automobile
100 (9)
6
USANews
55 (9)
7
Midlife
45 (1)
8
Headline
41 (41)
9
Dreamer
33 (13)
10
FleaMarket
32 (20)
11
Living
30 (7)
* 这里只显示发帖超过25的版面,努力灌水吧:-)
历史上的今天
faintcat妹妹看进来~~
发表于12年前.
NSC, PD 1/7/2007, EB2, ...
发表于11年前.
[FBA求购]MJVE2 758 MJVM2 ...
发表于6年前.
老生常谈,归与不归
发表于10年前.
【申请】Seattle西雅图 版版主——申请人...
发表于9年前.
宝宝出生,头骨骨折,求祝福
发表于9年前.
求推荐舒缓优美的古典音乐
发表于11年前.
百分之一的北京人上北大 中国网友愤怒(转载)
发表于10年前.
新人带狗狗Bailey来报道
发表于12年前.
全世界最有价值的运动队
发表于10年前.
请问大切诺基的质量如何
发表于6年前.
TNND,军版全是BKC
发表于15年前.
Inception
发表于12年前.
微软的有些家属可真恶心,为了卖保险脸都不要了
发表于10年前.
每周坐高铁的苦逼来说说感受吧!!
发表于9年前.