由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 问个海量数据处理问题
相关主题
能在这里问个算法题目么?一道design题
问个L家设计题 大数据处理的请教,求最近5分钟,10分钟,1小时内Top 3的搜索关键字, 这题有什么好的想法?
问个大数据处理的面试题谷歌面经
问个spark的问题Hot startup coding test 的问题
这个题怎么做啊?一道design题
雅虎面经报个A家的面经
发G店面面经(已挂),为即将到来的onsite求bless问一道airbnb的面试题
Amazon On-site 面经+求bless,快两周了还没消息。龟板主题
相关话题的讨论汇总
话题: 文件话题: 5000话题: 1g话题: 每个话题: 大小
进入JobHunting版参与讨论
1 (共1页)
e***s
发帖数: 799
1
有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大
小是1M。返回频数最高的100个词
参考答案:1.Hash(x)%5000 把每个词映射到5000个小文件里,大小约200k。
2.在每个文件里,用HASH_MAP统计词频,把每个文件里的TOP100留下。
3.N-way merge sort 5000个文件。
但我的问题是,如果这1G大的文件里,每个词都是同一个词。或者比较极端的一个次出
现>5000次。怎么平均映射到5000个小文件中呢?
f*******t
发帖数: 7549
2
小文件再分
1 (共1页)
进入JobHunting版参与讨论
相关主题
龟板主题这个题怎么做啊?
談談怎麽談薪水的策略与技巧之一雅虎面经
NUS的assistant prof和下面几个比如何? (转载)发G店面面经(已挂),为即将到来的onsite求bless
cs 的专业,大公司找人会看学校的背景么Amazon On-site 面经+求bless,快两周了还没消息。
能在这里问个算法题目么?一道design题
问个L家设计题 大数据处理的请教,求最近5分钟,10分钟,1小时内Top 3的搜索关键字, 这题有什么好的想法?
问个大数据处理的面试题谷歌面经
问个spark的问题Hot startup coding test 的问题
相关话题的讨论汇总
话题: 文件话题: 5000话题: 1g话题: 每个话题: 大小