由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 这个题怎么做啊?
相关主题
请教电面试题hashtable的遍历
求教一道面试题一道去年的g家题
问道大数据的题用bst怎么实现hashtable?
探讨加请教:我工作中的一道题谁来解释下hashtable的iterator是怎么实现的
三星面经discuss an array rearrange question
再问个题interview中被问到没有的做过的东西怎么回答?
HASHTABLE collision 后REHASH 怎么SEARCHimplement hash table
算法题心情坏到极点
相关话题的讨论汇总
话题: 文件话题: 大小话题: 10k话题: 1m话题: hashtable
进入JobHunting版参与讨论
1 (共1页)
l*********r
发帖数: 674
1
有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16个字节,内存限制
大小是1M。返回频数最高的100个词。
J*******i
发帖数: 2162
2
可以往硬盘写数据吗?
j*****u
发帖数: 1133
3
可以外排,map-reduce
或者以下优化的近似解法:
词+出现次数=20byte
1M可以放50k个词了,假设hashtable是ideal的
比如限制hashtable大小为10k,read file同时build hashtable的时候如果超过了10k个
item就drop频率低的一半,或者简单些用某一阈值
假设词在文件中出现相对均匀这个方法就可以work

【在 l*********r 的大作中提到】
: 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16个字节,内存限制
: 大小是1M。返回频数最高的100个词。

l*********r
发帖数: 674
4
外排序用英文怎么说?

10k个

【在 j*****u 的大作中提到】
: 可以外排,map-reduce
: 或者以下优化的近似解法:
: 词+出现次数=20byte
: 1M可以放50k个词了,假设hashtable是ideal的
: 比如限制hashtable大小为10k,read file同时build hashtable的时候如果超过了10k个
: item就drop频率低的一半,或者简单些用某一阈值
: 假设词在文件中出现相对均匀这个方法就可以work

c*b
发帖数: 3126
5
http://en.wikipedia.org/wiki/External_sorting

【在 l*********r 的大作中提到】
: 外排序用英文怎么说?
:
: 10k个

b*****e
发帖数: 474
6
嗯,肯定是要 Divide and Conquer 了
读文件的时候按照词的长度和前缀甄别一下,写入不同的子文件中,
每个子文件的前100再来比较一下就可以了。
子文件过大的时候还要继续甄别。
这个其实就是 Bucket sort,只不过用文件当Bucket。

10k个

【在 j*****u 的大作中提到】
: 可以外排,map-reduce
: 或者以下优化的近似解法:
: 词+出现次数=20byte
: 1M可以放50k个词了,假设hashtable是ideal的
: 比如限制hashtable大小为10k,read file同时build hashtable的时候如果超过了10k个
: item就drop频率低的一半,或者简单些用某一阈值
: 假设词在文件中出现相对均匀这个方法就可以work

1 (共1页)
进入JobHunting版参与讨论
相关主题
心情坏到极点三星面经
facebook intern 面经再问个题
关于2D, 3D平面上点的问题?HASHTABLE collision 后REHASH 怎么SEARCH
求 Maximum Subarray divide and conquer 解法算法题
请教电面试题hashtable的遍历
求教一道面试题一道去年的g家题
问道大数据的题用bst怎么实现hashtable?
探讨加请教:我工作中的一道题谁来解释下hashtable的iterator是怎么实现的
相关话题的讨论汇总
话题: 文件话题: 大小话题: 10k话题: 1m话题: hashtable