由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
CS版 - 问一个bloom filter 和 bitmap的使用区别
相关主题
关于Hash table 和 bloom filter谁有什么solution吗?
算法问题,找出现频率最高的元素MINLP里面如何证明local optimality (转载)
问一个链表方面的算法问题有人知道免费的min cost network flow solver么?
算法求助求牛人帮忙看一看如何用java数组实现输入0-50地任意整数并计算每项输入数据出现次数。
Re: Efficient duplicate filtering for st怎样实现这个线性转换的算法
有这么攒paper的吗一道MS面试题 (转载)
Neural Networks 求助问一个算法问题
[转载] 一个类似coupon collector的概率问题Latex problem
相关话题的讨论汇总
话题: bloom话题: filter话题: hash话题: url话题: bitmap
进入CS版参与讨论
1 (共1页)
l*********y
发帖数: 142
1
我是在看
http://www.mitbbs.com/article/JobHunting/31491461_3.html
bloom filter可以看做是对bit-map的扩展。
我原来的想法是bloom filter要比bit map省空间,因为bloom filter设计的思想就是
用错误率换空间。但是看了那个帖子里的两道题,又迷茫了不少。
问题1:给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让
你找出A,B文件共同的URL。
建议答案:根据这个问题我们来计算下内存的占用,4G=2^32大概是40亿*8大概是340亿
,n=50亿,如果按出错率0.01算需要的大概是650亿个bit。现在可用的是340亿,相差
并不多,这样可能会使出错率上升些。另外如果这些urlip是一一对应的,就可以转换
成ip,则大大简单了。
问题2)2.5亿个整数中找出不重复的整数的个数,内存空间不足以容纳这2.5亿个整数。
将bit-map扩展一下,用2bit表示一个数即可,0表示未出现,1表示出现一次,2表示出
现2次及以上。或者我们不用2bit来进行表示,我们用
a****9
发帖数: 418
2
你如果用第二题解法 则要求使用的Hash是perfect Hash
也就是对50亿个元素hash以后没有collision
(注意在第二题当中, 这个perfect hash是自然满足的,
第i个数就对应第i个entry.
但在你这里就不能这样,url不是自然有序的,
当然你可以用tire来排序,trie也是一种可以用来hash的方式了)
其实关于BloomFilter的paper里也提到
使用Perfect Hash+fingerprint是可以达到information theoretic bound的
就是这个perfect hash太难弄了 特别规模大

【在 l*********y 的大作中提到】
: 我是在看
: http://www.mitbbs.com/article/JobHunting/31491461_3.html
: bloom filter可以看做是对bit-map的扩展。
: 我原来的想法是bloom filter要比bit map省空间,因为bloom filter设计的思想就是
: 用错误率换空间。但是看了那个帖子里的两道题,又迷茫了不少。
: 问题1:给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让
: 你找出A,B文件共同的URL。
: 建议答案:根据这个问题我们来计算下内存的占用,4G=2^32大概是40亿*8大概是340亿
: ,n=50亿,如果按出错率0.01算需要的大概是650亿个bit。现在可用的是340亿,相差
: 并不多,这样可能会使出错率上升些。另外如果这些urlip是一一对应的,就可以转换

l*********y
发帖数: 142
3
非常感谢。很清楚了。

【在 a****9 的大作中提到】
: 你如果用第二题解法 则要求使用的Hash是perfect Hash
: 也就是对50亿个元素hash以后没有collision
: (注意在第二题当中, 这个perfect hash是自然满足的,
: 第i个数就对应第i个entry.
: 但在你这里就不能这样,url不是自然有序的,
: 当然你可以用tire来排序,trie也是一种可以用来hash的方式了)
: 其实关于BloomFilter的paper里也提到
: 使用Perfect Hash+fingerprint是可以达到information theoretic bound的
: 就是这个perfect hash太难弄了 特别规模大

1 (共1页)
进入CS版参与讨论
相关主题
Latex problemRe: Efficient duplicate filtering for st
memorial page for Prof. Hongjun Lu有这么攒paper的吗
Re: 关于网叶连接的路径问题,急救!!Neural Networks 求助
写paper引用wiki的东西可以吗?[转载] 一个类似coupon collector的概率问题
关于Hash table 和 bloom filter谁有什么solution吗?
算法问题,找出现频率最高的元素MINLP里面如何证明local optimality (转载)
问一个链表方面的算法问题有人知道免费的min cost network flow solver么?
算法求助求牛人帮忙看一看如何用java数组实现输入0-50地任意整数并计算每项输入数据出现次数。
相关话题的讨论汇总
话题: bloom话题: filter话题: hash话题: url话题: bitmap