问一个bloom filter 和 bitmap的使用区别 - CS版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

CS版 - 问一个bloom filter 和 bitmap的使用区别

相关主题
● 关于Hash table 和 bloom filter	● 谁有什么solution吗？
● 算法问题，找出现频率最高的元素	● MINLP里面如何证明local optimality (转载)
● 问一个链表方面的算法问题	● 有人知道免费的min cost network flow solver么？
● 算法求助	● 求牛人帮忙看一看如何用java数组实现输入0－50地任意整数并计算每项输入数据出现次数。
● Re: Efficient duplicate filtering for st	● 怎样实现这个线性转换的算法
● 有这么攒paper的吗	● 一道MS面试题 (转载)
● Neural Networks 求助	● 问一个算法问题
● [转载] 一个类似coupon collector的概率问题	● Latex problem

相关话题的讨论汇总
话题: bloom话题: filter话题: hash话题: url话题: bitmap

进入CS版参与讨论

1

(共1页)

l*********y 发帖数: 142	1 我是在看 http://www.mitbbs.com/article/JobHunting/31491461_3.html bloom filter可以看做是对bit-map的扩展。我原来的想法是bloom filter要比bit map省空间，因为bloom filter设计的思想就是用错误率换空间。但是看了那个帖子里的两道题，又迷茫了不少。问题1：给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。建议答案：根据这个问题我们来计算下内存的占用，4G=2^32大概是40亿*8大概是340亿，n=50亿，如果按出错率0.01算需要的大概是650亿个bit。现在可用的是340亿，相差并不多，这样可能会使出错率上升些。另外如果这些urlip是一一对应的，就可以转换成ip，则大大简单了。问题2)2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。将bit-map扩展一下，用2bit表示一个数即可，0表示未出现，1表示出现一次，2表示出现2次及以上。或者我们不用2bit来进行表示，我们用
a****9 发帖数: 418	2 你如果用第二题解法则要求使用的Hash是perfect Hash 也就是对50亿个元素hash以后没有collision (注意在第二题当中, 这个perfect hash是自然满足的, 第i个数就对应第i个entry. 但在你这里就不能这样,url不是自然有序的, 当然你可以用tire来排序,trie也是一种可以用来hash的方式了) 其实关于BloomFilter的paper里也提到使用Perfect Hash+fingerprint是可以达到information theoretic bound的就是这个perfect hash太难弄了特别规模大【在 l********y 的大作中提到】 : 我是在看 : http://www.mitbbs.com/article/JobHunting/31491461_3.html : bloom filter可以看做是对bit-map的扩展。 : 我原来的想法是bloom filter要比bit map省空间，因为bloom filter设计的思想就是 : 用错误率换空间。但是看了那个帖子里的两道题，又迷茫了不少。 : 问题1：给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让 : 你找出A,B文件共同的URL。 : 建议答案：根据这个问题我们来计算下内存的占用，4G=2^32大概是40亿8大概是340亿 : ，n=50亿，如果按出错率0.01算需要的大概是650亿个bit。现在可用的是340亿，相差 : 并不多，这样可能会使出错率上升些。另外如果这些urlip是一一对应的，就可以转换
l*********y 发帖数: 142	3 非常感谢。很清楚了。【在 a****9 的大作中提到】 : 你如果用第二题解法则要求使用的Hash是perfect Hash : 也就是对50亿个元素hash以后没有collision : (注意在第二题当中, 这个perfect hash是自然满足的, : 第i个数就对应第i个entry. : 但在你这里就不能这样,url不是自然有序的, : 当然你可以用tire来排序,trie也是一种可以用来hash的方式了) : 其实关于BloomFilter的paper里也提到 : 使用Perfect Hash+fingerprint是可以达到information theoretic bound的 : 就是这个perfect hash太难弄了特别规模大

1

(共1页)

进入CS版参与讨论

相关主题
● Latex problem	● Re: Efficient duplicate filtering for st
● memorial page for Prof. Hongjun Lu	● 有这么攒paper的吗
● Re: 关于网叶连接的路径问题,急救!!	● Neural Networks 求助
● 写paper引用wiki的东西可以吗？	● [转载] 一个类似coupon collector的概率问题
● 关于Hash table 和 bloom filter	● 谁有什么solution吗？
● 算法问题，找出现频率最高的元素	● MINLP里面如何证明local optimality (转载)
● 问一个链表方面的算法问题	● 有人知道免费的min cost network flow solver么？
● 算法求助	● 求牛人帮忙看一看如何用java数组实现输入0－50地任意整数并计算每项输入数据出现次数。

相关话题的讨论汇总
话题: bloom话题: filter话题: hash话题: url话题: bitmap

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)