K*****k 发帖数: 430 | 1 一个大文件包含了上亿条url的记录,不能全部装入内存,如何找到top popular的10条
? 如果不需要exact的top 10, 什么方法可以最快找到近似的top 10? | y**********u 发帖数: 6366 | 2 min heap
【在 K*****k 的大作中提到】 : 一个大文件包含了上亿条url的记录,不能全部装入内存,如何找到top popular的10条 : ? 如果不需要exact的top 10, 什么方法可以最快找到近似的top 10?
| s******n 发帖数: 226 | 3 近似的话,sampling就好了,MCMC应该可以? | m**********r 发帖数: 122 | 4 But MCMC can be very slow.
【在 s******n 的大作中提到】 : 近似的话,sampling就好了,MCMC应该可以?
|
|