I********2 发帖数: 244 | 1 求教一下有关clustering的问题,
比如说10,000 pairwise 的数据的distance file是1Gb左右的大小,可以用hierarchy
clustering作出几百对非常reasonable的clusters (用numpy和R..)。 如果要scale up
e.g. 100,000 个数据点,光打开distance file这memory占用就过大了, 求教应该如
何处理?
多谢,多谢 |
w****k 发帖数: 6244 | 2 假设10000个数据点统计分布和10万个相似
可以根据那1万个的cluster结果,去看另外9万个应该归于哪个cluster
hierarchy
up
【在 I********2 的大作中提到】 : 求教一下有关clustering的问题, : 比如说10,000 pairwise 的数据的distance file是1Gb左右的大小,可以用hierarchy : clustering作出几百对非常reasonable的clusters (用numpy和R..)。 如果要scale up : e.g. 100,000 个数据点,光打开distance file这memory占用就过大了, 求教应该如 : 何处理? : 多谢,多谢
|
h********3 发帖数: 2075 | 3 如果不是很苛求精度,可以考虑BIRCH等streaming clustering算法,速度非常快。
http://www.cs.sfu.ca/CourseCentral/459/han/papers/zhang96.pdf
话说这算法提出都十多年了,也拿了所有research paper能够拿到的各种奖项,可惜大
部分统计出身的人都不太爱看database圈子的paper。
hierarchy
up
【在 I********2 的大作中提到】 : 求教一下有关clustering的问题, : 比如说10,000 pairwise 的数据的distance file是1Gb左右的大小,可以用hierarchy : clustering作出几百对非常reasonable的clusters (用numpy和R..)。 如果要scale up : e.g. 100,000 个数据点,光打开distance file这memory占用就过大了, 求教应该如 : 何处理? : 多谢,多谢
|
I********2 发帖数: 244 | 4 10000个数据点统计分布和10万个不一定相似。:-( 所以可能先做一次分类是个
option..
同时谢谢hotpot...马上去看看BIRCH |