由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 有关clustering
相关主题
求助 信息提取 (转载)[Data Science Project Case] Generate Categories for Product
问个问题:一堆(1M)二维座标系的点,每个点有weight,怎么做clustering?only average statistics
Science杂志一篇关于clustering的新文章 (转载)找DS的工作 帮忙分析下
我有大概80000~100000个左右的时间序列,希望对他们进行分类。我觉得关于datascience最近看到的几个有价值的贴
有没有谁自己买服务器组建几个clusters跑hadoop大数据的?Science上新clustering算法的分析测试
一道面试题,向本版求教一下。请推荐生物界认可的Clustering Analysis的免费软件
[Data Science Project Case] Fuzzy matching on namesdata scientist的五个方面
有没有人想报Cloudera的Data Scientist Certificate的都用了spark了吗?
相关话题的讨论汇总
话题: clustering话题: 有关话题: hierarchy话题: distance话题: 据点
进入DataSciences版参与讨论
1 (共1页)
I********2
发帖数: 244
1
求教一下有关clustering的问题,
比如说10,000 pairwise 的数据的distance file是1Gb左右的大小,可以用hierarchy
clustering作出几百对非常reasonable的clusters (用numpy和R..)。 如果要scale up
e.g. 100,000 个数据点,光打开distance file这memory占用就过大了, 求教应该如
何处理?
多谢,多谢
w****k
发帖数: 6244
2
假设10000个数据点统计分布和10万个相似
可以根据那1万个的cluster结果,去看另外9万个应该归于哪个cluster

hierarchy
up

【在 I********2 的大作中提到】
: 求教一下有关clustering的问题,
: 比如说10,000 pairwise 的数据的distance file是1Gb左右的大小,可以用hierarchy
: clustering作出几百对非常reasonable的clusters (用numpy和R..)。 如果要scale up
: e.g. 100,000 个数据点,光打开distance file这memory占用就过大了, 求教应该如
: 何处理?
: 多谢,多谢

h********3
发帖数: 2075
3
如果不是很苛求精度,可以考虑BIRCH等streaming clustering算法,速度非常快。
http://www.cs.sfu.ca/CourseCentral/459/han/papers/zhang96.pdf
话说这算法提出都十多年了,也拿了所有research paper能够拿到的各种奖项,可惜大
部分统计出身的人都不太爱看database圈子的paper。

hierarchy
up

【在 I********2 的大作中提到】
: 求教一下有关clustering的问题,
: 比如说10,000 pairwise 的数据的distance file是1Gb左右的大小,可以用hierarchy
: clustering作出几百对非常reasonable的clusters (用numpy和R..)。 如果要scale up
: e.g. 100,000 个数据点,光打开distance file这memory占用就过大了, 求教应该如
: 何处理?
: 多谢,多谢

I********2
发帖数: 244
4
10000个数据点统计分布和10万个不一定相似。:-( 所以可能先做一次分类是个
option..
同时谢谢hotpot...马上去看看BIRCH
1 (共1页)
进入DataSciences版参与讨论
相关主题
都用了spark了吗?有没有谁自己买服务器组建几个clusters跑hadoop大数据的?
Mac or Windows?一道面试题,向本版求教一下。
问一个简单的图像识别问题[Data Science Project Case] Fuzzy matching on names
新博士选题求指导有没有人想报Cloudera的Data Scientist Certificate的
求助 信息提取 (转载)[Data Science Project Case] Generate Categories for Product
问个问题:一堆(1M)二维座标系的点,每个点有weight,怎么做clustering?only average statistics
Science杂志一篇关于clustering的新文章 (转载)找DS的工作 帮忙分析下
我有大概80000~100000个左右的时间序列,希望对他们进行分类。我觉得关于datascience最近看到的几个有价值的贴
相关话题的讨论汇总
话题: clustering话题: 有关话题: hierarchy话题: distance话题: 据点