有关clustering - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 有关clustering

相关主题
● 求助信息提取 (转载)	● [Data Science Project Case] Generate Categories for Product
● 问个问题：一堆（1M）二维座标系的点，每个点有weight，怎么做clustering？	● only average statistics
● Science杂志一篇关于clustering的新文章 (转载)	● 找DS的工作帮忙分析下
● 我有大概80000～100000个左右的时间序列，希望对他们进行分类。	● 我觉得关于datascience最近看到的几个有价值的贴
● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？	● Science上新clustering算法的分析测试
● 一道面试题，向本版求教一下。	● 请推荐生物界认可的Clustering Analysis的免费软件
● [Data Science Project Case] Fuzzy matching on names	● data scientist的五个方面
● 有没有人想报Cloudera的Data Scientist Certificate的	● 都用了spark了吗？

相关话题的讨论汇总
话题: clustering话题: 有关话题: hierarchy话题: distance话题: 据点

进入DataSciences版参与讨论

1

(共1页)

I********2 发帖数: 244	1 求教一下有关clustering的问题，比如说10,000 pairwise 的数据的distance file是1Gb左右的大小，可以用hierarchy clustering作出几百对非常reasonable的clusters (用numpy和R..)。如果要scale up e.g. 100,000 个数据点，光打开distance file这memory占用就过大了，求教应该如何处理？多谢，多谢
w****k 发帖数: 6244	2 假设10000个数据点统计分布和10万个相似可以根据那1万个的cluster结果，去看另外9万个应该归于哪个cluster hierarchy up 【在 I********2 的大作中提到】 : 求教一下有关clustering的问题， : 比如说10,000 pairwise 的数据的distance file是1Gb左右的大小，可以用hierarchy : clustering作出几百对非常reasonable的clusters (用numpy和R..)。如果要scale up : e.g. 100,000 个数据点，光打开distance file这memory占用就过大了，求教应该如 : 何处理？ : 多谢，多谢
h********3 发帖数: 2075	3 如果不是很苛求精度，可以考虑BIRCH等streaming clustering算法，速度非常快。 http://www.cs.sfu.ca/CourseCentral/459/han/papers/zhang96.pdf 话说这算法提出都十多年了，也拿了所有research paper能够拿到的各种奖项，可惜大部分统计出身的人都不太爱看database圈子的paper。 hierarchy up 【在 I********2 的大作中提到】 : 求教一下有关clustering的问题， : 比如说10,000 pairwise 的数据的distance file是1Gb左右的大小，可以用hierarchy : clustering作出几百对非常reasonable的clusters (用numpy和R..)。如果要scale up : e.g. 100,000 个数据点，光打开distance file这memory占用就过大了，求教应该如 : 何处理？ : 多谢，多谢
I********2 发帖数: 244	4 10000个数据点统计分布和10万个不一定相似。：-（所以可能先做一次分类是个 option.. 同时谢谢hotpot...马上去看看BIRCH

1

(共1页)

进入DataSciences版参与讨论

相关主题
● 都用了spark了吗？	● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？
● Mac or Windows?	● 一道面试题，向本版求教一下。
● 问一个简单的图像识别问题	● [Data Science Project Case] Fuzzy matching on names
● 新博士选题求指导	● 有没有人想报Cloudera的Data Scientist Certificate的
● 求助信息提取 (转载)	● [Data Science Project Case] Generate Categories for Product
● 问个问题：一堆（1M）二维座标系的点，每个点有weight，怎么做clustering？	● only average statistics
● Science杂志一篇关于clustering的新文章 (转载)	● 找DS的工作帮忙分析下
● 我有大概80000～100000个左右的时间序列，希望对他们进行分类。	● 我觉得关于datascience最近看到的几个有价值的贴

相关话题的讨论汇总
话题: clustering话题: 有关话题: hierarchy话题: distance话题: 据点

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)