求助信息提取 (转载) - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 求助信息提取 (转载)

相关主题
● 有关clustering	● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？
● 问个问题：一堆（1M）二维座标系的点，每个点有weight，怎么做clustering？	● 有谁做过自定义地图Floor Plan的热点图么- indoor Heatmap (转载)
● 请教一个R问题：怎么rbind一系列data，如data1，data2,....data1000	● hadoop pig的问题
● feature selection的方法求教	● 在R里merge两个dataframe太慢了
● PCA 可以用在mixture of continuous 和categorical variables (转载)	● random forest 有没有可能保证某几个变量一直被选上
● 问个R的问题	● model selection problem
● Science杂志一篇关于clustering的新文章 (转载)	● R问题请教
● 我有大概80000～100000个左右的时间序列，希望对他们进行分类。	● 请推荐data science 在线学习的program

相关话题的讨论汇总
话题: 信息提取话题: feature话题: 10话题: 100k话题: matrix

进入DataSciences版参与讨论

1

(共1页)

n*****5 发帖数: 984	1 我有一个 10 ＊ 100K的矩阵， 10 是10个feature， 100K 是数据点，每个点会包括一些或者全部feature。 F1， F2, ... FN 数据就是 data1 1, 0, 0, 1 ... data2 1, 0, 1, 1 ... 现在我想求出这10个feature 之间的关系，比如说把10个feature，每个feature 对应一个(x,y) 然后把10个feature 画出来。请问应该用什么方法？十分感谢
Y****a 发帖数: 243	2 同学，你知道你在说什么吗？你的数据是在一个10维空间里，目前的技术似乎只可以直观的显示3维空间中的点面线等。
Y****a 发帖数: 243	3 你可以画10个单独的series出来，不确定这样的意义有多大或者45个pairwise的contigency table。
i*r 发帖数: 83	4 不想复杂，你就是要看 10 个feautre之间的关系，做一个correlation/covariance matrix，这个matrix就capture了所有10个feature两两之间相关性。然后在这个cor matrix做个hiearchical clustering，你就看出来相互之间的关系，这样最简单，因为correlation matrix 是normalized cov，阈值范围（-1,1），一幕了然。 R code for simulation variable 7，8,9,10 和variable 1 是正相关： x = matrix(rnorm(40,mean=2),ncol=10) for(i in 7:10) x[,i] = x[,1]*i + rnorm(4) x.cor = cor(x) gplots::heatmap.2(x.cor) 你会看见1,7-10 会group在一起的，还不明白的话google “hierachical clustering ” 和 “heatmap” 复杂点的，做 multidimension scaling 或者 PCA 投影到 2 维，你可以看出那几个变量在坐标轴上更近. google
c***z 发帖数: 6348	5 👍赞 covariance cor clustering 【在 ir 的大作中提到】 : 不想复杂，你就是要看 10 个feautre之间的关系，做一个correlation/covariance : matrix，这个matrix就capture了所有10个feature两两之间相关性。然后在这个cor : matrix做个hiearchical clustering，你就看出来相互之间的关系，这样最简单， : 因为correlation matrix 是normalized cov，阈值范围（-1,1），一幕了然。 : R code for simulation variable 7，8,9,10 和variable 1 是正相关： : x = matrix(rnorm(40,mean=2),ncol=10) : for(i in 7:10) x[,i] = x[,1]i + rnorm(4) : x.cor = cor(x) : gplots::heatmap.2(x.cor) : 你会看见1,7-10 会group在一起的，还不明白的话google “hierachical clustering
n*****5 发帖数: 984	6 做了PCA 投影到 2 维。十分感谢！！ covariance cor clustering 【在 ir 的大作中提到】 : 不想复杂，你就是要看 10 个feautre之间的关系，做一个correlation/covariance : matrix，这个matrix就capture了所有10个feature两两之间相关性。然后在这个cor : matrix做个hiearchical clustering，你就看出来相互之间的关系，这样最简单， : 因为correlation matrix 是normalized cov，阈值范围（-1,1），一幕了然。 : R code for simulation variable 7，8,9,10 和variable 1 是正相关： : x = matrix(rnorm(40,mean=2),ncol=10) : for(i in 7:10) x[,i] = x[,1]i + rnorm(4) : x.cor = cor(x) : gplots::heatmap.2(x.cor) : 你会看见1,7-10 会group在一起的，还不明白的话google “hierachical clustering

1

(共1页)

进入DataSciences版参与讨论

相关主题
● 请推荐data science 在线学习的program	● PCA 可以用在mixture of continuous 和categorical variables (转载)
● [Data Science Project Case]Future Income predicting	● 问个R的问题
● 计算 confidence interval 和 prediction interval的一般方法	● Science杂志一篇关于clustering的新文章 (转载)
● 求教linear regression的一道面试题	● 我有大概80000～100000个左右的时间序列，希望对他们进行分类。
● 有关clustering	● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？
● 问个问题：一堆（1M）二维座标系的点，每个点有weight，怎么做clustering？	● 有谁做过自定义地图Floor Plan的热点图么- indoor Heatmap (转载)
● 请教一个R问题：怎么rbind一系列data，如data1，data2,....data1000	● hadoop pig的问题
● feature selection的方法求教	● 在R里merge两个dataframe太慢了

相关话题的讨论汇总
话题: 信息提取话题: feature话题: 10话题: 100k话题: matrix

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)