由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 求助 信息提取 (转载)
相关主题
有关clustering有没有谁自己买服务器组建几个clusters跑hadoop大数据的?
问个问题:一堆(1M)二维座标系的点,每个点有weight,怎么做clustering?有谁做过自定义地图Floor Plan的热点图么- indoor Heatmap (转载)
请教一个R问题:怎么rbind一系列data,如data1,data2,....data1000hadoop pig的问题
feature selection的方法求教在R里merge两个dataframe太慢了
PCA 可以用在mixture of continuous 和categorical variables (转载)random forest 有没有可能保证某几个变量一直被选上
问个R的问题model selection problem
Science杂志一篇关于clustering的新文章 (转载)R问题请教
我有大概80000~100000个左右的时间序列,希望对他们进行分类。请推荐data science 在线学习的program
相关话题的讨论汇总
话题: 信息提取话题: feature话题: 10话题: 100k话题: matrix
进入DataSciences版参与讨论
1 (共1页)
n*****5
发帖数: 984
1
我有一个 10 * 100K的矩阵, 10 是10个feature, 100K 是数据点,每个点会包括一
些或者全部feature。
F1, F2, ... FN
数据就是 data1 1, 0, 0, 1 ...
data2 1, 0, 1, 1 ...
现在我想求出这10个feature 之间的关系,比如说把10个feature,每个feature 对应
一个(x,y) 然后把10个feature 画出来。
请问应该用什么方法?
十分感谢
Y****a
发帖数: 243
2
同学,你知道你在说什么吗?
你的数据是在一个10维空间里,目前的技术似乎只可以直观的显示3维空间中的点面线
等。
Y****a
发帖数: 243
3
你可以画10个单独的series出来,不确定这样的意义有多大
或者45个pairwise的contigency table。
i*r
发帖数: 83
4
不想复杂, 你就是要看 10 个feautre之间的关系, 做一个correlation/covariance
matrix, 这个matrix就capture了所有10个feature两两之间相关性。 然后在这个cor
matrix做个hiearchical clustering, 你就看出来相互之间的关系, 这样最简单,
因为correlation matrix 是normalized cov, 阈值范围 (-1,1), 一幕了然。
R code for simulation variable 7,8,9,10 和variable 1 是正相关:
x = matrix(rnorm(40,mean=2),ncol=10)
for(i in 7:10) x[,i] = x[,1]*i + rnorm(4)
x.cor = cor(x)
gplots::heatmap.2(x.cor)
你会看见1,7-10 会group在一起的, 还不明白的话google “hierachical clustering
” 和 “heatmap”
复杂点的, 做 multidimension scaling 或者 PCA 投影到 2 维, 你可以看出那几个
变量在坐标轴上更近. google
c***z
发帖数: 6348
5
👍赞

covariance
cor
clustering

【在 i*r 的大作中提到】
: 不想复杂, 你就是要看 10 个feautre之间的关系, 做一个correlation/covariance
: matrix, 这个matrix就capture了所有10个feature两两之间相关性。 然后在这个cor
: matrix做个hiearchical clustering, 你就看出来相互之间的关系, 这样最简单,
: 因为correlation matrix 是normalized cov, 阈值范围 (-1,1), 一幕了然。
: R code for simulation variable 7,8,9,10 和variable 1 是正相关:
: x = matrix(rnorm(40,mean=2),ncol=10)
: for(i in 7:10) x[,i] = x[,1]*i + rnorm(4)
: x.cor = cor(x)
: gplots::heatmap.2(x.cor)
: 你会看见1,7-10 会group在一起的, 还不明白的话google “hierachical clustering

n*****5
发帖数: 984
6
做了PCA 投影到 2 维。
十分感谢!!

covariance
cor
clustering

【在 i*r 的大作中提到】
: 不想复杂, 你就是要看 10 个feautre之间的关系, 做一个correlation/covariance
: matrix, 这个matrix就capture了所有10个feature两两之间相关性。 然后在这个cor
: matrix做个hiearchical clustering, 你就看出来相互之间的关系, 这样最简单,
: 因为correlation matrix 是normalized cov, 阈值范围 (-1,1), 一幕了然。
: R code for simulation variable 7,8,9,10 和variable 1 是正相关:
: x = matrix(rnorm(40,mean=2),ncol=10)
: for(i in 7:10) x[,i] = x[,1]*i + rnorm(4)
: x.cor = cor(x)
: gplots::heatmap.2(x.cor)
: 你会看见1,7-10 会group在一起的, 还不明白的话google “hierachical clustering

1 (共1页)
进入DataSciences版参与讨论
相关主题
请推荐data science 在线学习的programPCA 可以用在mixture of continuous 和categorical variables (转载)
[Data Science Project Case]Future Income predicting问个R的问题
计算 confidence interval 和 prediction interval的一般方法Science杂志一篇关于clustering的新文章 (转载)
求教linear regression的一道面试题我有大概80000~100000个左右的时间序列,希望对他们进行分类。
有关clustering有没有谁自己买服务器组建几个clusters跑hadoop大数据的?
问个问题:一堆(1M)二维座标系的点,每个点有weight,怎么做clustering?有谁做过自定义地图Floor Plan的热点图么- indoor Heatmap (转载)
请教一个R问题:怎么rbind一系列data,如data1,data2,....data1000hadoop pig的问题
feature selection的方法求教在R里merge两个dataframe太慢了
相关话题的讨论汇总
话题: 信息提取话题: feature话题: 10话题: 100k话题: matrix