c***y 发帖数: 615 | 1 270个样本(6 replicates X 5 treatments X 9 time points), metagenomic data,
phylogeny features: 850
PCA 结果: PC1, ~12%; PC2, ~4%; PC3, ~1%
这种结果如何解释? 可信度如何?
谢谢了!! |
|
k*****2 发帖数: 135 | 2 12%感觉好低的样子。不过不知道你在predict什么,也许不错也说不定呢。
建议1. 你用random feature(比如shuffle现在的信息之后)看看你能够Predict多少
,如果你的结果显著好于random prediction,则说明结果还行。
建议2. 做PCA之前,用CV把一些没什么用的feature去掉,因为feature多,noise会比
较大。
建议3. 如果你是想做classification的话,可以考虑其他classification的方法,种
类繁多,适用于不同类型。 |
|
k*****2 发帖数: 135 | 3 如果你random shuffle treatment的数据得到pseudo dataset,用PCA还能够得到~12%
variance explained,就说明model挺糟糕(没有任何predictive power),如果只能
解释很小部分,你做1000次shuffle什么的,如果都远低于12%,则说明还OK。
validation |
|
s******s 发帖数: 13035 | 4 你PC1有12%,不知道你为啥认为低了,和啥比的?
你这个PC的variance explained降的很快,我不错metagenomics,不过从统计上讲,这
说明前两个PC很可靠啊。
你用PC做predication或者cluster,我知道很多人这样做,结果出来也好解释,纯生物
的喜欢,不过这玩意儿其实就是看看啊,真要做肯定直接放model啊。PCA这玩意儿,和
distance function关系太大,不一样的data transformation, 不一样的distance
measurement结果可能完全不同,也就一fast & dirty的方法,真不适合深究。 |
|
c***y 发帖数: 615 | 5 能推荐一些model analysis的方法吗?
我个人也觉得PCA很多时候不是很另人满意 |
|
c***y 发帖数: 615 | 6 我的理解是PCA本身就是unsupervised的,已经random了...
% |
|
c***y 发帖数: 615 | 7 非常谢谢你们的回复.
仔细看了下PCA permutation test的有关资料.我以前理解的确是错误的.我会去试试这
个test. |
|
s******s 发帖数: 13035 | 8 PCA本来就是欧几里得距离similarity matrix做eigenanalysis,naturally
capture点之间相似性信息。
你去仔细想一想,其实retain sample variance和retain dissimilarity差不
多是一个意思 |
|
c********e 发帖数: 598 | 9
retain dissimilarity (PCA) is different than retain similarity (tSNE). |
|
A*****n 发帖数: 243 | 10 哪个图画出来好看用哪个:)
即使是用tSNE画图,也还是最好先用PCA降维,顺便观察数据结构。 |
|
A*****n 发帖数: 243 | 11 当数据维数很高的时候,比如3万多个基因,尤其其中还有一些co-linear的特征,使用
PCA以及SVD有助于将数据维数降到一个合理范围,比如50或者100以下。这样对于距离
矩阵的计算有很大帮助,另外也有助于减少噪音对于距离计算的影响。这个时候可以试
着用PC1 to 3 先对数据进行初步的观察,看看有没有一些结构。如果PC1 to 3的total
variance实在太小,这个时候才考虑用tSNE做进一步的降维分析。当然如果象CyTOF这
种维数本来就比较低,而且基因之间差异又比较大的数据,倒是无所谓。
所有非线性的转换如果不选择合适的参数的话,结果很容易misleading,发现一些
artificial的结构。不过这种负结论很多人不爱听。
http://distill.pub/2016/misread-tsne/ |
|
s******s 发帖数: 13035 | 12 请教一下,有啥算PCA节省内存的软件?
我有一个10k x 500k维度的数据,在R里面算把我200G的内存都搞爆了,现在只能
subsampling才能算,不爽
total |
|
c********e 发帖数: 598 | 13
Python scikit learn has "Incremental PCA". difficult to avoid subsampling. |
|
a****g 发帖数: 6 | 14 PCA: principle component analysis;
CA: correspondence analysis.
I have attempted to search on google , but the codes found not work.
Do somebody have the reliable C/C++ codes for them, or is there any good
website on which I can find them?
Thanks a lot! |
|
|
a****g 发帖数: 6 | 16 Thank you very much, Tarzan. I guess there is no diect code or function for
PCA in that book, but it is very easy to implement using those eigvalue codes.
I have transformed my data in Matlab, --- that is also very easy.
Thanks again!
web), |
|
c*****i 发帖数: 120 | 17 来自主题: Computation版 - 求教PCA 请问各位有没有知道比较好的PCA算法,
能求解非常高维数据的分析?(比如几百万维?)
如果有好的资料或者代码,能否推荐!
谢谢 |
|
a*******a 发帖数: 33 | 18 来自主题: Computation版 - 求教PCA If size of dataset is small ( ~10000), it's possible.
Let the columns of matrix X be each data point,
then use the eigenvectors of X^T X is the projection of data points on the PCA
vectors. |
|
|
r****y 发帖数: 1437 | 20 for PCA, +/- is totally arbitary, just make the score/loading
consistent.
think this way, a point in 3-dimensional space (1 1 1)
3-d coordinate, if you let the basis be
(1 0 0) (0 1 0) (0 0 1) (your EOF components)
your project coefficients would be
1 1 1
if you let the basic be
(-1 0 0) (0 1 0) (0 0 1)
the they are
-1 1 1
500 |
|
s********k 发帖数: 6180 | 21 【 以下文字转载自 CS 讨论区 】
发信人: silverhawk (silverhawk), 信区: CS
标 题: 求助Kernel PCA的matlab code
发信站: BBS 未名空间站 (Wed Apr 14 16:50:14 2010, 美东)
Google了好几个都不是很好用,觉得这种广泛应用的方法应该有很多可用code吧,版上
有没有大侠能贡献一下知道的code或者链接,只需要基本的RBF或者poly的kernel就可
以了,谢谢 |
|
x******i 发帖数: 172 | 22 我有事情请教,就是关于做MANOVA
我用PCA找到componet 1 和component 2里面的成分
接下来我要把component 1 和 component 2作为dependent variables,手术前与手术
后作为independent variable,BMI作为covariance
我在网上查了下在SPSS里做MANOVA的步骤,大致知道做MANOVA的步骤,但是不知道把
component 1 和 component 2的什么值copy到MANOVA的column里,麻烦问下你们有谁做
过类似的分析么?谢谢! |
|
|
l******r 发帖数: 18699 | 24 PCA是啥?记得上回听一个搞or的loser跟我说过,不过忘了 |
|
x******i 发帖数: 172 | 25 我有事情请教,就是关于做MANOVA
我用PCA找到componet 1 和component 2里面的成分
接下来我要把component 1 和 component 2作为dependent variables,手术前与手术
后作为independent variable,BMI作为covariance
我在网上查了下在SPSS里做MANOVA的步骤,大致知道做MANOVA的步骤,但是不知道把
component 1 和 component 2的什么值copy到MANOVA的column里,麻烦问下你们有谁做
过类似的分析么?谢谢! |
|
c****y 发帖数: 3592 | 26 我有P个股票N天数据,data=n*p, allocation=n*1
然后我做PCA,搞出J个主成分n*j,新的allocation=j*1
问题是,为什么
J*new_allocation - data*allocation 不等于0呢??
J=eigenvector*data
照理应该是没有差别的啊? |
|
|
s*****n 发帖数: 2174 | 28 来自主题: Statistics版 - 请教PCA PCA在做之前, 要把矩阵normalize.
princomp里面自动包含了这个过程
你自己用特征值计算之前要自己做.
用 scale() 函数就可以. |
|
n****8 发帖数: 37 | 29 我说的是hypothesis test啊。
算出来肯定不可能一样。但是如果实际一样,PCA算的没有意义啊。太不稳定。
谢谢指点。 |
|
p********0 发帖数: 186 | 30 Hi,
I have 300 observation of two diemensional data, X1(a1, b1), X2(a2, b2), ...
X3(a3, b3).
how do I use the PCA analysis to get the eigen vector and eigen value?
Do I need to get covariance matrix first? E(a) = Average(a) and E(b) =
average(b).
All the E(X1) = E(X2) = ... = E(Xn)???
How do I get Covariance Matrix Cov(Xi, Xj) |
|
s********k 发帖数: 6180 | 31 【 以下文字转载自 CS 讨论区 】
发信人: silverhawk (silverhawk), 信区: CS
标 题: 求助Kernel PCA的matlab code
发信站: BBS 未名空间站 (Wed Apr 14 16:50:14 2010, 美东)
Google了好几个都不是很好用,觉得这种广泛应用的方法应该有很多可用code吧,版上
有没有大侠能贡献一下知道的code或者链接,只需要基本的RBF或者poly的kernel就可
以了,谢谢 |
|
|
s*r 发帖数: 2757 | 33 there should be some proc for pca |
|
a*****3 发帖数: 601 | 34 是不是可以用什么‘两部聚类法的’?用什么eigenvalue最后sas输出一个‘树’?不过没搞懂搞这东东有什么用? 懒得google了。谁给展开说说pca和cluster analysis有啥区别一律30伪币怎么样? |
|
l**********9 发帖数: 148 | 35 I think there is a proc fo PCA in SAS....you can try the help document.
Waiting for big cow answer the question by 5L |
|
d*********k 发帖数: 1239 | 36 用PCA的时候,如果N比P大怎么办啊?就是large P,small N的问题?
直接用R的 princomp()就直接报错啦啊
谢谢啊 |
|
|
B****n 发帖数: 11290 | 38 When doing PCA, you have to estimate the variance-covariance matrix. If p>>n
, it is impossible to get a good estimate unless you have special structures about your variance-covariance matrix. |
|
d******e 发帖数: 7844 | 39 引入额外的regularization就是另一回事了。
实际应用时,PCA很多情况下就是在p>>n的情况下,直接使用的,而且性能也并不是特
别差。虽然课本和paper里说divergent spectra会导致性能的严重下降,对实际应用指
导意义不大。
>n
structures about your variance-covariance matrix. |
|
f******y 发帖数: 2971 | 40 suppose two random variables, X and Y, mean of them are very small.
I can get the slope by linear regression lm(Y~X);
I can also do PCA,
data = data.frame(X=X, Y=Y);
princomp(data);
I expected the slope of the first PC vector to be very close to the slope
given by linear regression. I tried it in R, the results are very different.
Anyone can explain? |
|
t**c 发帖数: 539 | 41 请教PCA和regression之间是什么关系啊? |
|
m**c 发帖数: 199 | 42 怎么选pca的个数,除了基本的 sum(lamda_i)/total var >90%
有没有其他方法呢? thanks! |
|
n******v 发帖数: 2184 | 43 每个时间点测量很多variables,做PCA的时候怎么account for temporal correlation? |
|
t**********y 发帖数: 374 | 44 I have 10 sets of data and each contains some gene counts. If I would like
to do the PCA to cluster the similar data sets, should I use the raw data
counts or use the correlation coefficients?
Thanks. |
|
t**********y 发帖数: 374 | 45 I actually tried hclust. Just was not patient enough to wait until the
results out...
The other people start to suggest PCA... |
|
c******x 发帖数: 350 | 46 假设x1,x2联合高斯分布,有cov为:[1 x;x 2]。x为非零。
现在我想把x1和x2表达为:
x1=a11*G1 + a12*G2
x2=a21*G1 + a22*G2
G1和G2为独立的两个单变量高斯分布。
不知道如何从PCA分析得到4个a系数,以及这两个高斯分布。
多谢。 |
|
k***n 发帖数: 997 | 47 do stock returns often have 0 averages so no need to center them before
applying pca?
what's Y in the model? |
|
s****b 发帖数: 2039 | 48 来自主题: Statistics版 - PCA作图 是不是4个PC以上,PCA就是高维空间的,不可能作出图来?
您是用PROC PRINCOMP还是用PROC FACTOR?为什么一定有2个PC? |
|
E**********e 发帖数: 1736 | 49 据我了解, pca用在continous variables 比较合理。categorical one怎计算
covariance matrix啊? |
|
S*********1 发帖数: 105 | 50 可以把categorical variables变成dummy variables,再用PCA。 |
|