s*****n 发帖数: 2174 | 1 来自主题: Statistics版 - 请教PCA PCA本质上就是高维变量空间的一个旋转, 这里包含不同维度之间的加权问题. 根据情况
不同, 你可以选择normalize或者不normalize, 但是要一致. 你把correlation matrix
进行 eigen value decomposition, 表示你认为各个维度是等权重的(normalized), 也
就是说的计算是在一个adjusted scaled空间里面. 但是你乘的data没有经过normalize
还是在原始空间里面. 这两个不能乘在一起.
如果你是直接eigen(cov(data)), 就可以和data乘在一起了, 因为两个都是在原始变量
空间里面. 这等价于princomp(..., cor = F)
不过做PCA, 推荐用prcomp(). 这个是基于SVD的, 要比基于EVD的princomp()精度高. 而
且我觉得prcomp()的输出也要比princomp更clear. |
|
o****o 发帖数: 8077 | 2 To obtain Eigen Decomposition from PCA, you need to observe the relationship below:
eigen decomposition of square matrix obtains the same eigen vector matrix as in PCA (the V matrix)
and Eigen values are those satisfy: AV=A[v1, v2...vk]=[\lambda1, \lambda2...\lambda_k].*V
so that you can first use PROC PRINCOMP NOINT COV outstat=_V(where=(_TYPE_='USCORE'))
then conduct matrix multiplication of A%*%V=\Omega
load \Omega and V into a data set, divid each element of \Omega by corresponding element i |
|
r*****l 发帖数: 457 | 3 Say you have data comprising a set of observations of /M/ variables, and
you want to reduce the data so that each observation can be described
with only /L/ variables using PCA.
My question is: if the original variable is a binary variable which only
have two possible values and the frequency of one value for that
variable is very low, say 5%, should I exclude that variable in PCA? |
|
o****o 发帖数: 8077 | 4 PCA has direct link to k-means clustering, check the paper by Chris Ding et
al from NIPS'01 and ICML'04 for details.
30wb pls.
不过没搞懂搞这东东有什么用? 懒得google了。谁给展开说说pca和cluster analysis
有啥区别一律30伪币怎么样? |
|
a****m 发帖数: 693 | 5
不过没搞懂搞这东
东有什么用? 懒得google了。谁给展开说说pca和cluster analysis有啥区别一律30伪
币怎么
样?
PCA, 是找最能体现和解释variation的假设的variable, 多数是几个variable的线性
组合,但
是没有多少意义。而且very sensitive outlier.
cluster,是找similarity, 就是用距离去量最近的samples, 当然多少个cluster,
usually
it is arbitrary. 但是可以用不同的cluster 能解释within group and between
group
variation 去选择。
不知道多少能让大家同意? |
|
d******e 发帖数: 7844 | 6 PCA和K-means有些相似的地方,都属于最小二乘的框架。
很多Clustering算法也都不robust, PCA的话,robust版本一堆一堆的 |
|
o****o 发帖数: 8077 | 7 PCA=ALS when data is complete
replace the LS in ALS with a robust regression method, you obtain a robust
version of PCA, or RPCA? |
|
d******e 发帖数: 7844 | 8 这个有啥违反PCA原则的。
你对协防差矩阵算PCA,实际就是对样本矩阵算SVD。 |
|
d******e 发帖数: 7844 | 9 E神啊,你线性代数怎么学的啊?
对covariance matrix做eigenvalue decomposition和对sample matrix做SVD等价。
至于你说的p>>n的情况,这个结论一样成立。
得到的principal component好不好就是另一回事了,这个和做SVD还是做eigenvalue
decomposition无关。
PS:你对PCA的解释实在是太雷了。统计里说best是要讲准则的。PCA的准则就是投影后
方差最大化,限制是投影矩阵是column orthonormal。
combination |
|
n*****n 发帖数: 3123 | 10 对于PCA, sample is X (n*p), covariance matrix是X'X 是p*p, 因为not full rank
, 所以会有些问题。其实可以考虑对XX'(n*n)做PCA, 然后做变换就可以了。编程实现
也不难。
>n
structures about your variance-covariance matrix. |
|
b********8 发帖数: 3059 | 11 你要先选择variance大的index,就是prin1,prin2,两个的和已经达到0。73了,就可以了
pca主要是降维
负的weight没问题的
还有就是你的gender nationality是 category data,用pca没太多意义的 |
|
x******a 发帖数: 6336 | 12 A question regarding using PCA to capture the pairwise covariance matrix.
Suppose I have 10 times series and 250 data point for each time series in
the format of a matrix. Let's call it A of shape 10*250,Let us call the
covariance matrix COV and it is a 10*10 nonnegative defined matrix.
I would like to capture this matrix COV with a one-factor model,
0.Is PCA the right direction on this?
1.Assuming 0. is right. We find the largest eigenvalue lamdbda_M and the
correponding vectors v_M of COV. The... 阅读全帖 |
|
x******a 发帖数: 6336 | 13 thanks, that is what I think. however, I tried the python package sklearn
and statsmodels.sandbox.tools.pca, I got the following result that I don't
understand.
---sklearn-----
pca3.explained_variance_
Out[1001]:
array([ 1.78290607, 1.08429872, 0.42104483, 0.31175038])
---------------
The eigenvalues by statsmodels.sandbox.tools.pca are
array([ 1.98100675, 1.20477635, 0.46782759, 0.34638931])
----------------
the data is:
a b c d
0 0.992009 1.772628e+00 9.369741e-0... 阅读全帖 |
|
e*********g 发帖数: 77 | 14 不大了解PCA
想用一堆变量拟合一堆数据,结果电脑几天反应不过来。
于是考虑减少变量,似乎得用PCA,
但看过来怎么都是在变量空间里面找主轴?而我的函数就一个,对各个变量的依赖(导
数)不同,
怎样才能剔除假的变量,而找到函数依赖性最大的那几个变量? |
|
E**********e 发帖数: 1736 | 15 pca是不能用来剔除变量的,但可以用来降维,降维后的新变量里包含了降维前所有的
变量,也就是新变量是以前旧变量的linear conbination。 mitbbs 上好多人多不懂,
就说用来选变量。很多面试官也不懂,听到回答说pca就觉得行了。
此变量非彼变量。 如果要用来选significant variabels,还是老老实实用基本方法,
统计基本课上交的帅选。 univariate screen, stepwise, multiple regression,
local k-neightbor searching, ridge, lasso。当然还有一些我也没学过,fiter,
wrapper是么的。 有些特别情况,可能有特别的方法。 |
|
n**********0 发帖数: 66 | 16 Re这个。PCA是用来reduce dimension的,PCA产生的new variable的数量和你原来是一
样的,但是可以根据eigenvalue来reduce dimension.没法做到剔除你原来的original
的variable.
, |
|
E**********e 发帖数: 1736 | 17 【 以下文字转载自 Statistics 讨论区 】
发信人: ExpressoLove (MoneyForNothing), 信区: Statistics
标 题: PCA 可以用在mixture of continuous 和categorical variables
发信站: BBS 未名空间站 (Sun May 17 18:03:19 2015, 美东)
据我了解, pca用在continous variables 比较合理。categorical one怎计算
covariance matrix啊? |
|
E**********e 发帖数: 1736 | 18 说到categorical variable, 一般已经是numerical categorical了(1,2,3,。。。
)。 textbook 好像很少讲到mixture的continuous 和 categorical variables。 事
实是很多时候modeling的时候, 都是mixture。 这种情况用pca来降维或者找出
significant的variabels是不是就有问题。
当然也许可以试correspendse analysis, 就是把continous variable group, 然后
用contigency table来找出关联。但是也很少说用了选significant variabels。
问这个问题是因为面试是碰到这个问题。 所以pca来选variables的话,好像不是那么
可信。 lasso也许是个更好方法。 |
|
|
a********d 发帖数: 77 | 20 借道问一下,那么NMF相对于PCA有什么好处吗?我知道NMF系数都是非负,但是在实际
使用的时候到底用PCA还是NMF有没有什么经验? |
|
|
d*****l 发帖数: 8441 | 22 又是一个统计迷信。
PCA?你的变换矩阵是啥?是咋来的?还不是“数出来”得到的相关矩阵/协方差矩阵,
然后再对角化的?
词频统计相似能够说明屁! |
|
U********S 发帖数: 1896 | 23 这个PCA最大的发现是郭敬敏的两本书完全不同,要么是抄的要么是有团队,哈哈。 |
|
d*****u 发帖数: 17243 | 24 详细情况可以看文献(我也懒得看)
但无非也就是把基因数据拿来,用PCA降维
然后做一个clustering
相当于一个课程设计的难度
关键是要拿数据 |
|
|
发帖数: 1 | 26 连官媒都承认这次仲裁是pca发起,到你这里变成了草台班子了。理解你的心情,可是
也得听权威意见不是? |
|
发帖数: 1 | 27 联合国这个是ijc还是icj来着,跟这个pca不一样。 |
|
c*******4 发帖数: 1874 | 28 所以说pca任何权利都没有,就相当于莆田系租用医院科室,请协和医院院长去手术一
样。 |
|
发帖数: 1 | 29 个人感觉, icj处理刑事案件,pca处理民事纠纷,都有权力的。只是分工不同而已。 |
|
r**m 发帖数: 446 | 30 别扯了,pca根本不是法院,谈不上民事,刑事。一第三方调解机构。没有法律效力 |
|
d****o 发帖数: 32610 | 31 还是不对,
1. When signing, ratifying or acceding to this Convention or at any time
thereafter, a State shall be free to choose, by means of a written
declaration, one or more of the following means for the settlement of
disputes concerning the interpretation or application of this Convention:
(a) the International Tribunal for the Law of the Sea established in
accordance with Annex VI;
(b) the International Court of Justice;
(c) an arbitral tribunal constituted in accordance with Annex V... 阅读全帖 |
|
f****e 发帖数: 24964 | 32 你这个是287(1),不是仲裁 附件 7
你没看明白一楼,PCA是海牙公约的仲裁管理机构,不是海洋法公约
time
VIII |
|
d****o 发帖数: 32610 | 33 你原帖说
根据联合国海洋法公约 287(1), 缔约国可以选择以下任一方法解决争端:国际海洋法
法庭,国际法院,或仲裁法庭
但是这个PCA不满足287(1)里提的仲裁庭(c)的条件 |
|
|
|
f****e 发帖数: 24964 | 36 联合国海洋法公约的仲裁庭
PCA是海牙公约仲裁法庭组织和支持机构,这次只是为海洋法公约南海仲裁法庭提供管
理服务 |
|
a*****9 发帖数: 372 | 37 你太丢人了, 到现在还不知道PCA的作用。
我代表你们付部长仲裁员刘部长鄙视你这个无知之人。 |
|
a********9 发帖数: 3813 | 38 笑死人了。 你们 是不是搞不懂 啥是 MPA 啊。
太笨蛋了, 还是早点滚回家吧。
发信人: xwzxjhq (谁的帝), 信区: Military
标 题: Re: 尼玛,美军的迪戈加西亚基地也被PCA仲裁,美军直接当废纸
发信站: BBS 未名空间站 (Sat Jul 16 22:47:55 2016, 美东)
屁熊呢?老将呢?尿遁了?
【 在 AlexW (王尔) 的大作中提到: 】 |
|
n***y 发帖数: 2730 | 39 谁也没指望PCA的ruling真能怎么样,本来就是宣传战。关键是中国在南海问题上树敌
太多,所以有更大的笑话可以看。
英在Chagos MPA的问题上要比中国在南海的问题上有利的多,英国有更多更完全的证据
来支持其对Chagos Archipelago的主权,上世纪60年的原住民大部分被移民到英美,很
多人当时也是高兴的。 |
|
发帖数: 1 | 40 我帝有没有将这个PCA的仲裁当废纸?
1830 |
|
n***y 发帖数: 2730 | 41 是的。土工也会把南海种菜当擦屁股纸,但这并不等于对土工就没伤害。英国做的是设
环境保护区,虽然暗度陈仓地宣示主权,但面子上说的过去,PCA下来后也就是不承认
这保护区,但实际上大家又都实际上还是对这一海域实行保护。 人家比老中做的漂亮
得多。 |
|
n***y 发帖数: 2730 | 42 这里有两个问题,一个是要保护自己的利益,另一方面是照顾到自己的形象和国际社会
的利益,在自己利益和遵守国际社会的准则之间找平衡点。国际形象和国家利益是相辅
相成的。一味无节制的追求自己利益,不顾国际社会准则,必然受害的还是自己。
英国在chagos的问题上总体来说是退让的。当初60年代英国打算同意毛人独立,但任希
望在印度洋保留自己的基地,所以在谈判中付了钱的,才划出这块岛。当时的移民总共
也就两千人左右,很多人当初去英国也是愿意的。现在毛人根据联合国的一条新道德标
准,重新扯出这一问题,实际上从法理上讲根基是弱的。
退一步讲,就算毛人根据联合国的新标准要重开chagos主权问题,那毛就要证明在15XX
年(葡萄牙人发现chagos)以前,chagos上已有居民,而且归当初毛人管。这是很难做
到的,这也是为什么毛人不愿就主权问题告到国际法庭。PCA的ruling只是该不该设保
护区,裁决本身没有后续实行问题,而南海裁决以后中国填海就麻烦多了。
总之,英国只是不接受种菜,一个声明而已,对于中国来说,如果只是一个声明到也无
所谓。如果以后再填岛,那必然会引起更大的纠纷。 |
|
a********9 发帖数: 3813 | 43 南海拓展疆土为了人民的证据呢? 给人们带来了啥好处?拿出证据来。
发信人: xwzxjhq (谁的帝), 信区: Military
标 题: Re: 尼玛,美军的迪戈加西亚基地也被PCA仲裁,美军直接当废纸
发信站: BBS 未名空间站 (Sun Jul 17 16:41:54 2016, 美东)
矫情的老将,口口声声人民人民。南海拓展疆土不是为了你口中的人民吗。老将反共没
有问题,问题是反共变成反华了,这就是老将的宿命。
【 在 zmimy (咪咪) 的大作中提到: 】 |
|
r**m 发帖数: 446 | 44 PCA基于海牙公约,和平解决国际争端公约,不接受单方仲裁。懂行的说说是这样吗?
看上去确实如此,所以才会有这么诡异的搞法。 |
|
a********9 发帖数: 3813 | 45 你啥这么笨呢,到现在还没有搞清楚啊,这次仲栽PCA 只是书记处。 |
|
r**m 发帖数: 446 | 46 书记处说的好听,就是秘书服务,挂个名。
那你也承认是个野鸡庭了吧?几个干私活的仲裁员,都不是PCA名单上。 |
|
c*******a 发帖数: 1879 | 47 数学上的 PCA (Principal Components Analysis)吧? |
|
发帖数: 1 | 48 Not really. 更像是几何的投影 和 变换。三维压成二维 那就是真正的压成平面。PCA
是信号处理里面找比较重要的几个basis |
|
|
L****8 发帖数: 3938 | 50 PCA SVD low rank
这些是好东西 |
|