p*p 发帖数: 492 | 1 最近公司做东西用到。直接用population data做,大概6000个。发现选定factor
number最后得到的结果不是太一致,(我一共10来个variable).导致我没法convince最
后怎么group好。这其中到底怎么回事?在实际工作中用到的朋友来说说? |
s*****n 发帖数: 2174 | 2
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
怎么个结果不一致?
【在 p*p 的大作中提到】 : 最近公司做东西用到。直接用population data做,大概6000个。发现选定factor : number最后得到的结果不是太一致,(我一共10来个variable).导致我没法convince最 : 后怎么group好。这其中到底怎么回事?在实际工作中用到的朋友来说说?
|
p*p 发帖数: 492 | 3 选4个factor得到的group归类和选7个得到的结果很不一致。
【在 s*****n 的大作中提到】 : : ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ : 怎么个结果不一致?
|
s*****n 发帖数: 2174 | 4 factor analysis 怎么还归类呢?
是变量归类还是人的归类?
【在 p*p 的大作中提到】 : 选4个factor得到的group归类和选7个得到的结果很不一致。
|
p*p 发帖数: 492 | 5 我想把那10来个variable归成几类,每一类算一个某某factor
factor analysis不就是用来发现隐藏的因素的么?
【在 s*****n 的大作中提到】 : factor analysis 怎么还归类呢? : 是变量归类还是人的归类?
|
s*****n 发帖数: 2174 | 6 你说的是把原始的10个variable分类, 还是把找出的隐藏factor分类?
Factor analysis的确是试图找隐藏factor, 可是不存在什么分类问题.
即使要分类, 一般也是把variable进行clustering.
【在 p*p 的大作中提到】 : 我想把那10来个variable归成几类,每一类算一个某某factor : factor analysis不就是用来发现隐藏的因素的么?
|
g*******y 发帖数: 380 | 7 貌似和我学到的完全不一样,请牛人给解释解释?
【在 p*p 的大作中提到】 : 我想把那10来个variable归成几类,每一类算一个某某factor : factor analysis不就是用来发现隐藏的因素的么?
|
p*p 发帖数: 492 | 8 is that there are several variables included in one factor? so i consider
this is to group the variables into different factors.
【在 s*****n 的大作中提到】 : 你说的是把原始的10个variable分类, 还是把找出的隐藏factor分类? : Factor analysis的确是试图找隐藏factor, 可是不存在什么分类问题. : 即使要分类, 一般也是把variable进行clustering.
|
g*******t 发帖数: 124 | 9 clustering不是对人的分类么,factor是对variable的分类
【在 s*****n 的大作中提到】 : 你说的是把原始的10个variable分类, 还是把找出的隐藏factor分类? : Factor analysis的确是试图找隐藏factor, 可是不存在什么分类问题. : 即使要分类, 一般也是把variable进行clustering.
|
g*******t 发帖数: 124 | 10 很有可能,你怎么保证你原始数据的正确性。
【在 p*p 的大作中提到】 : 选4个factor得到的group归类和选7个得到的结果很不一致。
|
|
|
l*******y 发帖数: 22 | 11 不知道你的数据是否都是连续的?
我的经验是,做factor analysis有几个必要的步骤
第一,要有domain knowledge。一般去收集数据的人,心中对于有几个factor都大概有
个底。而且在统计分析完成以
后,并且model is verified statistically,背景知识至少也要能解释你的发现。
其次,如果数据是连续的,首先应当将相关矩阵画出来,(维数小的时候肉眼就可以看
出到底有几个类,比如你用
threshold cut掉一些elements)。如果维数很大,可以用一些基于permutation的算法
将聚类自动调整出来。这两步做完
以后,心里基本上就有个大概的了解了。这两部分虽然简单,其实在实际中很重要。
最后,也就是定量分析阶段,这个时候可以选用的模型就太多了。但是最终选用几个
factor,还是需要用定量分析的办法比
一比的。比如你现在的4个vs7个,就是一个很典型的例子。怎么比呢?方法太多了,比
如aic,bic,似然检验,bayesian
factor。但是直观来看,你variable才10几个,聚类就有7个,overfitting的概率实在
【在 p*p 的大作中提到】 : 最近公司做东西用到。直接用population data做,大概6000个。发现选定factor : number最后得到的结果不是太一致,(我一共10来个variable).导致我没法convince最 : 后怎么group好。这其中到底怎么回事?在实际工作中用到的朋友来说说?
|
x**g 发帖数: 807 | 12 factor analysis 是给Variable“归类”,
Mixture Models是给人“归类”。
【在 s*****n 的大作中提到】 : factor analysis 怎么还归类呢? : 是变量归类还是人的归类?
|
g*******t 发帖数: 124 | 13 mixture models 是什么,我们叫cluster analysis,是一个东西么?
【在 x**g 的大作中提到】 : factor analysis 是给Variable“归类”, : Mixture Models是给人“归类”。
|
o****o 发帖数: 8077 | 14 不是
mixture model 又叫latent cluster analysis
【在 g*******t 的大作中提到】 : mixture models 是什么,我们叫cluster analysis,是一个东西么?
|
x**g 发帖数: 807 | 15 McLachlan, G.J. and Peel, D.(2000) Finite Mixture Models.Wiley.
【在 g*******t 的大作中提到】 : mixture models 是什么,我们叫cluster analysis,是一个东西么?
|