d*********u 发帖数: 8521 | 1 非统计专业问一个有关回归自变量的问题,见笑了。
问题如下:
在一个多元线性回归方程中,如果自变量X1和X2是高度相关(相关系数接近0.9),而
X1和Y(因变量)的简单相关系数与X2和Y的简单相关系数相比,更高一些;请问,在一
个以Y为自变量的多元线性回归方程中,是否可以只用X1而放弃X2,理由是1:X1和X2本
身就已经高度相关了,且X1本身对Y有更高的解释性或者预测性(不知对否?),因此
可以用X1来简化代表X1和X2对Y的影响;2:避免X1和X2的自相关对最后的拟合方程可能
造成的负面影响 (X1和X2只是最后方程中某一组变量,并非整个方程的自变量只有X1
和X2);3: 个人认为该拟合方程的目的在于简洁和有力的解释某一现象(Y),而非
要包含所有与Y相关的各种因子,且当X1和X2共同进入方程时,最终的R square与只有X1
进入方程的R square相比,并没有显著提高,近似相同。
注:该模型方程是用于社会科学中某一现象的解释,并非严格的(物理、化学)实验方
程,因此才有上面的疑问3.
不知道我的理解对不对,请大家指教,谢谢!! |
p***l 发帖数: 1775 | 2 有multicolinearity的时候,一般都是用best subset 或者stepwise去筛变量吧? |
l*********s 发帖数: 5409 | |
s*********e 发帖数: 1051 | 4 everyone here is interested in independent variables selection. however, in
my work, i am more concerned about dependent variable definition :-) |
l*********s 发帖数: 5409 | 5
however, in
zkss?
【在 s*********e 的大作中提到】 : everyone here is interested in independent variables selection. however, in : my work, i am more concerned about dependent variable definition :-)
|
F****n 发帖数: 3271 | 6 I think you are correct. Eliminating correlated independents is common in
regression. You can also combine them use PCA but then the interpretation is
not as straightforwards.
Stepwise methods or "best subset" are usually heavily criticized in today's
domain sciences & applications. They are only OK in data-oriented analysis.
Otherwise you MUST provide theoretical / subjective qualification for your selection.
X1
有X1
【在 d*********u 的大作中提到】 : 非统计专业问一个有关回归自变量的问题,见笑了。 : 问题如下: : 在一个多元线性回归方程中,如果自变量X1和X2是高度相关(相关系数接近0.9),而 : X1和Y(因变量)的简单相关系数与X2和Y的简单相关系数相比,更高一些;请问,在一 : 个以Y为自变量的多元线性回归方程中,是否可以只用X1而放弃X2,理由是1:X1和X2本 : 身就已经高度相关了,且X1本身对Y有更高的解释性或者预测性(不知对否?),因此 : 可以用X1来简化代表X1和X2对Y的影响;2:避免X1和X2的自相关对最后的拟合方程可能 : 造成的负面影响 (X1和X2只是最后方程中某一组变量,并非整个方程的自变量只有X1 : 和X2);3: 个人认为该拟合方程的目的在于简洁和有力的解释某一现象(Y),而非 : 要包含所有与Y相关的各种因子,且当X1和X2共同进入方程时,最终的R square与只有X1
|
T*******I 发帖数: 5138 | 7 The idea of variables selection with stepwise is correct because not
everything in a domain is related to all of the others since the "everything
" defined in the domain may be wrong. Statistics just provides a tool to
find the relationships in the "domain" with a probability so that we may
have a chance to correct the original "definition".
I will not have other ways to "correct" the definition for the domain if the
Statistics doesn't work.
is
s
.
selection.
【在 F****n 的大作中提到】 : I think you are correct. Eliminating correlated independents is common in : regression. You can also combine them use PCA but then the interpretation is : not as straightforwards. : Stepwise methods or "best subset" are usually heavily criticized in today's : domain sciences & applications. They are only OK in data-oriented analysis. : Otherwise you MUST provide theoretical / subjective qualification for your selection. : : X1 : 有X1
|
F****n 发帖数: 3271 | 8 You are living in an ideal world where you can always redefine your domain.
In reality, that's almost impossible.
everything
the
【在 T*******I 的大作中提到】 : The idea of variables selection with stepwise is correct because not : everything in a domain is related to all of the others since the "everything : " defined in the domain may be wrong. Statistics just provides a tool to : find the relationships in the "domain" with a probability so that we may : have a chance to correct the original "definition". : I will not have other ways to "correct" the definition for the domain if the : Statistics doesn't work. : : is : s
|
T*******I 发帖数: 5138 | 9 我们都活在现实世界里。
如果一个医生想研究冠心病与其它因素的联系,他可以考虑很多的变量,例如,血液中
的高密度脂蛋白、低密度脂蛋白、年龄、性别、体重、身高、胸围、家族史、成千上万
的基因、甚至鼻子的大小、眼睛的深凹、10个手指的长短、尿酸、……、等等等等。只
要是关于一个个体的可测因素,他都可以将其纳入关于冠心病的研究范畴。可是,所有
这些被纳入的因素都与冠心病有关么?因为对于一个个体来说,他的可测因素太多太多
了。那么,他怎么知道哪些该被纳入、哪些该被排除呢?尽管他是一位受过严谨的医学
教育的医生,没有统计学的帮助,他绝无可能。
你或许可以说现在的stepwise法存在着计算技术上的问题。因此,我们可以说,如何选
是一个数学问题,而是否选则是一个哲学问题。 |
A*******s 发帖数: 3942 | 10 do u know why stepwise is criticized?
【在 T*******I 的大作中提到】 : 我们都活在现实世界里。 : 如果一个医生想研究冠心病与其它因素的联系,他可以考虑很多的变量,例如,血液中 : 的高密度脂蛋白、低密度脂蛋白、年龄、性别、体重、身高、胸围、家族史、成千上万 : 的基因、甚至鼻子的大小、眼睛的深凹、10个手指的长短、尿酸、……、等等等等。只 : 要是关于一个个体的可测因素,他都可以将其纳入关于冠心病的研究范畴。可是,所有 : 这些被纳入的因素都与冠心病有关么?因为对于一个个体来说,他的可测因素太多太多 : 了。那么,他怎么知道哪些该被纳入、哪些该被排除呢?尽管他是一位受过严谨的医学 : 教育的医生,没有统计学的帮助,他绝无可能。 : 你或许可以说现在的stepwise法存在着计算技术上的问题。因此,我们可以说,如何选 : 是一个数学问题,而是否选则是一个哲学问题。
|
T*******I 发帖数: 5138 | 11 Honestly, I know nothing, even including Statistics. However, I have known
you always provoke me here and never won me. But this time, you won. I don't know the criticism since I even don't know Statistics.
【在 A*******s 的大作中提到】 : do u know why stepwise is criticized?
|
w*********r 发帖数: 488 | 12 尽管放心大胆的删吧,没问题。自变量多不是什么好事。就好像一只猫就能抓耗子,你
摆两只,显得家里很安全,实际上两只猫还打架。
X1
有X1
【在 d*********u 的大作中提到】 : 非统计专业问一个有关回归自变量的问题,见笑了。 : 问题如下: : 在一个多元线性回归方程中,如果自变量X1和X2是高度相关(相关系数接近0.9),而 : X1和Y(因变量)的简单相关系数与X2和Y的简单相关系数相比,更高一些;请问,在一 : 个以Y为自变量的多元线性回归方程中,是否可以只用X1而放弃X2,理由是1:X1和X2本 : 身就已经高度相关了,且X1本身对Y有更高的解释性或者预测性(不知对否?),因此 : 可以用X1来简化代表X1和X2对Y的影响;2:避免X1和X2的自相关对最后的拟合方程可能 : 造成的负面影响 (X1和X2只是最后方程中某一组变量,并非整个方程的自变量只有X1 : 和X2);3: 个人认为该拟合方程的目的在于简洁和有力的解释某一现象(Y),而非 : 要包含所有与Y相关的各种因子,且当X1和X2共同进入方程时,最终的R square与只有X1
|
y*****n 发帖数: 5016 | 13 从纯粹的学术角度上讲,这种情况最好是把x1和x2组合成一个变量,但是在工作中,一
般是删掉其中一个,原因是:1,做组合费很多时间(如果能利用eminer的varclus
node当然就节省点时间但是出来的组合可能结构复杂不好解释而且可能overfit). 2,
即使做了组合,也会面临如何向business teems 和 management 解释这个新变量的直
观定义。3。即使过了前面两关,在implement的时候也不方便,需要提取更多的变量,
进行更多步骤的更复杂的计算,有些production tool可能根本实现不了。 |