由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 请教:回归方程中自变量的选取。
相关主题
请教一个曲线拟合的问题 (转载)regression要求做normality test么?
有熟悉SAM:Significance Analysis of Microarrays?多元回归,小的变量怎么处理呢?
PCA拟合问题求教一个题目
什么SAS命令可以执行multivariate regression???双黄包请教一个统计模型选择问题
求助:SAS使用问题(读数据)Monthly自变量VS Weekly因变量,该怎么分析?
包子问题请教( sas)有没有什么软件可以实现用多种model来fit data的?
回归方程里面的两个因素的相互作用model的predictors之间有multi-colinearity怎么办?
统计综合指数Principal Components Analysis 中 factor 选择的问题
相关话题的讨论汇总
话题: x1话题: x2话题: 自变量话题: domain话题: statistics
进入Statistics版参与讨论
1 (共1页)
d*********u
发帖数: 8521
1
非统计专业问一个有关回归自变量的问题,见笑了。
问题如下:
在一个多元线性回归方程中,如果自变量X1和X2是高度相关(相关系数接近0.9),而
X1和Y(因变量)的简单相关系数与X2和Y的简单相关系数相比,更高一些;请问,在一
个以Y为自变量的多元线性回归方程中,是否可以只用X1而放弃X2,理由是1:X1和X2本
身就已经高度相关了,且X1本身对Y有更高的解释性或者预测性(不知对否?),因此
可以用X1来简化代表X1和X2对Y的影响;2:避免X1和X2的自相关对最后的拟合方程可能
造成的负面影响 (X1和X2只是最后方程中某一组变量,并非整个方程的自变量只有X1
和X2);3: 个人认为该拟合方程的目的在于简洁和有力的解释某一现象(Y),而非
要包含所有与Y相关的各种因子,且当X1和X2共同进入方程时,最终的R square与只有X1
进入方程的R square相比,并没有显著提高,近似相同。
注:该模型方程是用于社会科学中某一现象的解释,并非严格的(物理、化学)实验方
程,因此才有上面的疑问3.
不知道我的理解对不对,请大家指教,谢谢!!
p***l
发帖数: 1775
2
有multicolinearity的时候,一般都是用best subset 或者stepwise去筛变量吧?
l*********s
发帖数: 5409
3
combine them
s*********e
发帖数: 1051
4
everyone here is interested in independent variables selection. however, in
my work, i am more concerned about dependent variable definition :-)
l*********s
发帖数: 5409
5

however, in
zkss?

【在 s*********e 的大作中提到】
: everyone here is interested in independent variables selection. however, in
: my work, i am more concerned about dependent variable definition :-)

F****n
发帖数: 3271
6
I think you are correct. Eliminating correlated independents is common in
regression. You can also combine them use PCA but then the interpretation is
not as straightforwards.
Stepwise methods or "best subset" are usually heavily criticized in today's
domain sciences & applications. They are only OK in data-oriented analysis.
Otherwise you MUST provide theoretical / subjective qualification for your selection.

X1
有X1

【在 d*********u 的大作中提到】
: 非统计专业问一个有关回归自变量的问题,见笑了。
: 问题如下:
: 在一个多元线性回归方程中,如果自变量X1和X2是高度相关(相关系数接近0.9),而
: X1和Y(因变量)的简单相关系数与X2和Y的简单相关系数相比,更高一些;请问,在一
: 个以Y为自变量的多元线性回归方程中,是否可以只用X1而放弃X2,理由是1:X1和X2本
: 身就已经高度相关了,且X1本身对Y有更高的解释性或者预测性(不知对否?),因此
: 可以用X1来简化代表X1和X2对Y的影响;2:避免X1和X2的自相关对最后的拟合方程可能
: 造成的负面影响 (X1和X2只是最后方程中某一组变量,并非整个方程的自变量只有X1
: 和X2);3: 个人认为该拟合方程的目的在于简洁和有力的解释某一现象(Y),而非
: 要包含所有与Y相关的各种因子,且当X1和X2共同进入方程时,最终的R square与只有X1

T*******I
发帖数: 5138
7
The idea of variables selection with stepwise is correct because not
everything in a domain is related to all of the others since the "everything
" defined in the domain may be wrong. Statistics just provides a tool to
find the relationships in the "domain" with a probability so that we may
have a chance to correct the original "definition".
I will not have other ways to "correct" the definition for the domain if the
Statistics doesn't work.

is
s
.
selection.

【在 F****n 的大作中提到】
: I think you are correct. Eliminating correlated independents is common in
: regression. You can also combine them use PCA but then the interpretation is
: not as straightforwards.
: Stepwise methods or "best subset" are usually heavily criticized in today's
: domain sciences & applications. They are only OK in data-oriented analysis.
: Otherwise you MUST provide theoretical / subjective qualification for your selection.
:
: X1
: 有X1

F****n
发帖数: 3271
8
You are living in an ideal world where you can always redefine your domain.
In reality, that's almost impossible.

everything
the

【在 T*******I 的大作中提到】
: The idea of variables selection with stepwise is correct because not
: everything in a domain is related to all of the others since the "everything
: " defined in the domain may be wrong. Statistics just provides a tool to
: find the relationships in the "domain" with a probability so that we may
: have a chance to correct the original "definition".
: I will not have other ways to "correct" the definition for the domain if the
: Statistics doesn't work.
:
: is
: s

T*******I
发帖数: 5138
9
我们都活在现实世界里。
如果一个医生想研究冠心病与其它因素的联系,他可以考虑很多的变量,例如,血液中
的高密度脂蛋白、低密度脂蛋白、年龄、性别、体重、身高、胸围、家族史、成千上万
的基因、甚至鼻子的大小、眼睛的深凹、10个手指的长短、尿酸、……、等等等等。只
要是关于一个个体的可测因素,他都可以将其纳入关于冠心病的研究范畴。可是,所有
这些被纳入的因素都与冠心病有关么?因为对于一个个体来说,他的可测因素太多太多
了。那么,他怎么知道哪些该被纳入、哪些该被排除呢?尽管他是一位受过严谨的医学
教育的医生,没有统计学的帮助,他绝无可能。
你或许可以说现在的stepwise法存在着计算技术上的问题。因此,我们可以说,如何选
是一个数学问题,而是否选则是一个哲学问题。
A*******s
发帖数: 3942
10
do u know why stepwise is criticized?

【在 T*******I 的大作中提到】
: 我们都活在现实世界里。
: 如果一个医生想研究冠心病与其它因素的联系,他可以考虑很多的变量,例如,血液中
: 的高密度脂蛋白、低密度脂蛋白、年龄、性别、体重、身高、胸围、家族史、成千上万
: 的基因、甚至鼻子的大小、眼睛的深凹、10个手指的长短、尿酸、……、等等等等。只
: 要是关于一个个体的可测因素,他都可以将其纳入关于冠心病的研究范畴。可是,所有
: 这些被纳入的因素都与冠心病有关么?因为对于一个个体来说,他的可测因素太多太多
: 了。那么,他怎么知道哪些该被纳入、哪些该被排除呢?尽管他是一位受过严谨的医学
: 教育的医生,没有统计学的帮助,他绝无可能。
: 你或许可以说现在的stepwise法存在着计算技术上的问题。因此,我们可以说,如何选
: 是一个数学问题,而是否选则是一个哲学问题。

T*******I
发帖数: 5138
11
Honestly, I know nothing, even including Statistics. However, I have known
you always provoke me here and never won me. But this time, you won. I don't know the criticism since I even don't know Statistics.

【在 A*******s 的大作中提到】
: do u know why stepwise is criticized?
w*********r
发帖数: 488
12
尽管放心大胆的删吧,没问题。自变量多不是什么好事。就好像一只猫就能抓耗子,你
摆两只,显得家里很安全,实际上两只猫还打架。

X1
有X1

【在 d*********u 的大作中提到】
: 非统计专业问一个有关回归自变量的问题,见笑了。
: 问题如下:
: 在一个多元线性回归方程中,如果自变量X1和X2是高度相关(相关系数接近0.9),而
: X1和Y(因变量)的简单相关系数与X2和Y的简单相关系数相比,更高一些;请问,在一
: 个以Y为自变量的多元线性回归方程中,是否可以只用X1而放弃X2,理由是1:X1和X2本
: 身就已经高度相关了,且X1本身对Y有更高的解释性或者预测性(不知对否?),因此
: 可以用X1来简化代表X1和X2对Y的影响;2:避免X1和X2的自相关对最后的拟合方程可能
: 造成的负面影响 (X1和X2只是最后方程中某一组变量,并非整个方程的自变量只有X1
: 和X2);3: 个人认为该拟合方程的目的在于简洁和有力的解释某一现象(Y),而非
: 要包含所有与Y相关的各种因子,且当X1和X2共同进入方程时,最终的R square与只有X1

y*****n
发帖数: 5016
13
从纯粹的学术角度上讲,这种情况最好是把x1和x2组合成一个变量,但是在工作中,一
般是删掉其中一个,原因是:1,做组合费很多时间(如果能利用eminer的varclus
node当然就节省点时间但是出来的组合可能结构复杂不好解释而且可能overfit). 2,
即使做了组合,也会面临如何向business teems 和 management 解释这个新变量的直
观定义。3。即使过了前面两关,在implement的时候也不方便,需要提取更多的变量,
进行更多步骤的更复杂的计算,有些production tool可能根本实现不了。
1 (共1页)
进入Statistics版参与讨论
相关主题
Principal Components Analysis 中 factor 选择的问题求助:SAS使用问题(读数据)
找工作总结 [下]包子问题请教( sas)
【大包子】Factor data analysis回归方程里面的两个因素的相互作用
让我抓狂的统计学问题统计综合指数
请教一个曲线拟合的问题 (转载)regression要求做normality test么?
有熟悉SAM:Significance Analysis of Microarrays?多元回归,小的变量怎么处理呢?
PCA拟合问题求教一个题目
什么SAS命令可以执行multivariate regression???双黄包请教一个统计模型选择问题
相关话题的讨论汇总
话题: x1话题: x2话题: 自变量话题: domain话题: statistics