p********a 发帖数: 5352 | 1 ☆─────────────────────────────────────☆
zhongdianshi (brb) 于 (Mon Aug 29 09:50:26 2011, 美东) 提到:
OUTCOME: BMI
PREDICTOR: QUESTION1, QUESTION2, QUESTION5, QUESTION6...
所有的PREDICTORS是ORDIANL VARIABLE.
我想分别TEST OUTCOME和每一个PREDICTOR的CORRELATION.
我用了2个方法:
1.
PROC CORR SPEARMAN;
VAR BMI QUESTION1n QUESTION2n...;
RUN;
生成一个CORRELATION TABLE.
2. ANOVA
分别把每个PREDICTOR和BMI放到MODEL里,这一步,我不是很确定.
proc glm data = DATA;
class QUESTION1;
model BMI = QUESTION1;
meansQUESTION1;
run;
quit;
最终,是要建个MIXED MODEL.现在是筛选可用的PREDICTORS.
多谢!!
☆─────────────────────────────────────☆
zhongdianshi (brb) 于 (Mon Aug 29 19:21:02 2011, 美东) 提到:
给点建议吧...
☆─────────────────────────────────────☆
killniu (killniu) 于 (Tue Aug 30 01:44:48 2011, 美东) 提到:
anova为什么要一个一个的来呢? 简单的backward variable selection是全部
predictor放进去,然后把不显著的去掉。
而且第一步算了他们的correlation,应该考虑把predictor相关性很强的去掉。要不然
会有复共线性的问题。当然也要考虑实际的意义。
ps,前天刚刚看到statcompute的一个paper,如果predictor不是线性的,用GAM没法解
释predictor的时候,他们用CART或者别的先对predictor做prediction。然后再做GLM。
希望有实际经验的大牛们出来说说还可以怎么搞。
☆─────────────────────────────────────☆
Actuaries (striving) 于 (Tue Aug 30 02:42:19 2011, 美东) 提到:
啥文章呢?card还是cart?
GLM。
☆─────────────────────────────────────☆
DaShagen (Unbearable lightness) 于 (Tue Aug 30 09:48:06 2011, 美东) 提到:
i guess he was referring to the industrial approach:
build tree to do segmentation and build linear models on each segment.
☆─────────────────────────────────────☆
zhongdianshi (brb) 于 (Tue Aug 30 12:34:37 2011, 美东) 提到:
第一步的CORRELATION之后,是要把相关很强的去掉,正在做.多谢!
ANOVA这步,需要分别来看吗?
A one-way analysis of variance (ANOVA) is used when you have a categorical
independent variable (with two or more categories) and a normally
distributed interval dependent variable and you wish to test for differences
in the means of the dependent variable broken down by the levels of the
independent variable.
因为样本比较大,虽然每组的MEAN比较接近,但用F计算的P还是有显著性.另外,
PREDICTOR是ORDINAL,但BMI并不是随着增加或降低.
BACKWARD是用PROC GLMSELECT吧? 以前没用过,去研究一下.
另外,QUESTION5,6,7是相同BEHAVIOR,45-49是PHYSICAL ACTIVITY BEHAVIOR,在MODEL里
把它们作为单独的COVARIATES还是合并呢?
非常感谢你的回复!
GLM。
☆─────────────────────────────────────☆
zhongdianshi (brb) 于 (Tue Aug 30 12:41:00 2011, 美东) 提到:
能给个参考文章吗?
我这个DATA有2个LEVEL, STUDENT和COUNTRY LEVEL,然后,还要用HLM.本来水平就有限,
没办法,只好硬着头皮上了.
☆─────────────────────────────────────☆
killniu (killniu) 于 (Tue Aug 30 19:17:43 2011, 美东) 提到:
cart
哈哈 打错了
改了
☆─────────────────────────────────────☆
killniu (killniu) 于 (Tue Aug 30 19:18:34 2011, 美东) 提到:
totally right
哈哈
☆─────────────────────────────────────☆
killniu (killniu) 于 (Tue Aug 30 19:25:06 2011, 美东) 提到:
你的question变量值是什么啊? yes / no 这种么?
你的那段英文也说了,anova要自变量是正态。 要是yes / no就不能anova了
differences
☆─────────────────────────────────────☆
adgang (九戒之重出江湖) 于 (Tue Aug 30 19:41:18 2011, 美东) 提到:
据我的感觉,你的response var是continuous data
predictors are discrete
为什么不把所有的var斗放进去呢?就象前面有人提到的
当然 做个correlation减少var的数量也很有必要
☆─────────────────────────────────────☆
G777 (xiaosan) 于 (Tue Aug 30 20:59:25 2011, 美东) 提到:
The predictor variables are ordinal.
Why not read some literature to determine first?
Next, get the correlation of all variables and if any are highly correlated
or not correlated. Double check with literature for those with 0
correlation.
☆─────────────────────────────────────☆
dapangmao (无敌大胖猫) 于 (Tue Aug 30 21:02:39 2011, 美东) 提到:
不妨直接上proc glmselect stepwise
☆─────────────────────────────────────☆
zhongdianshi (brb) 于 (Tue Aug 30 21:26:36 2011, 美东) 提到:
question是过去的一个月内有几天没吃饱?
A.0; B.1; C.2; D.3; E.4; F.5; G.6.
都是类似的问题:我看是ORDINAL的VARIABLE.
OUTCOME是BMI,不是非常NORMAL,但很接近.我看一篇文献取了倒数,我取了,比不取好点,
但NORMAL TEST,还是不NORMAL.
多谢回复!!
☆─────────────────────────────────────☆
zhongdianshi (brb) 于 (Tue Aug 30 21:28:39 2011, 美东) 提到:
RESPONSE是BMI,CONTINUOUS.
PREDICTOR都是CATEGORICAL.
下面,我用PROC GLMSELECT看看.
多谢!!
☆─────────────────────────────────────☆
zhongdianshi (brb) 于 (Tue Aug 30 21:29:40 2011, 美东) 提到:
多谢!要读点东西.
correlated
☆─────────────────────────────────────☆
zhongdianshi (brb) 于 (Tue Aug 30 21:30:36 2011, 美东) 提到:
据说,STEPWISE有很多问题,我还是从BACKWARDS起手.
多谢!!
☆─────────────────────────────────────☆
Actuaries (striving) 于 (Tue Aug 30 23:23:34 2011, 美东) 提到:
你这个例子是可以当成continuos的
我觉得你这个问题的关键还是怎么处理ordinal predictors
要不就和一般的regression,anova区别不大
可以试试对ordinal predictor转换成percentile
这样可以避免太高的model df
点,
☆─────────────────────────────────────☆
suff (傻夫) 于 (Tue Aug 30 23:28:06 2011, 美东) 提到:
那你把它搞成normal阿,呵呵
independent var的话,应该是你给出correlation,scientist来决定取舍吧?
就好比education和SES很正相关,如何取舍呢?先有鸡还是先有蛋?只能问写paper
argue的那个人。我们提供数据就好了。
点,
☆─────────────────────────────────────☆
zhongdianshi (brb) 于 (Wed Aug 31 00:26:25 2011, 美东) 提到:
现在,我又要给出CORRELATION,又要做SCIENTIST,所以只好来这里问问各位大侠了. |
|