由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 关于categorical变量的 significance一个小问题
相关主题
请问model里面的model变量和control变量什么区别啊?请问个odds ratio 和 CI的问题
questions about modeling ?请问有关t-test(包子酬谢!)
[合集] 关于proc reg 一问, 急~~~~~~~model和variables都sig.但每个category都不sig
One interview question:) Looking for help如何做linear model
linear regression 中的categorical data如何比较两个interaction是否相等?
Survey data analysis in SASA question about significance test for normal distribution
急问negative binomial regression的结果的model significance看哪个参数Can I claim significance based on one-sided p-value?
请问dummy variable in stepwise怎么看significance啊?统计专业问题请教,谢谢大家
相关话题的讨论汇总
话题: x1话题: 系数话题: score
进入Statistics版参与讨论
1 (共1页)
m***c
发帖数: 118
1
我有一个data其中一个变量是x1,x1有4个值(a, b, c, d),在fit model之后结果发现
只有a和b是significant.d是baseline,比如x1='a'时,x1=0.1 / x1='b'时,x1=0.6 / x1
='c'时,x1=0.3.
此时我想score一个新data,如果x1='a'/'b',直接带入系数,如果x1='d'则x1=0,但是x1=
'c'的时候,x1是0,还是用他的系数0.3?
thanks a lot!!!
B******y
发帖数: 9065
2
天哪,有人看得懂LZ在问的什么么?看这些话,感觉我以前的统计全白学了,完全不知
说云。。。

x1
x1=

【在 m***c 的大作中提到】
: 我有一个data其中一个变量是x1,x1有4个值(a, b, c, d),在fit model之后结果发现
: 只有a和b是significant.d是baseline,比如x1='a'时,x1=0.1 / x1='b'时,x1=0.6 / x1
: ='c'时,x1=0.3.
: 此时我想score一个新data,如果x1='a'/'b',直接带入系数,如果x1='d'则x1=0,但是x1=
: 'c'的时候,x1是0,还是用他的系数0.3?
: thanks a lot!!!

m***c
发帖数: 118
3
对不起LS.
我的问题很简单,概括的说,在有了系数(coefficients)后,如何score新data,如果是
numeric,很简单,直接带进行数据里,是categorical var就有些复杂,(1)
一个categorical var里所有level全部significant,那么也很简单,直接带进行数据里
,(2) 但如果categorical variable有部分level(s)不significant,要score一个新
data的时候,这些不significant level该取何值?
e.g.x1是categorical variable with a/b/c/d 4个levels,下面是fit model后的结果:
var estimates p-vlaue
x1 a 0.1 0.010
x1 b 0.7 0.034
x1 c 0.3 0.870
x1 d 0
x2 1.3 0.001
x4 0.08 0.002
....
现在我要SCORE一个新的data:
obs x1 x2 x4 ......
1 a 0.08 2.1
2 b 0.20 0.3
3 c 0.61 1.1
4 d 0.30 0.8
5 b 0.10 1.5
.....
score: est=sum(x1,x2,x3,x4,,,,)
这时候,line 3, x1该取何值, 0还是0.3?
不知道是问的过于简单了,还是根本没说清楚,非常感谢!!!
K*****2
发帖数: 9308
4
如果model没有变,x1还是4个level,应该用0.3
如果用0,应该把x1的c和d两个level合并,重新计算全部的coef
m***c
发帖数: 118
5
如果这样的话,那么significant对于a/b/c/d是否就没有区别了。
总觉得应该是0,试想如果x4不significant,那么我们就用0;对于一个var里的各个
level而言,是不是也应该同样对待,significant就用系数,不significant就用0?

【在 K*****2 的大作中提到】
: 如果model没有变,x1还是4个level,应该用0.3
: 如果用0,应该把x1的c和d两个level合并,重新计算全部的coef

K*****2
发帖数: 9308
6
显然不能啊,只有一个c不显著,你怎么能把a,b系数全都设成0?
而且扔掉一个变量以后,肯定要重新fit model,哪能直接扔系数的

【在 m***c 的大作中提到】
: 如果这样的话,那么significant对于a/b/c/d是否就没有区别了。
: 总觉得应该是0,试想如果x4不significant,那么我们就用0;对于一个var里的各个
: level而言,是不是也应该同样对待,significant就用系数,不significant就用0?

h***i
发帖数: 3844
7
use 0.3
Why
试想如果x4不significant,那么我们就用0??
如果x4 significant了,那x4是不是significant different from 0.5?
如果你发现不是了,那是不是按照你的逻辑,不用x4的estimate,用0.5?

【在 m***c 的大作中提到】
: 如果这样的话,那么significant对于a/b/c/d是否就没有区别了。
: 总觉得应该是0,试想如果x4不significant,那么我们就用0;对于一个var里的各个
: level而言,是不是也应该同样对待,significant就用系数,不significant就用0?

m***c
发帖数: 118
8
你误解了,我的意思是,a和b significant,那么a和b就用他们的系数0.1和0.7,而c不
significant,c就用0.

【在 K*****2 的大作中提到】
: 显然不能啊,只有一个c不显著,你怎么能把a,b系数全都设成0?
: 而且扔掉一个变量以后,肯定要重新fit model,哪能直接扔系数的

K*****2
发帖数: 9308
9
不能这么做的
我说了,每弃掉一个变量,整个model就要重新fit一次,系数肯定全部都要变的,而且
说不定显著性也要变

【在 m***c 的大作中提到】
: 你误解了,我的意思是,a和b significant,那么a和b就用他们的系数0.1和0.7,而c不
: significant,c就用0.

m***c
发帖数: 118
10
你还是误解了。
我没有弃掉任何变量,而且model已经完成,系数已经确定(x1,x4,,,都是significant)
,这一切已经不再变动了。
在这个前提条件下,我用得到的系数来score一个新数据(比如test data).我的问题
就在于categorical变量X1的4个值(a,b,c,d)各自都有自己的p-value,这个没有异议
吧?其中c为non-significant,在score新数据时,如果x1='a',那么x1=0.1,如果x1='
b',那么x1=0.7,如果x1='c'(这是个non-significant)时,x1=0还是0.3?
现在该明白我的意思了吧,或者你知道SCORE的意思吧,简单的说比如在logistic MODEL
里,有个score statement,这score不是要重新fit model,而只是用已经得到的系数
来拿过来算新数据的预测值。
K*****2
发帖数: 9308
11
我完全没有误解,你fit出来c的系数是0.3,实际上却用的是0,等效于你把level c和d
看成是一样的了啊。既然看成一样的,你为什么一开始fit的model要加入c呢?所以你
必须重新fit。你看明白了吧?

significant)
='

【在 m***c 的大作中提到】
: 你还是误解了。
: 我没有弃掉任何变量,而且model已经完成,系数已经确定(x1,x4,,,都是significant)
: ,这一切已经不再变动了。
: 在这个前提条件下,我用得到的系数来score一个新数据(比如test data).我的问题
: 就在于categorical变量X1的4个值(a,b,c,d)各自都有自己的p-value,这个没有异议
: 吧?其中c为non-significant,在score新数据时,如果x1='a',那么x1=0.1,如果x1='
: b',那么x1=0.7,如果x1='c'(这是个non-significant)时,x1=0还是0.3?
: 现在该明白我的意思了吧,或者你知道SCORE的意思吧,简单的说比如在logistic MODEL
: 里,有个score statement,这score不是要重新fit model,而只是用已经得到的系数
: 来拿过来算新数据的预测值。

m***c
发帖数: 118
12
在fit model之前,大家并不知道X2是不是significant,也不知道x2哪些值是
significant的,等到model完成之后,大家才发现其中c不是significant。
如果X5在这个model里也是一个significant的categorical变量,且有3个值(m,n,p)m
,n的p-value均<0.05,p为baseline,这时候我们在score新数据的时候,就全部用他们
的系数(当然x5='p'时X5=0),这个没有异议吧。
这时候对比一下x2和x5,x2='c'时,该用0.3还是0?

和d

【在 K*****2 的大作中提到】
: 我完全没有误解,你fit出来c的系数是0.3,实际上却用的是0,等效于你把level c和d
: 看成是一样的了啊。既然看成一样的,你为什么一开始fit的model要加入c呢?所以你
: 必须重新fit。你看明白了吧?
:
: significant)
: ='

h***i
发帖数: 3844
13
实话 你为什么就不能把categorical variable 那些level看成dummy variable呢
为什么?

)m

【在 m***c 的大作中提到】
: 在fit model之前,大家并不知道X2是不是significant,也不知道x2哪些值是
: significant的,等到model完成之后,大家才发现其中c不是significant。
: 如果X5在这个model里也是一个significant的categorical变量,且有3个值(m,n,p)m
: ,n的p-value均<0.05,p为baseline,这时候我们在score新数据的时候,就全部用他们
: 的系数(当然x5='p'时X5=0),这个没有异议吧。
: 这时候对比一下x2和x5,x2='c'时,该用0.3还是0?
:
: 和d

K*****2
发帖数: 9308
14
上面有人说了,所谓显著性test是跟0比的,那问题是0.3凭什么非得要跟0比?跟0比不
显著,那么如果跟0比和跟0.1比都不显著呢,你打算拿哪个代替0.3?是用0,还是0.1
,还是说不定0到0.1之间随便一个数?你自己想想就知道用0代替毫无逻辑性可言。

)m

【在 m***c 的大作中提到】
: 在fit model之前,大家并不知道X2是不是significant,也不知道x2哪些值是
: significant的,等到model完成之后,大家才发现其中c不是significant。
: 如果X5在这个model里也是一个significant的categorical变量,且有3个值(m,n,p)m
: ,n的p-value均<0.05,p为baseline,这时候我们在score新数据的时候,就全部用他们
: 的系数(当然x5='p'时X5=0),这个没有异议吧。
: 这时候对比一下x2和x5,x2='c'时,该用0.3还是0?
:
: 和d

1 (共1页)
进入Statistics版参与讨论
相关主题
统计专业问题请教,谢谢大家linear regression 中的categorical data
原来还有too much statistical power这么一说 (转载)Survey data analysis in SAS
statistical score modeling, and scoring models 是什么东西?急问negative binomial regression的结果的model significance看哪个参数
请教logistic regression的independent variable是categorical请问dummy variable in stepwise怎么看significance啊?
请问model里面的model变量和control变量什么区别啊?请问个odds ratio 和 CI的问题
questions about modeling ?请问有关t-test(包子酬谢!)
[合集] 关于proc reg 一问, 急~~~~~~~model和variables都sig.但每个category都不sig
One interview question:) Looking for help如何做linear model
相关话题的讨论汇总
话题: x1话题: 系数话题: score