m***c 发帖数: 118 | 1 我有一个data其中一个变量是x1,x1有4个值(a, b, c, d),在fit model之后结果发现
只有a和b是significant.d是baseline,比如x1='a'时,x1=0.1 / x1='b'时,x1=0.6 / x1
='c'时,x1=0.3.
此时我想score一个新data,如果x1='a'/'b',直接带入系数,如果x1='d'则x1=0,但是x1=
'c'的时候,x1是0,还是用他的系数0.3?
thanks a lot!!! | B******y 发帖数: 9065 | 2 天哪,有人看得懂LZ在问的什么么?看这些话,感觉我以前的统计全白学了,完全不知
说云。。。
x1
x1=
【在 m***c 的大作中提到】 : 我有一个data其中一个变量是x1,x1有4个值(a, b, c, d),在fit model之后结果发现 : 只有a和b是significant.d是baseline,比如x1='a'时,x1=0.1 / x1='b'时,x1=0.6 / x1 : ='c'时,x1=0.3. : 此时我想score一个新data,如果x1='a'/'b',直接带入系数,如果x1='d'则x1=0,但是x1= : 'c'的时候,x1是0,还是用他的系数0.3? : thanks a lot!!!
| m***c 发帖数: 118 | 3 对不起LS.
我的问题很简单,概括的说,在有了系数(coefficients)后,如何score新data,如果是
numeric,很简单,直接带进行数据里,是categorical var就有些复杂,(1)
一个categorical var里所有level全部significant,那么也很简单,直接带进行数据里
,(2) 但如果categorical variable有部分level(s)不significant,要score一个新
data的时候,这些不significant level该取何值?
e.g.x1是categorical variable with a/b/c/d 4个levels,下面是fit model后的结果:
var estimates p-vlaue
x1 a 0.1 0.010
x1 b 0.7 0.034
x1 c 0.3 0.870
x1 d 0
x2 1.3 0.001
x4 0.08 0.002
....
现在我要SCORE一个新的data:
obs x1 x2 x4 ......
1 a 0.08 2.1
2 b 0.20 0.3
3 c 0.61 1.1
4 d 0.30 0.8
5 b 0.10 1.5
.....
score: est=sum(x1,x2,x3,x4,,,,)
这时候,line 3, x1该取何值, 0还是0.3?
不知道是问的过于简单了,还是根本没说清楚,非常感谢!!! | K*****2 发帖数: 9308 | 4 如果model没有变,x1还是4个level,应该用0.3
如果用0,应该把x1的c和d两个level合并,重新计算全部的coef | m***c 发帖数: 118 | 5 如果这样的话,那么significant对于a/b/c/d是否就没有区别了。
总觉得应该是0,试想如果x4不significant,那么我们就用0;对于一个var里的各个
level而言,是不是也应该同样对待,significant就用系数,不significant就用0?
【在 K*****2 的大作中提到】 : 如果model没有变,x1还是4个level,应该用0.3 : 如果用0,应该把x1的c和d两个level合并,重新计算全部的coef
| K*****2 发帖数: 9308 | 6 显然不能啊,只有一个c不显著,你怎么能把a,b系数全都设成0?
而且扔掉一个变量以后,肯定要重新fit model,哪能直接扔系数的
【在 m***c 的大作中提到】 : 如果这样的话,那么significant对于a/b/c/d是否就没有区别了。 : 总觉得应该是0,试想如果x4不significant,那么我们就用0;对于一个var里的各个 : level而言,是不是也应该同样对待,significant就用系数,不significant就用0?
| h***i 发帖数: 3844 | 7 use 0.3
Why
试想如果x4不significant,那么我们就用0??
如果x4 significant了,那x4是不是significant different from 0.5?
如果你发现不是了,那是不是按照你的逻辑,不用x4的estimate,用0.5?
【在 m***c 的大作中提到】 : 如果这样的话,那么significant对于a/b/c/d是否就没有区别了。 : 总觉得应该是0,试想如果x4不significant,那么我们就用0;对于一个var里的各个 : level而言,是不是也应该同样对待,significant就用系数,不significant就用0?
| m***c 发帖数: 118 | 8 你误解了,我的意思是,a和b significant,那么a和b就用他们的系数0.1和0.7,而c不
significant,c就用0.
【在 K*****2 的大作中提到】 : 显然不能啊,只有一个c不显著,你怎么能把a,b系数全都设成0? : 而且扔掉一个变量以后,肯定要重新fit model,哪能直接扔系数的
| K*****2 发帖数: 9308 | 9 不能这么做的
我说了,每弃掉一个变量,整个model就要重新fit一次,系数肯定全部都要变的,而且
说不定显著性也要变
【在 m***c 的大作中提到】 : 你误解了,我的意思是,a和b significant,那么a和b就用他们的系数0.1和0.7,而c不 : significant,c就用0.
| m***c 发帖数: 118 | 10 你还是误解了。
我没有弃掉任何变量,而且model已经完成,系数已经确定(x1,x4,,,都是significant)
,这一切已经不再变动了。
在这个前提条件下,我用得到的系数来score一个新数据(比如test data).我的问题
就在于categorical变量X1的4个值(a,b,c,d)各自都有自己的p-value,这个没有异议
吧?其中c为non-significant,在score新数据时,如果x1='a',那么x1=0.1,如果x1='
b',那么x1=0.7,如果x1='c'(这是个non-significant)时,x1=0还是0.3?
现在该明白我的意思了吧,或者你知道SCORE的意思吧,简单的说比如在logistic MODEL
里,有个score statement,这score不是要重新fit model,而只是用已经得到的系数
来拿过来算新数据的预测值。 | K*****2 发帖数: 9308 | 11 我完全没有误解,你fit出来c的系数是0.3,实际上却用的是0,等效于你把level c和d
看成是一样的了啊。既然看成一样的,你为什么一开始fit的model要加入c呢?所以你
必须重新fit。你看明白了吧?
significant)
='
【在 m***c 的大作中提到】 : 你还是误解了。 : 我没有弃掉任何变量,而且model已经完成,系数已经确定(x1,x4,,,都是significant) : ,这一切已经不再变动了。 : 在这个前提条件下,我用得到的系数来score一个新数据(比如test data).我的问题 : 就在于categorical变量X1的4个值(a,b,c,d)各自都有自己的p-value,这个没有异议 : 吧?其中c为non-significant,在score新数据时,如果x1='a',那么x1=0.1,如果x1=' : b',那么x1=0.7,如果x1='c'(这是个non-significant)时,x1=0还是0.3? : 现在该明白我的意思了吧,或者你知道SCORE的意思吧,简单的说比如在logistic MODEL : 里,有个score statement,这score不是要重新fit model,而只是用已经得到的系数 : 来拿过来算新数据的预测值。
| m***c 发帖数: 118 | 12 在fit model之前,大家并不知道X2是不是significant,也不知道x2哪些值是
significant的,等到model完成之后,大家才发现其中c不是significant。
如果X5在这个model里也是一个significant的categorical变量,且有3个值(m,n,p)m
,n的p-value均<0.05,p为baseline,这时候我们在score新数据的时候,就全部用他们
的系数(当然x5='p'时X5=0),这个没有异议吧。
这时候对比一下x2和x5,x2='c'时,该用0.3还是0?
和d
【在 K*****2 的大作中提到】 : 我完全没有误解,你fit出来c的系数是0.3,实际上却用的是0,等效于你把level c和d : 看成是一样的了啊。既然看成一样的,你为什么一开始fit的model要加入c呢?所以你 : 必须重新fit。你看明白了吧? : : significant) : ='
| h***i 发帖数: 3844 | 13 实话 你为什么就不能把categorical variable 那些level看成dummy variable呢
为什么?
)m
【在 m***c 的大作中提到】 : 在fit model之前,大家并不知道X2是不是significant,也不知道x2哪些值是 : significant的,等到model完成之后,大家才发现其中c不是significant。 : 如果X5在这个model里也是一个significant的categorical变量,且有3个值(m,n,p)m : ,n的p-value均<0.05,p为baseline,这时候我们在score新数据的时候,就全部用他们 : 的系数(当然x5='p'时X5=0),这个没有异议吧。 : 这时候对比一下x2和x5,x2='c'时,该用0.3还是0? : : 和d
| K*****2 发帖数: 9308 | 14 上面有人说了,所谓显著性test是跟0比的,那问题是0.3凭什么非得要跟0比?跟0比不
显著,那么如果跟0比和跟0.1比都不显著呢,你打算拿哪个代替0.3?是用0,还是0.1
,还是说不定0到0.1之间随便一个数?你自己想想就知道用0代替毫无逻辑性可言。
)m
【在 m***c 的大作中提到】 : 在fit model之前,大家并不知道X2是不是significant,也不知道x2哪些值是 : significant的,等到model完成之后,大家才发现其中c不是significant。 : 如果X5在这个model里也是一个significant的categorical变量,且有3个值(m,n,p)m : ,n的p-value均<0.05,p为baseline,这时候我们在score新数据的时候,就全部用他们 : 的系数(当然x5='p'时X5=0),这个没有异议吧。 : 这时候对比一下x2和x5,x2='c'时,该用0.3还是0? : : 和d
|
|