关于categorical变量的 significance一个小问题 - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 关于categorical变量的 significance一个小问题

相关主题
● 请问model里面的model变量和control变量什么区别啊？	● 请问个odds ratio 和 CI的问题
● questions about modeling ?	● 请问有关t-test（包子酬谢！）
● [合集] 关于proc reg 一问，急～～～～～～～	● model和variables都sig.但每个category都不sig
● One interview question:) Looking for help	● 如何做linear model
● linear regression 中的categorical data	● 如何比较两个interaction是否相等？
● Survey data analysis in SAS	● A question about significance test for normal distribution
● 急问negative binomial regression的结果的model significance看哪个参数	● Can I claim significance based on one-sided p-value?
● 请问dummy variable in stepwise怎么看significance啊？	● 统计专业问题请教,谢谢大家

相关话题的讨论汇总
话题: x1话题: 系数话题: score

进入Statistics版参与讨论

1

(共1页)

m***c 发帖数: 118	1 我有一个data其中一个变量是x1，x1有4个值(a, b, c, d),在fit model之后结果发现只有a和b是significant.d是baseline,比如x1='a'时,x1=0.1 / x1='b'时,x1=0.6 / x1 ='c'时,x1=0.3. 此时我想score一个新data,如果x1='a'/'b',直接带入系数,如果x1='d'则x1=0,但是x1= 'c'的时候,x1是0,还是用他的系数0.3？ thanks a lot!!!
B******y 发帖数: 9065	2 天哪，有人看得懂LZ在问的什么么？看这些话，感觉我以前的统计全白学了，完全不知说云。。。 x1 x1= 【在 m***c 的大作中提到】 : 我有一个data其中一个变量是x1，x1有4个值(a, b, c, d),在fit model之后结果发现 : 只有a和b是significant.d是baseline,比如x1='a'时,x1=0.1 / x1='b'时,x1=0.6 / x1 : ='c'时,x1=0.3. : 此时我想score一个新data,如果x1='a'/'b',直接带入系数,如果x1='d'则x1=0,但是x1= : 'c'的时候,x1是0,还是用他的系数0.3？ : thanks a lot!!!
m***c 发帖数: 118	3 对不起LS. 我的问题很简单，概括的说，在有了系数(coefficients)后，如何score新data,如果是 numeric,很简单，直接带进行数据里，是categorical var就有些复杂，(1) 一个categorical var里所有level全部significant,那么也很简单，直接带进行数据里，(2) 但如果categorical variable有部分level(s)不significant,要score一个新 data的时候，这些不significant level该取何值？ e.g.x1是categorical variable with a/b/c/d 4个levels,下面是fit model后的结果： var estimates p-vlaue x1 a 0.1 0.010 x1 b 0.7 0.034 x1 c 0.3 0.870 x1 d 0 x2 1.3 0.001 x4 0.08 0.002 .... 现在我要SCORE一个新的data： obs x1 x2 x4 ...... 1 a 0.08 2.1 2 b 0.20 0.3 3 c 0.61 1.1 4 d 0.30 0.8 5 b 0.10 1.5 ..... score: est=sum(x1,x2,x3,x4,,,,) 这时候，line 3, x1该取何值， 0还是0.3? 不知道是问的过于简单了，还是根本没说清楚,非常感谢！！！
K*****2 发帖数: 9308	4 如果model没有变，x1还是4个level，应该用0.3 如果用0，应该把x1的c和d两个level合并，重新计算全部的coef
m***c 发帖数: 118	5 如果这样的话，那么significant对于a/b/c/d是否就没有区别了。总觉得应该是0，试想如果x4不significant，那么我们就用0；对于一个var里的各个 level而言，是不是也应该同样对待，significant就用系数，不significant就用0？【在 K*****2 的大作中提到】 : 如果model没有变，x1还是4个level，应该用0.3 : 如果用0，应该把x1的c和d两个level合并，重新计算全部的coef
K*****2 发帖数: 9308	6 显然不能啊，只有一个c不显著，你怎么能把a，b系数全都设成0？而且扔掉一个变量以后，肯定要重新fit model，哪能直接扔系数的【在 m***c 的大作中提到】 : 如果这样的话，那么significant对于a/b/c/d是否就没有区别了。 : 总觉得应该是0，试想如果x4不significant，那么我们就用0；对于一个var里的各个 : level而言，是不是也应该同样对待，significant就用系数，不significant就用0？
h***i 发帖数: 3844	7 use 0.3 Why 试想如果x4不significant，那么我们就用0?? 如果x４ significant了，那x４是不是significant different from 0.5? 如果你发现不是了，那是不是按照你的逻辑，不用x４的estimate，用0.5？【在 m***c 的大作中提到】 : 如果这样的话，那么significant对于a/b/c/d是否就没有区别了。 : 总觉得应该是0，试想如果x4不significant，那么我们就用0；对于一个var里的各个 : level而言，是不是也应该同样对待，significant就用系数，不significant就用0？
m***c 发帖数: 118	8 你误解了，我的意思是，a和b significant,那么a和b就用他们的系数0.1和0.7,而c不 significant,c就用0. 【在 K*****2 的大作中提到】 : 显然不能啊，只有一个c不显著，你怎么能把a，b系数全都设成0？ : 而且扔掉一个变量以后，肯定要重新fit model，哪能直接扔系数的
K*****2 发帖数: 9308	9 不能这么做的我说了，每弃掉一个变量，整个model就要重新fit一次，系数肯定全部都要变的，而且说不定显著性也要变【在 m***c 的大作中提到】 : 你误解了，我的意思是，a和b significant,那么a和b就用他们的系数0.1和0.7,而c不 : significant,c就用0.
m***c 发帖数: 118	10 你还是误解了。我没有弃掉任何变量，而且model已经完成，系数已经确定(x1,x4,,,都是significant) ，这一切已经不再变动了。在这个前提条件下，我用得到的系数来score一个新数据（比如test data）.我的问题就在于categorical变量X1的4个值（a,b,c,d）各自都有自己的p-value,这个没有异议吧？其中c为non-significant，在score新数据时，如果x1='a',那么x1=0.1，如果x1=' b',那么x1=0.7，如果x1='c'（这是个non-significant）时，x1=0还是0.3？现在该明白我的意思了吧,或者你知道SCORE的意思吧，简单的说比如在logistic MODEL 里，有个score statement，这score不是要重新fit model，而只是用已经得到的系数来拿过来算新数据的预测值。
K*****2 发帖数: 9308	11 我完全没有误解，你fit出来c的系数是0.3，实际上却用的是0，等效于你把level c和d 看成是一样的了啊。既然看成一样的，你为什么一开始fit的model要加入c呢？所以你必须重新fit。你看明白了吧？ significant) =' 【在 m***c 的大作中提到】 : 你还是误解了。 : 我没有弃掉任何变量，而且model已经完成，系数已经确定(x1,x4,,,都是significant) : ，这一切已经不再变动了。 : 在这个前提条件下，我用得到的系数来score一个新数据（比如test data）.我的问题 : 就在于categorical变量X1的4个值（a,b,c,d）各自都有自己的p-value,这个没有异议 : 吧？其中c为non-significant，在score新数据时，如果x1='a',那么x1=0.1，如果x1=' : b',那么x1=0.7，如果x1='c'（这是个non-significant）时，x1=0还是0.3？ : 现在该明白我的意思了吧,或者你知道SCORE的意思吧，简单的说比如在logistic MODEL : 里，有个score statement，这score不是要重新fit model，而只是用已经得到的系数 : 来拿过来算新数据的预测值。
m***c 发帖数: 118	12 在fit model之前，大家并不知道X2是不是significant，也不知道x2哪些值是 significant的，等到model完成之后，大家才发现其中c不是significant。如果X5在这个model里也是一个significant的categorical变量，且有3个值（m,n,p）m ,n的p-value均<0.05，p为baseline，这时候我们在score新数据的时候，就全部用他们的系数（当然x5='p'时X5=0），这个没有异议吧。这时候对比一下x2和x5，x2='c'时，该用0.3还是0？和d 【在 K*****2 的大作中提到】 : 我完全没有误解，你fit出来c的系数是0.3，实际上却用的是0，等效于你把level c和d : 看成是一样的了啊。既然看成一样的，你为什么一开始fit的model要加入c呢？所以你 : 必须重新fit。你看明白了吧？ : : significant) : ='
h***i 发帖数: 3844	13 实话你为什么就不能把categorical variable 那些level看成dummy variable呢为什么？）m 【在 m***c 的大作中提到】 : 在fit model之前，大家并不知道X2是不是significant，也不知道x2哪些值是 : significant的，等到model完成之后，大家才发现其中c不是significant。 : 如果X5在这个model里也是一个significant的categorical变量，且有3个值（m,n,p）m : ,n的p-value均<0.05，p为baseline，这时候我们在score新数据的时候，就全部用他们 : 的系数（当然x5='p'时X5=0），这个没有异议吧。 : 这时候对比一下x2和x5，x2='c'时，该用0.3还是0？ : : 和d
K*****2 发帖数: 9308	14 上面有人说了，所谓显著性test是跟0比的，那问题是0.3凭什么非得要跟0比？跟0比不显著，那么如果跟0比和跟0.1比都不显著呢，你打算拿哪个代替0.3？是用0，还是0.1 ，还是说不定0到0.1之间随便一个数？你自己想想就知道用0代替毫无逻辑性可言。）m 【在 m***c 的大作中提到】 : 在fit model之前，大家并不知道X2是不是significant，也不知道x2哪些值是 : significant的，等到model完成之后，大家才发现其中c不是significant。 : 如果X5在这个model里也是一个significant的categorical变量，且有3个值（m,n,p）m : ,n的p-value均<0.05，p为baseline，这时候我们在score新数据的时候，就全部用他们 : 的系数（当然x5='p'时X5=0），这个没有异议吧。 : 这时候对比一下x2和x5，x2='c'时，该用0.3还是0？ : : 和d

1

(共1页)

进入Statistics版参与讨论

相关主题
● 统计专业问题请教,谢谢大家	● linear regression 中的categorical data
● 原来还有too much statistical power这么一说 (转载)	● Survey data analysis in SAS
● statistical score modeling, and scoring models 是什么东西？	● 急问negative binomial regression的结果的model significance看哪个参数
● 请教logistic regression的independent variable是categorical	● 请问dummy variable in stepwise怎么看significance啊？
● 请问model里面的model变量和control变量什么区别啊？	● 请问个odds ratio 和 CI的问题
● questions about modeling ?	● 请问有关t-test（包子酬谢！）
● [合集] 关于proc reg 一问，急～～～～～～～	● model和variables都sig.但每个category都不sig
● One interview question:) Looking for help	● 如何做linear model

相关话题的讨论汇总
话题: x1话题: 系数话题: score

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)