在线等，雪天跪地裸求 p-value特别小的意义 linear regression - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 在线等，雪天跪地裸求 p-value特别小的意义 linear regression

相关主题
● 求助一个学术问题	● 支持TNEGIETNI
● 问个回归系数的问题	● 挑战：谁是人类文明史上最伟大的科学家？ (转载)
● 问多个回归系数变化的问题	● Frequentist and Bayesian
● 问个关于回归的菜鸟问题	● 问学统计的同学一个关于P-value的弱问题
● 弱问一个概念	● 请教一个SAS coding
● 请问诸位chi-square test	● Joint test for difference in a groups of variables between
● 请问R-square很弱，但是independent variables的p-value<0.05怎么解释？	● Is there any correlation between the two data set?
● 问个regression问题	● [合集] 是不是所有的贝叶斯模型都可以用R/SAS写出codes?

相关话题的讨论汇总
话题: 回归系数话题: 概率话题: 检验话题: 等于话题: 样本

进入Statistics版参与讨论

(共1页)

v*****u
发帖数: 406

我用一个linear regression算一个model
结果如下
Residual standard error: 11.7 on 1426 degrees of freedom
Multiple R-squared: 0.2245, Adjusted R-squared: 0.2196
F-statistic: 45.86 on 9 and 1426 DF, p-value: < 2.2e-16
p-value怎么小算什么意思，我查wiki说是 very strong presumption against
neutral hypothesis。那代表什么呢？
是不是说明这个model不好，请大侠解释我以上的指标怎么样

T*******I
发帖数: 5138

这应该是统计学里最简单的问题了。估计只有没学过统计的人才会问这个问题。
它的意思就是告诉你，回归系数等于0的可能性几乎为0，反之就是说回归系数不等于0
而是等于你的样本所估计的那个数值的可能性几乎等100%。

c********h
发帖数: 330

这个pvalue相当于比较两个模型
模型1：y~1
模型2：y~1+x
如果pvalue很小，说明如果模型1是对的，就是如果所以变量的系数都是0，你得到这样
一个fitting results的概率是非常非常小的。
一般要一个significance level, 比如0.05，那么pvalue小于0.05，就拒绝模型1。
但我觉得它不能说明回归系数等于样本算出来的值的概率很大... 那需要做其他的test

v*****u
发帖数: 406

thanks！

T*******I
发帖数: 5138

我已经看不懂这位的评论了。令人感到有点不知所云。也许是我学的知识太过落后了，
现在有新的语言来表述回归分析的基本原理了。
其实，回归分析的原理很简单。我们只能用样本来估计一组随机变量间的量化的变异关
系，这个量化的关系就是回归系数。由于总体回归系数究竟是什么没人能够知道，但我
们可以知道有一个0回归系数，即无回归关系。所以，当用样本估计一个回归系数b后，
我们的统计检验假设就是：
H0: b=0
H1: b=/=0 (=/=意思是不等于)
目前的回归系数的检验技术就是在回答b是否等于0。如果b不等于0，则由样本所估计的
结果就是唯一可以接受的结果，因为我们并无第三个可供参考的回归系数的数值（例如
B）用于建立如下检验：
H0: b = B
H1: b=/=B
一般而言，检验中接受H0成立的概率水平设定为0.05。如果p<0.05, 则拒绝H0，表明即
使由于抽样误差的存在，由样本估计的b等于0的可能性也<0.05；反之，如果p>=0.05，
则接受H0，表明由于抽样误差的存在，由样本估计的b等于0的可能性>=0.05。这已经是
一个很严格的拒绝水平了。

test

【在 c********h 的大作中提到】

: 这个pvalue相当于比较两个模型
: 模型1：y~1
: 模型2：y~1+x
: 如果pvalue很小，说明如果模型1是对的，就是如果所以变量的系数都是0，你得到这样
: 一个fitting results的概率是非常非常小的。
: 一般要一个significance level, 比如0.05，那么pvalue小于0.05，就拒绝模型1。
: 但我觉得它不能说明回归系数等于样本算出来的值的概率很大... 那需要做其他的test

n****t
发帖数: 182

那个帖子是在说，当p-value很小的时候，检验的结论是拒绝H0，但不能得出所估计值
有多大概率的结论。以p值为基础的Fisherian统计检验只能得出拒绝H0的结论，再下
一步的决定就不是统计意义上的，而是实践操作。
实践操作中，确实是以估计值来作为结果的。但是不能说这个结果正确的概率有多大。
对于连续变量点估计来说，这个点估计正确的概率永远是无穷小。

【在 T*******I 的大作中提到】

: 我已经看不懂这位的评论了。令人感到有点不知所云。也许是我学的知识太过落后了，
: 现在有新的语言来表述回归分析的基本原理了。
: 其实，回归分析的原理很简单。我们只能用样本来估计一组随机变量间的量化的变异关
: 系，这个量化的关系就是回归系数。由于总体回归系数究竟是什么没人能够知道，但我
: 们可以知道有一个0回归系数，即无回归关系。所以，当用样本估计一个回归系数b后，
: 我们的统计检验假设就是：
: H0: b=0
: H1: b=/=0 (=/=意思是不等于)
: 目前的回归系数的检验技术就是在回答b是否等于0。如果b不等于0，则由样本所估计的
: 结果就是唯一可以接受的结果，因为我们并无第三个可供参考的回归系数的数值（例如

T*******I
发帖数: 5138

多谢解惑。按照我的理解，在任何统计实践中，我们都只能用样本来估计一个总体的某
种“状态，state”，例如，回归系数就是回归关系这一状态的度量。所以，如果检验
的结果是在一定的概率水平上拒绝H0，则只能在同一概率水平上接受H1，而接受H1就意
味着只能接受由该样本所估计的b。这两种解释之间具有合理的一致性。除此之外，我
们没有办法接受任何其它度量的结果。
其实，除了检验b是否等于零外，我们还应该有b是否等于b的检验，但由于这等同于检
验一个量是否等于其自身，所以没有必要。
统计检验的概率不是要告诉人们被检验的统计量用来估计总体相应参数时是否正确的概
率有多大，仅仅只是告诉人们对总体相应参数的估计等于由样本所估计的统计量的可能
性有多大。
我不太理解他所说的：
模型1：y~1
模型2：y~1+x
这是什么意思？

【在 n****t 的大作中提到】

: 那个帖子是在说，当p-value很小的时候，检验的结论是拒绝H0，但不能得出所估计值
: 有多大概率的结论。以p值为基础的Fisherian统计检验只能得出拒绝H0的结论，再下
: 一步的决定就不是统计意义上的，而是实践操作。
: 实践操作中，确实是以估计值来作为结果的。但是不能说这个结果正确的概率有多大。
: 对于连续变量点估计来说，这个点估计正确的概率永远是无穷小。

n****t
发帖数: 182

“如果检验的结果是在一定的概率水平上拒绝H0，则只能在同一概率水平上接受H1”
这个理解是不正确的。接受H1 的说法在统计考试里是要被扣分的。而况在这个问题里
H1是“不等于0”，和“接受b”也不等同-- b本身是个统计量，有其相应的估计、方差
等等，谈不上接受--
当前的这个是最优无偏估计（当然这个说法和Ｐ值就无关了――最优和无偏谈论的是
这个方法）。
y=1, y=1 x 他写的是design matrix，对于covariate variable，只写了变量名而没
有写系数，编程的时候都是这么作的。相对于说y=b0*1+b1*x+e,他这个写法没什么问题。

【在 T*******I 的大作中提到】

: 多谢解惑。按照我的理解，在任何统计实践中，我们都只能用样本来估计一个总体的某
: 种“状态，state”，例如，回归系数就是回归关系这一状态的度量。所以，如果检验
: 的结果是在一定的概率水平上拒绝H0，则只能在同一概率水平上接受H1，而接受H1就意
: 味着只能接受由该样本所估计的b。这两种解释之间具有合理的一致性。除此之外，我
: 们没有办法接受任何其它度量的结果。
: 其实，除了检验b是否等于零外，我们还应该有b是否等于b的检验，但由于这等同于检
: 验一个量是否等于其自身，所以没有必要。
: 统计检验的概率不是要告诉人们被检验的统计量用来估计总体相应参数时是否正确的概
: 率有多大，仅仅只是告诉人们对总体相应参数的估计等于由样本所估计的统计量的可能
: 性有多大。

T*******I
发帖数: 5138

我觉得很多人没搞清楚差异性检验法中那个用于推断的概率的实质。
就本题讨论的回归系数的检验而言，那个检验是在推断b-0这一绝对差中抽样误差发生
的概率大小(a)，从而得到总体回归系数等于b的概率大小(1-a)。这两者是同一的，因
为b与0之间的全部误差由且仅由两部分构成：一部分是系统误差，另一部分就是抽样误
差。
当b=0的假设被拒绝后，我们便只有唯一的可接受的结果，即b，以及相应的b的样本基
础上所估计的变异性。所谓的最优性、无偏性则都是由算法保障的。不是由算法所得出
的数值所保障的。

题。

【在 n****t 的大作中提到】

: “如果检验的结果是在一定的概率水平上拒绝H0，则只能在同一概率水平上接受H1”
: 这个理解是不正确的。接受H1 的说法在统计考试里是要被扣分的。而况在这个问题里
: H1是“不等于0”，和“接受b”也不等同-- b本身是个统计量，有其相应的估计、方差
: 等等，谈不上接受--
: 当前的这个是最优无偏估计（当然这个说法和Ｐ值就无关了――最优和无偏谈论的是
: 这个方法）。
: y=1, y=1 x 他写的是design matrix，对于covariate variable，只写了变量名而没
: 有写系数，编程的时候都是这么作的。相对于说y=b0*1+b1*x+e,他这个写法没什么问题。

n****t
发帖数: 182

“从而得到总体回归系数等于b的概率大小(1-a)”
这个结论是不能得到的。回归系数等于b的概率是0。
“那个检验是在推断b-0这一绝对差中抽样误差发生的概率大小(a)”，这个说法不仅
是不严格，和FISHER的P值就更加不沾边了。FISHER 的P值，是假定0是真实的情况下，
比B或者更极端的情况发生的概率。
如果按照老祖宗FISHER的这个说法，把B定位为真实值，实际上这个P值变为50%（在对
称分布的假设下）。1-a这个说法怎么说都站不住脚。
虽然按照这个说法，做出的最后决定不是错误的，但是决策的过程中没有正确使用统计
概念。

【在 T*******I 的大作中提到】

: 我觉得很多人没搞清楚差异性检验法中那个用于推断的概率的实质。
: 就本题讨论的回归系数的检验而言，那个检验是在推断b-0这一绝对差中抽样误差发生
: 的概率大小(a)，从而得到总体回归系数等于b的概率大小(1-a)。这两者是同一的，因
: 为b与0之间的全部误差由且仅由两部分构成：一部分是系统误差，另一部分就是抽样误
: 差。
: 当b=0的假设被拒绝后，我们便只有唯一的可接受的结果，即b，以及相应的b的样本基
: 础上所估计的变异性。所谓的最优性、无偏性则都是由算法保障的。不是由算法所得出
: 的数值所保障的。
:
: 题。

相关主题
● 请问诸位chi-square test	● 支持TNEGIETNI
● 请问R-square很弱，但是independent variables的p-value<0.05怎么解释？	● 挑战：谁是人类文明史上最伟大的科学家？ (转载)
● 问个regression问题	● Frequentist and Bayesian
进入Statistics版参与讨论

d******e
发帖数: 7844

不要跟陈立功大师认真。
他是统计盲。

题。

【在 n****t 的大作中提到】

T*******I
发帖数: 5138

或许，我们在统计学里需要把“等于”的概念与数学中的“等于”相区分。
统计学里的一个统计量“等于”某个数值不同于数学里的“x=3”这样的概念，因为任
何一个统计量都伴随着抽样误差或抽样变异性。由一个样本所估计出来的统计量不是一
个常量，而是一个随机的变量，因为样本是随机得到的。但一个样本本身的一切信息又
都是固定不变的，因此，由样本我们可以得到一个确定的估计结果。这个“确定性”仅
对样本本身成立，但对于总体则是随机而不确定的。所以，不能把由样本估计的统计量
看成是总体参数不可变的结果。
这种理解已经超出了经典数学里关于“同一性”或“相等”等概念的内涵。
因此，当检验一个回归系数b是否等于0时，我们通过检验b-0这个绝对差值中抽样误差
发生的概率大小而得到关于b本身的精确程度的估计。这是不容置疑的。又由于我们仅
有关于某个样本的回归系数可用，因此，这个回归系数便成为唯一可接受的关于总体相
应参数的估计结果的一个期望值，当然，还有关于它的抽样标准误。而由这个期望值和
相应的标准误，我们就可以得到关于总体参数估计的一个随机分布。没有其它。
我和你所使用的语言略有不同，这并不妨碍我们使用相同的方法进行统计估计。

【在 n****t 的大作中提到】

: “从而得到总体回归系数等于b的概率大小(1-a)”
: 这个结论是不能得到的。回归系数等于b的概率是0。
: “那个检验是在推断b-0这一绝对差中抽样误差发生的概率大小(a)”，这个说法不仅
: 是不严格，和FISHER的P值就更加不沾边了。FISHER 的P值，是假定0是真实的情况下，
: 比B或者更极端的情况发生的概率。
: 如果按照老祖宗FISHER的这个说法，把B定位为真实值，实际上这个P值变为50%（在对
: 称分布的假设下）。1-a这个说法怎么说都站不住脚。
: 虽然按照这个说法，做出的最后决定不是错误的，但是决策的过程中没有正确使用统计
: 概念。

T*******I
发帖数: 5138

drburnie小弟，好久不见，你又露面了。
你在这里似乎专门跟我过不去。第一次交流得到的就是你的辱骂以及所有你可能用到的
恶毒的字眼。你很享受，因为我从不用那些脏字回击你。
学会一点礼貌待人吧。当然，要是你愿意就这个话题发表你的高见，我还是愿意洗耳恭
听。
胡说八道是毫无意义的。记得版上有一个ID说过，如果把我在这里发表过的所有东西汇
集成册，将是一本不错的统计知识集。

【在 d******e 的大作中提到】

: 不要跟陈立功大师认真。
: 他是统计盲。
:
: 题。

n****t
发帖数: 182

交流要有个“名言共许”的前提，否则就说不清楚了。
用概率来描述估计值的方法当然是存在的，贝叶斯就是--这也是贝叶斯学派坚持用条件
概率分布来描述统计结果的原因之一：无论是FISHER的p值，还是N-P的验证区间，都很
容易引起误解。贝叶斯条件概率就很直观--起码表面如此。

【在 T*******I 的大作中提到】

: 或许，我们在统计学里需要把“等于”的概念与数学中的“等于”相区分。
: 统计学里的一个统计量“等于”某个数值不同于数学里的“x=3”这样的概念，因为任
: 何一个统计量都伴随着抽样误差或抽样变异性。由一个样本所估计出来的统计量不是一
: 个常量，而是一个随机的变量，因为样本是随机得到的。但一个样本本身的一切信息又
: 都是固定不变的，因此，由样本我们可以得到一个确定的估计结果。这个“确定性”仅
: 对样本本身成立，但对于总体则是随机而不确定的。所以，不能把由样本估计的统计量
: 看成是总体参数不可变的结果。
: 这种理解已经超出了经典数学里关于“同一性”或“相等”等概念的内涵。
: 因此，当检验一个回归系数b是否等于0时，我们通过检验b-0这个绝对差值中抽样误差
: 发生的概率大小而得到关于b本身的精确程度的估计。这是不容置疑的。又由于我们仅

d******e
发帖数: 7844

唉，你是才来这个版么？你稍微考古一下就知道他是什么人了。

【在 n****t 的大作中提到】

: 交流要有个“名言共许”的前提，否则就说不清楚了。
: 用概率来描述估计值的方法当然是存在的，贝叶斯就是--这也是贝叶斯学派坚持用条件
: 概率分布来描述统计结果的原因之一：无论是FISHER的p值，还是N-P的验证区间，都很
: 容易引起误解。贝叶斯条件概率就很直观--起码表面如此。

T*******I
发帖数: 5138

拜托，不要把统计搞成了数学。在数学范畴里，一些概念和定义何许是永恒不变的，但
在统计学里，一些概念和定义则有可能被不断更新。否则，我们的思想就会被僵化，就
不会有新思想的诞生和新算法的形成。
一个说法是否正确，并不取决于它是否符合现有的概念和定义系统，而是是否符合它本
身所表达的现实世界。为此，我们更多的是需要一种缜密的哲学式的思考，而不是在既
有的概念系统里进行考证。所以，在统计学里，“名言共许”是不必要的。
你借用贝叶斯理论来解释概率和统计量之间的关系，表明你没有准确地理解我所说的检
验概率和统计量之间的关系。建议你回头看看我是如何解释回归系数的检验的。在我的
解释里面有两个极其重要的概念：系统误差和随机误差，它们构成了b-0的全部。我的
这个解释与贝叶斯理论完全无关，而可能是对Fisher检验原理的重新阐述，如果以前没
有人这样做过的话。

【在 n****t 的大作中提到】

(共1页)

进入Statistics版参与讨论

相关主题
● [合集] 是不是所有的贝叶斯模型都可以用R/SAS写出codes?	● 弱问一个概念
● 应该选用哪个OR值来比较危险因素对结果变量的影响?	● 请问诸位chi-square test
● 有人用tibshirani的GSA么？	● 请问R-square很弱，但是independent variables的p-value<0.05怎么解释？
● help-how to get exact p value in sas	● 问个regression问题
● 求助一个学术问题	● 支持TNEGIETNI
● 问个回归系数的问题	● 挑战：谁是人类文明史上最伟大的科学家？ (转载)
● 问多个回归系数变化的问题	● Frequentist and Bayesian
● 问个关于回归的菜鸟问题	● 问学统计的同学一个关于P-value的弱问题

相关话题的讨论汇总
话题: 回归系数话题: 概率话题: 检验话题: 等于话题: 样本

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天