如何解读非常小的p－value？ - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 如何解读非常小的p－value？

相关主题
● 各位大侠：请教一个统计学问题	● 请问sas一道题，ttest
● logrank test onesided pvalue	● 怎样比较根据frequency的大小分成的两组rate有无不同？
● hypothesis testing 中的α,β, power function	● 请教Nature上一篇关于pValue的短文
● Joint test for difference in a groups of variables between	● 如何比较两组posterior distribution是否有显著差异
● 统计牛人来帮个忙啊	● 如何运用已知两组的N,MEAN,SD进行u检验 in SAS?
● 用２-sided test做superiority test	● 请问版上做micro array data analysis的高手
● 请问有关t-test（包子酬谢！）	● 问一个数据bias的问题
● a question on sample size	● 请问统计上看两组数字是不是一一对应相等的问题（aggrement/concordence analysis？）

相关话题的讨论汇总
话题: pvalue话题: test话题: 方法话题: sample话题: 分类

进入Statistics版参与讨论

(共1页)

r********n
发帖数: 6979

对于几乎任何statistical tests
两组不同的方法
相同的test
得到两个p－value
一个是0.00001
一个是0.000001
都是highly significantly
我（有多大把握）能不能把这个p－value作为选择方法2的依据呢？
因为方法2的p－value更小
举个例子
假设我有1000个samples
用分类方法一把这1000个sample分成两个组
做一个t－test
得到p1＝0.00001
用另一个分类方法也分成两个组
做一个t－test
得到p2＝0.000001
能不能说明方法2要更好？

A****t
发帖数: 141

p value比较小在一定程度上可以说明power比较高，不过也要看相应的type I error
rate是不是也很高

r********n
发帖数: 6979

当pvalue这么小的时候
type I error不可能很高啊

【在 A****t 的大作中提到】

: p value比较小在一定程度上可以说明power比较高，不过也要看相应的type I error
: rate是不是也很高

r********n
发帖数: 6979

当pvalue这么小的时候
type I error不可能很高啊

【在 A****t 的大作中提到】

: p value比较小在一定程度上可以说明power比较高，不过也要看相应的type I error
: rate是不是也很高

t*******t
发帖数: 633

这是什么逻辑，如果大部分test p value都显著的特别小，那就是可能type I error
rate会是很高的啊。

【在 r********n 的大作中提到】

: 当pvalue这么小的时候
: type I error不可能很高啊

t****r
发帖数: 702

1000个samples？那为什么只有1个p-value?
还是你的sample包括1000个样本？如果是这样，一个样本是不能决定一个test的好坏的。

【在 r********n 的大作中提到】

: 对于几乎任何statistical tests
: 两组不同的方法
: 相同的test
: 得到两个p－value
: 一个是0.00001
: 一个是0.000001
: 都是highly significantly
: 我（有多大把握）能不能把这个p－value作为选择方法2的依据呢？
: 因为方法2的p－value更小
: 举个例子

r********n
发帖数: 6979

1000个sample分成两组做unpaired ttest当然就一个pvalue了
你这个样本是什么意思？难道不是sample？

的。

【在 t****r 的大作中提到】

: 1000个samples？那为什么只有1个p-value?
: 还是你的sample包括1000个样本？如果是这样，一个样本是不能决定一个test的好坏的。

r********n
发帖数: 6979

我知道你和后面一个人说的什么意思了
可能是我原帖里面没有说清楚
你们说的是这个test本身可能type I error比较高(一个pvalue没法说明这个test的好
坏)
这些我都同意
问题是我关心的不是test本身的好坏（当然这个是个问题，只是不是我现在关心的问
题）
假设test本身的assumption都成立
我关心的是两种分类方法的好坏
t－test只是用来分辨的一种方法而已（也可以用别的statistical test）
用分类方法一把1000个sample分成两类：假设一类有400个sample，一类有600个
sample
然后可以在这两组之间做一个unpaired ttest
得到第一个pvalue＝0.00001
用分类方法而把1000个sample分成另外两类：假设一类有250个sample，一类有750个
sample
再做一个unpaired ttest
得到第二个pvalue＝0.000001
我的问题是
因为第二个pvalue比第一个pvalue小（虽然两个pvalue本身都已经highly significant）
也就是说第二种分类方法分出来的两类更加不可能有相同的mean
那我能不能说第二种分类方法更好呢？

【在 t*******t 的大作中提到】

: 这是什么逻辑，如果大部分test p value都显著的特别小，那就是可能type I error
: rate会是很高的啊。

A****t
发帖数: 141

你的1000sample指的是sample size对吧？
type I error是指在null hypothesis成立的情况下，你的方法给出了一个<0.05的p
value.而不是根据你的p value去推断null hypothesis是否为真。
如果你分析的这些是real data的话，这么test是看不出type I error rate的，因为根
本不知道那两组数据是不是真的有显著差异。如果你的方法type I error rate很高的
话，尽管两组之间没有差异，也会给出一个很小的p值。
一般分析empirical power或者type I error rate都是用模拟产生的数据，因为
simulation的时候你可以设定两组数据是否有差异，模拟n个replicates然后用你的方
法去test，就能知道多少是对的，多少是错的。

【在 r********n 的大作中提到】

: 我知道你和后面一个人说的什么意思了
: 可能是我原帖里面没有说清楚
: 你们说的是这个test本身可能type I error比较高(一个pvalue没法说明这个test的好
: 坏)
: 这些我都同意
: 问题是我关心的不是test本身的好坏（当然这个是个问题，只是不是我现在关心的问
: 题）
: 假设test本身的assumption都成立
: 我关心的是两种分类方法的好坏
: t－test只是用来分辨的一种方法而已（也可以用别的statistical test）

r********n
发帖数: 6979

这个1000个sample是sample size
也是真实的数据
我没法simulate这些数据
我的理解是
pvalue是指在null hypothesis成立的情况下，观测到这样一组数据的可能性
如果pvalue非常小（<0.05）
那就是说数据说明null hypothesis不大可能成立（反之， pvalue不太小的话，则只
能说明，数据没法说明null hypothesis是不是成立）
如果test的assumption都成立的话（对ttest来说的话， gaussian， equal variance）
那么type I error rate（false positive rate）应该和pvalue是一样的
我的问题不是关于这个test的！
我假设test本身没有问题
关心的是采用不同分类方法以及相同的test
得出来的pvlue能不能用来评价不同的分类方法（而不是评价test本身）
这里null hypothesis＝两组数据有一样的mean
因为pvalue都非常小
说明两种分类方法都能把这1000个sample分成有不同mean的两组（换句话说，两种分
类方法都能把这1000个sample很好的分成两组相互区别的数据）
我的问题是
能不能因为第二个分类方法的pvalue更小
就说第二种方法分的更好呢？

【在 A****t 的大作中提到】

: 你的1000sample指的是sample size对吧？
: type I error是指在null hypothesis成立的情况下，你的方法给出了一个<0.05的p
: value.而不是根据你的p value去推断null hypothesis是否为真。
: 如果你分析的这些是real data的话，这么test是看不出type I error rate的，因为根
: 本不知道那两组数据是不是真的有显著差异。如果你的方法type I error rate很高的
: 话，尽管两组之间没有差异，也会给出一个很小的p值。
: 一般分析empirical power或者type I error rate都是用模拟产生的数据，因为
: simulation的时候你可以设定两组数据是否有差异，模拟n个replicates然后用你的方
: 法去test，就能知道多少是对的，多少是错的。

相关主题
● 用２-sided test做superiority test	● 请问sas一道题，ttest
● 请问有关t-test（包子酬谢！）	● 怎样比较根据frequency的大小分成的两组rate有无不同？
● a question on sample size	● 请教Nature上一篇关于pValue的短文
进入Statistics版参与讨论

C*******I
发帖数: 339

所谓的pvalue是当null hypothesis 为真时，得到当前sample的概率 P(sample | p_0)
，描述的是sample的性质。
而type I error是指如果这个sample的确来自于null hypothesis 给出的distribution
的话，被拒绝的概率 P(reject | p_0)，一定程度上描述了test的性质。
是这么个意思么？我还从来没仔细想过这个问题呢。。。惭愧惭愧

【在 A****t 的大作中提到】

C*******I
发帖数: 339

我明白楼主的意思，但是我个人觉得0。000001 和0。0000001的区别真的不足以说明这
两个方法有区别，你能确定这个pvalue的精度么？很多时候小数点后面好几位的数字都
是没有意义的。

variance）

【在 r********n 的大作中提到】

: 这个1000个sample是sample size
: 也是真实的数据
: 我没法simulate这些数据
: 我的理解是
: pvalue是指在null hypothesis成立的情况下，观测到这样一组数据的可能性
: 如果pvalue非常小（<0.05）
: 那就是说数据说明null hypothesis不大可能成立（反之， pvalue不太小的话，则只
: 能说明，数据没法说明null hypothesis是不是成立）
: 如果test的assumption都成立的话（对ttest来说的话， gaussian， equal variance）
: 那么type I error rate（false positive rate）应该和pvalue是一样的

A****t
发帖数: 141

再说一点我的看法(不一定对)，一般情况下，比较几种方法会涉及到model,
computational algorithm,test statistic.....，因为这些都有可能影响到power,
type I error rate. 如果你只用t test（而不是自己提出来的新的test statistic）
，发现两组有显著差异，那可以说明被分组以后的两组数据有差异。但你不是在比较你
的两种分组方法吗？举个很极端的例子，产生一组随机数据，然后随机平分成两组，如
果sample size比较大的话，一般test不会有显著差异，但是如果把数据rank一下，top
quartile作为一组，bottom quartile为另一组,再做t test就很可能得到很小的p
value,而且随便一组数据都能得到显著差异。你的第二种方法给出更小的p value，但
是这样做是否合理，差异是不是真的有那么显著？

variance）

【在 r********n 的大作中提到】

b*****n
发帖数: 685

还不是要比较两个test。如何比？看type-I error rate和power。通常只能用
simulation来评价。只靠real data的一个p-val说明不了任何问题。

r********n
发帖数: 6979

就像你说的
如果我有一种分类方法
可以把top quantile和bottom quantile分离出来
那这个分类方法就是一个好的分类方法
当然实际上
分类的方法当然不是象你说的用rank这么简单
因为这个给的这组数据其实相当于ground truth
分类方法本身是看不到的
分类方法用的是别的数据得到这个分类的
我又想这个问题
基本上是在test这么一个hypothesis
当p<<0.05的时候，两个不同的pvalue实际上有多大区别
如果可以设计这么一个对应的statistics
那基本就是看pvalue of pvalues是不是significant
看起来好像没有这么一个test。。。
不过实际上
当pvalue这么小的时候
可能像你说的
test本身的性质可能更重要了
要是test本身的一些assumption没有满足的话
导致的区别可能要比pvalue从0.000001变到0.00001的影响要大的多

top

【在 A****t 的大作中提到】

: 再说一点我的看法(不一定对)，一般情况下，比较几种方法会涉及到model,
: computational algorithm,test statistic.....，因为这些都有可能影响到power,
: type I error rate. 如果你只用t test（而不是自己提出来的新的test statistic）
: ，发现两组有显著差异，那可以说明被分组以后的两组数据有差异。但你不是在比较你
: 的两种分组方法吗？举个很极端的例子，产生一组随机数据，然后随机平分成两组，如
: 果sample size比较大的话，一般test不会有显著差异，但是如果把数据rank一下，top
: quartile作为一组，bottom quartile为另一组,再做t test就很可能得到很小的p
: value,而且随便一组数据都能得到显著差异。你的第二种方法给出更小的p value，但
: 是这样做是否合理，差异是不是真的有那么显著？
:

y***n
发帖数: 51

我老师说，p-value 小于0.0001，一概用<0.0001,再小的无须specify。

(共1页)

进入Statistics版参与讨论

相关主题
● 请问统计上看两组数字是不是一一对应相等的问题（aggrement/concordence analysis？）	● 统计牛人来帮个忙啊
● 问个sequential test的问题	● 用２-sided test做superiority test
● 为什么中心极限定律要求sample size >= 30	● 请问有关t-test（包子酬谢！）
● 请教一个two sample t test 的问题	● a question on sample size
● 各位大侠：请教一个统计学问题	● 请问sas一道题，ttest
● logrank test onesided pvalue	● 怎样比较根据frequency的大小分成的两组rate有无不同？
● hypothesis testing 中的α,β, power function	● 请教Nature上一篇关于pValue的短文
● Joint test for difference in a groups of variables between	● 如何比较两组posterior distribution是否有显著差异

相关话题的讨论汇总
话题: pvalue话题: test话题: 方法话题: sample话题: 分类

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天