s*****0 发帖数: 357 | 1 Essay写累了上来灌灌水,没想到脸红脖子粗的争了一场,多少有些意气了。忙了一天
,现在闲下心来好好说说这个话题。既然有网友抛砖引玉了,缄口不言也实在不够尊重
。另外版主塞了不少包子,也不能吃白食.
先说说常用的描述数据的几个概念.
1. random variation -- variability有两大类,一类是知道来源的,还有一类是
unexplained. 比如一部分variability是由treatment effect引起的,而剩下的大部分
variability却不知道缘故. 后者经常被归入random variation.
2. Mean -- 最常见的当然是arithmetic mean, 特殊情况下也会用geometric及
harmonic mean. 任何数据组都能计算mean, 但不是所有时候用mean都合适. 当碰到
extreme data values的时候(经常因为技术条件所限边缘值不太容易被精确测量),
median就会有很大的优越性, 因为median可以大幅降低个别extreme value的影响.
3. Median -- 概念不多提了, 优 | a****m 发帖数: 693 | | D******n 发帖数: 2836 | 3 applaud~
【在 s*****0 的大作中提到】 : Essay写累了上来灌灌水,没想到脸红脖子粗的争了一场,多少有些意气了。忙了一天 : ,现在闲下心来好好说说这个话题。既然有网友抛砖引玉了,缄口不言也实在不够尊重 : 。另外版主塞了不少包子,也不能吃白食. : 先说说常用的描述数据的几个概念. : 1. random variation -- variability有两大类,一类是知道来源的,还有一类是 : unexplained. 比如一部分variability是由treatment effect引起的,而剩下的大部分 : variability却不知道缘故. 后者经常被归入random variation. : 2. Mean -- 最常见的当然是arithmetic mean, 特殊情况下也会用geometric及 : harmonic mean. 任何数据组都能计算mean, 但不是所有时候用mean都合适. 当碰到 : extreme data values的时候(经常因为技术条件所限边缘值不太容易被精确测量),
| K****n 发帖数: 5970 | 4 really difficult to conclude the difference between parametric vs non-
parametric
I think non-parametric methods have to memorize all the data in your
computer so it is memory-consuming, yet they are really flexible in
regression and classification, e.g. Gaussian process, support vector
machine, etc.
Maybe usually non-parametric techniques' assumptions are of "higher
level"? like they sometimes have "hyperparameters" modeling the
parameters... wait, but this applies to some parametric methods to
【在 s*****0 的大作中提到】 : Essay写累了上来灌灌水,没想到脸红脖子粗的争了一场,多少有些意气了。忙了一天 : ,现在闲下心来好好说说这个话题。既然有网友抛砖引玉了,缄口不言也实在不够尊重 : 。另外版主塞了不少包子,也不能吃白食. : 先说说常用的描述数据的几个概念. : 1. random variation -- variability有两大类,一类是知道来源的,还有一类是 : unexplained. 比如一部分variability是由treatment effect引起的,而剩下的大部分 : variability却不知道缘故. 后者经常被归入random variation. : 2. Mean -- 最常见的当然是arithmetic mean, 特殊情况下也会用geometric及 : harmonic mean. 任何数据组都能计算mean, 但不是所有时候用mean都合适. 当碰到 : extreme data values的时候(经常因为技术条件所限边缘值不太容易被精确测量),
| K****n 发帖数: 5970 | 5 in non-parametric methods, each of your data point is actually the parameter
, so they may (or may not) suffer over-fitting... but it is exactly why it
is also more flexible | g**********t 发帖数: 475 | 6 我纠正一点偶然发现的错误,possion分布只有一个参数lambda。
【在 s*****0 的大作中提到】 : Essay写累了上来灌灌水,没想到脸红脖子粗的争了一场,多少有些意气了。忙了一天 : ,现在闲下心来好好说说这个话题。既然有网友抛砖引玉了,缄口不言也实在不够尊重 : 。另外版主塞了不少包子,也不能吃白食. : 先说说常用的描述数据的几个概念. : 1. random variation -- variability有两大类,一类是知道来源的,还有一类是 : unexplained. 比如一部分variability是由treatment effect引起的,而剩下的大部分 : variability却不知道缘故. 后者经常被归入random variation. : 2. Mean -- 最常见的当然是arithmetic mean, 特殊情况下也会用geometric及 : harmonic mean. 任何数据组都能计算mean, 但不是所有时候用mean都合适. 当碰到 : extreme data values的时候(经常因为技术条件所限边缘值不太容易被精确测量),
| s*****0 发帖数: 357 | 7 多谢,已更正。
【在 g**********t 的大作中提到】 : 我纠正一点偶然发现的错误,possion分布只有一个参数lambda。
| s*****0 发帖数: 357 | 8 如果处理的是independent group, parametric test原则上要求每个组的observation接近正太分布, 而且有个equal variance假设,即各组的stdev也要相近. 如果原始数据不满足这些条件, 可以考虑data transformation. 理论上log transformation是最佳选择,因为也只有log的特性,才能将estimation无论是mean还是stdev有意义的transform回来.但log transformation不是万能良药, 有些情况下不适用,有些情况下transform了也未必一定能解决问题 (课后题: positive skewed和 negative skewed哪个适用log transformation?).这时候non-parametric就粉墨登场了.
如果处理的是paired group而非independent group, 每组observation本身并不需要符合normality,但有另外一种特殊的normality要求, 猜猜看?
从来没想到会在Student's t test上耗费如 | f********7 发帖数: 59 | 9 问一个具体的例子,我想比较某个值(比如每两个小时,细胞内某蛋白新合成的量占总
量的比例)在两个不同条件下的变化。我每一次实验都做triplicate,于是每个条件都
有三个值。这两个条件之间的区别都是很明显的。我又重复了一次,区别还在,但是每
个条件之间的具体的值不太一样,因为这个值与时间有关(我测两个小时,可是每次实
验时,不一定正好两个小时,多十分钟,少十分钟很正常),而且不同时间的实验,细
胞的状态可能也不一样。我的问题是,我在present data时,是汇报一次的数据,用
triplicate的平均值,error bar用standard deviation,还是用多次做的实验的平均
值呢?多次做的实验的结果之间variation肯定更大,因为细胞状态不一样,所用的时
间不一样等等。这就像做western blot,我们总是present某一次的数据,仅管我们重
复过几次。
【在 s*****0 的大作中提到】 : Essay写累了上来灌灌水,没想到脸红脖子粗的争了一场,多少有些意气了。忙了一天 : ,现在闲下心来好好说说这个话题。既然有网友抛砖引玉了,缄口不言也实在不够尊重 : 。另外版主塞了不少包子,也不能吃白食. : 先说说常用的描述数据的几个概念. : 1. random variation -- variability有两大类,一类是知道来源的,还有一类是 : unexplained. 比如一部分variability是由treatment effect引起的,而剩下的大部分 : variability却不知道缘故. 后者经常被归入random variation. : 2. Mean -- 最常见的当然是arithmetic mean, 特殊情况下也会用geometric及 : harmonic mean. 任何数据组都能计算mean, 但不是所有时候用mean都合适. 当碰到 : extreme data values的时候(经常因为技术条件所限边缘值不太容易被精确测量),
| D**g 发帖数: 739 | 10 你是每两个小时测一次,测若干次, 还是只是两个小时左右测,只测一次?
【在 f********7 的大作中提到】 : 问一个具体的例子,我想比较某个值(比如每两个小时,细胞内某蛋白新合成的量占总 : 量的比例)在两个不同条件下的变化。我每一次实验都做triplicate,于是每个条件都 : 有三个值。这两个条件之间的区别都是很明显的。我又重复了一次,区别还在,但是每 : 个条件之间的具体的值不太一样,因为这个值与时间有关(我测两个小时,可是每次实 : 验时,不一定正好两个小时,多十分钟,少十分钟很正常),而且不同时间的实验,细 : 胞的状态可能也不一样。我的问题是,我在present data时,是汇报一次的数据,用 : triplicate的平均值,error bar用standard deviation,还是用多次做的实验的平均 : 值呢?多次做的实验的结果之间variation肯定更大,因为细胞状态不一样,所用的时 : 间不一样等等。这就像做western blot,我们总是present某一次的数据,仅管我们重 : 复过几次。
| | | r****t 发帖数: 10904 | 11 paired, triplicate 算 3 pairs,做第二次实验算另外 3 pairs. 你都说了“三个值
这两个条件之间的区别都是很明显的”。如果不行再加变量考虑每次实验条件不同的影
响。
【在 f********7 的大作中提到】 : 问一个具体的例子,我想比较某个值(比如每两个小时,细胞内某蛋白新合成的量占总 : 量的比例)在两个不同条件下的变化。我每一次实验都做triplicate,于是每个条件都 : 有三个值。这两个条件之间的区别都是很明显的。我又重复了一次,区别还在,但是每 : 个条件之间的具体的值不太一样,因为这个值与时间有关(我测两个小时,可是每次实 : 验时,不一定正好两个小时,多十分钟,少十分钟很正常),而且不同时间的实验,细 : 胞的状态可能也不一样。我的问题是,我在present data时,是汇报一次的数据,用 : triplicate的平均值,error bar用standard deviation,还是用多次做的实验的平均 : 值呢?多次做的实验的结果之间variation肯定更大,因为细胞状态不一样,所用的时 : 间不一样等等。这就像做western blot,我们总是present某一次的数据,仅管我们重 : 复过几次。
| D**g 发帖数: 739 | 12 不对。TRIPLICATE你怎么PAIR法?假设六孔板,3/3,谁跟谁配对?
【在 r****t 的大作中提到】 : paired, triplicate 算 3 pairs,做第二次实验算另外 3 pairs. 你都说了“三个值 : 这两个条件之间的区别都是很明显的”。如果不行再加变量考虑每次实验条件不同的影 : 响。
| r****t 发帖数: 10904 | 13 “于是每个条件都有三个值。这两个条件之间的区别都是很明显的。”从这句话看,他
知道具体怎么 pair。一定要我猜就难了,要知道 protocol 才行。
【在 D**g 的大作中提到】 : 不对。TRIPLICATE你怎么PAIR法?假设六孔板,3/3,谁跟谁配对?
| f********7 发帖数: 59 | 14 只是两个小时测一次,因为测完后,细胞就死了
【在 D**g 的大作中提到】 : 你是每两个小时测一次,测若干次, 还是只是两个小时左右测,只测一次?
| T****u 发帖数: 424 | | T********e 发帖数: 223 | | a****m 发帖数: 693 | 17
observation
接近正太分布, 而且有个equal variance假设,即各组的stdev也要相近. 如果原始数据
不满足
这些条件, 可以考虑data transformation. 理论上log transformation是最佳选择,因为
也只有log的特性,才能将estimation无论是mean还是stdev有意义的transform回来.但
log
transformation不是万能良药, 有些情况下不适用,有些情况下transform了也未必一定
能解决
问题 (课后题: positive skewed和 negative skewed哪个适用log transformation?).
这时候non-parametric就粉墨�: 浅×�.
合normality,但有另外一种特殊的normality要求, 猜猜看?
对t test
理解也有偏差。
t distribution的来历主要是Fisher,他本人科研做的好,但是人品不好,对异己打击
报复,不
让发表,所以有人只好用笔名,也是万不得已。
。他称
之为t distribut
【在 s*****0 的大作中提到】 : 如果处理的是independent group, parametric test原则上要求每个组的observation接近正太分布, 而且有个equal variance假设,即各组的stdev也要相近. 如果原始数据不满足这些条件, 可以考虑data transformation. 理论上log transformation是最佳选择,因为也只有log的特性,才能将estimation无论是mean还是stdev有意义的transform回来.但log transformation不是万能良药, 有些情况下不适用,有些情况下transform了也未必一定能解决问题 (课后题: positive skewed和 negative skewed哪个适用log transformation?).这时候non-parametric就粉墨登场了. : 如果处理的是paired group而非independent group, 每组observation本身并不需要符合normality,但有另外一种特殊的normality要求, 猜猜看? : 从来没想到会在Student's t test上耗费如
| j******y 发帖数: 114 | 18 写得挺好的,顶一下
【在 s*****0 的大作中提到】 : Essay写累了上来灌灌水,没想到脸红脖子粗的争了一场,多少有些意气了。忙了一天 : ,现在闲下心来好好说说这个话题。既然有网友抛砖引玉了,缄口不言也实在不够尊重 : 。另外版主塞了不少包子,也不能吃白食. : 先说说常用的描述数据的几个概念. : 1. random variation -- variability有两大类,一类是知道来源的,还有一类是 : unexplained. 比如一部分variability是由treatment effect引起的,而剩下的大部分 : variability却不知道缘故. 后者经常被归入random variation. : 2. Mean -- 最常见的当然是arithmetic mean, 特殊情况下也会用geometric及 : harmonic mean. 任何数据组都能计算mean, 但不是所有时候用mean都合适. 当碰到 : extreme data values的时候(经常因为技术条件所限边缘值不太容易被精确测量),
| r****t 发帖数: 10904 | 19 要是他自己也不肯定“谁跟谁配对”的问题,那就不能在每次实验内部配对。每次实验
只能算 1 sample,这样数据量少了很多。
【在 D**g 的大作中提到】 : 不对。TRIPLICATE你怎么PAIR法?假设六孔板,3/3,谁跟谁配对?
| s*****0 发帖数: 357 | 20 说正题以前,先胡扯几句,算是给已经转了统计或者正在转统计的朋友们提个醒。我这
是杂谈贴,不是劝退。偶尔隔壁统计版逛逛,如今正在向生物版靠拢,成为劝退的大本
营。以前是SAS大本营,原本已经很悲哀了,现在有赶超我版的苗头。归根到底就一个
问题,就是现在的行情统计好不好找工作。我要去隔壁说统计很多availability,估计
立刻会被砖头拍死,为什么?因为大部分在版的job seeker都是fresh,又没有经验又
要身份支持,哪怕有一千个机会, 这么一stratify,也剩不了几个,而且广大的老印兄
弟还虎视眈眈。
其时学统计的时候必须要弄清楚一个问题,应用统计的关键在于应用,大部分转统计的
人都不会去搞methodology念PhD,而是期望靠统计找份工作。但当你工作后就会明白,
统计只是一个工具,工作的经验有一部分讲究的是你对统计工具的娴熟,但更看重的是
你在行业里累积的经验。比如在药厂里搞生统,当你写SAP的时候会去理解一个
therapeutic area,在银行里建模,你会去理解各种各样的风险模型信用模型。你以后
改resume跳槽,真正值得突出的是这些经验,而会什么mult | | | p*****m 发帖数: 7030 | 21 好帖
【在 s*****0 的大作中提到】 : 说正题以前,先胡扯几句,算是给已经转了统计或者正在转统计的朋友们提个醒。我这 : 是杂谈贴,不是劝退。偶尔隔壁统计版逛逛,如今正在向生物版靠拢,成为劝退的大本 : 营。以前是SAS大本营,原本已经很悲哀了,现在有赶超我版的苗头。归根到底就一个 : 问题,就是现在的行情统计好不好找工作。我要去隔壁说统计很多availability,估计 : 立刻会被砖头拍死,为什么?因为大部分在版的job seeker都是fresh,又没有经验又 : 要身份支持,哪怕有一千个机会, 这么一stratify,也剩不了几个,而且广大的老印兄 : 弟还虎视眈眈。 : 其时学统计的时候必须要弄清楚一个问题,应用统计的关键在于应用,大部分转统计的 : 人都不会去搞methodology念PhD,而是期望靠统计找份工作。但当你工作后就会明白, : 统计只是一个工具,工作的经验有一部分讲究的是你对统计工具的娴熟,但更看重的是
| m******f 发帖数: 4352 | 22 读完大作以后,以前不懂得一个问题,豁然开朗了。佩服。
顺便问一句,目前的统计应用方面工具很杂,one way anova, t-test , 什么whiteney
...
总是搞不清楚。有没有一个解析方法把这些都统一起来,让人便与理解?
【在 s*****0 的大作中提到】 : 说正题以前,先胡扯几句,算是给已经转了统计或者正在转统计的朋友们提个醒。我这 : 是杂谈贴,不是劝退。偶尔隔壁统计版逛逛,如今正在向生物版靠拢,成为劝退的大本 : 营。以前是SAS大本营,原本已经很悲哀了,现在有赶超我版的苗头。归根到底就一个 : 问题,就是现在的行情统计好不好找工作。我要去隔壁说统计很多availability,估计 : 立刻会被砖头拍死,为什么?因为大部分在版的job seeker都是fresh,又没有经验又 : 要身份支持,哪怕有一千个机会, 这么一stratify,也剩不了几个,而且广大的老印兄 : 弟还虎视眈眈。 : 其时学统计的时候必须要弄清楚一个问题,应用统计的关键在于应用,大部分转统计的 : 人都不会去搞methodology念PhD,而是期望靠统计找份工作。但当你工作后就会明白, : 统计只是一个工具,工作的经验有一部分讲究的是你对统计工具的娴熟,但更看重的是
| p*****m 发帖数: 7030 | 23 没有 呵呵 我觉得现在压根就没有什么robust的方法硬性的告诉你应该用parametric o
r non-parametric,肉眼看自己的raw data应该是最方便的选择
whiteney
【在 m******f 的大作中提到】 : 读完大作以后,以前不懂得一个问题,豁然开朗了。佩服。 : 顺便问一句,目前的统计应用方面工具很杂,one way anova, t-test , 什么whiteney : ... : 总是搞不清楚。有没有一个解析方法把这些都统一起来,让人便与理解?
| g**********t 发帖数: 475 | 24 统计是一门艺术,呵呵。要不咋会有那么多人调P值?nature上面用统计trick调到显著
的我都见过。
o
【在 p*****m 的大作中提到】 : 没有 呵呵 我觉得现在压根就没有什么robust的方法硬性的告诉你应该用parametric o : r non-parametric,肉眼看自己的raw data应该是最方便的选择 : : whiteney
| s*r 发帖数: 2757 | 25 错
【在 a****m 的大作中提到】 : : observation : 接近正太分布, 而且有个equal variance假设,即各组的stdev也要相近. 如果原始数据 : 不满足 : 这些条件, 可以考虑data transformation. 理论上log transformation是最佳选择,因为 : 也只有log的特性,才能将estimation无论是mean还是stdev有意义的transform回来.但 : log : transformation不是万能良药, 有些情况下不适用,有些情况下transform了也未必一定 : 能解决 : 问题 (课后题: positive skewed和 negative skewed哪个适用log transformation?).
| h******e 发帖数: 1791 | 26 可不可以讲一讲PCA在生统中的应用?我从来没见过。谢谢。
【在 s*****0 的大作中提到】 : 说正题以前,先胡扯几句,算是给已经转了统计或者正在转统计的朋友们提个醒。我这 : 是杂谈贴,不是劝退。偶尔隔壁统计版逛逛,如今正在向生物版靠拢,成为劝退的大本 : 营。以前是SAS大本营,原本已经很悲哀了,现在有赶超我版的苗头。归根到底就一个 : 问题,就是现在的行情统计好不好找工作。我要去隔壁说统计很多availability,估计 : 立刻会被砖头拍死,为什么?因为大部分在版的job seeker都是fresh,又没有经验又 : 要身份支持,哪怕有一千个机会, 这么一stratify,也剩不了几个,而且广大的老印兄 : 弟还虎视眈眈。 : 其时学统计的时候必须要弄清楚一个问题,应用统计的关键在于应用,大部分转统计的 : 人都不会去搞methodology念PhD,而是期望靠统计找份工作。但当你工作后就会明白, : 统计只是一个工具,工作的经验有一部分讲究的是你对统计工具的娴熟,但更看重的是
| m******f 发帖数: 4352 | 27 re
【在 h******e 的大作中提到】 : 可不可以讲一讲PCA在生统中的应用?我从来没见过。谢谢。
| w******y 发帖数: 8040 | 28 collinearity
【在 h******e 的大作中提到】 : 可不可以讲一讲PCA在生统中的应用?我从来没见过。谢谢。
| K****n 发帖数: 5970 | 29 那就是一门儿行为艺术了
【在 g**********t 的大作中提到】 : 统计是一门艺术,呵呵。要不咋会有那么多人调P值?nature上面用统计trick调到显著 : 的我都见过。 : : o
| K****n 发帖数: 5970 | 30 这是啥,降维了?
【在 w******y 的大作中提到】 : collinearity
| | | K****n 发帖数: 5970 | 31 趁别人没搞出来赶快发它一篇!
不过我好像见过啊,PCA属于off-the-shelf的东西,会不会人家用了没好意思说呢
比如这个:
Balslev, D., Braet, W., McAllister, C., Miall, R.C., 2007. Inter-
individual variability in optimal current direction for transcranial
magnetic stimulation of the motor cortex. J Neurosci Methods 162, 309-313.
不太懂生统,不过生物里到处都能用
【在 h******e 的大作中提到】 : 可不可以讲一讲PCA在生统中的应用?我从来没见过。谢谢。
| g**********t 发帖数: 475 | 32 在生态学里面用的很多,基因组学里也有人用,但是比较少。
【在 h******e 的大作中提到】 : 可不可以讲一讲PCA在生统中的应用?我从来没见过。谢谢。
| h******0 发帖数: 3 | 33 感谢sgu2000 的统计科普知识贴子. 我非常希望您能继续这一话题。但是在您的大作中
提到,
"上世纪初的时候, Gossett发现从Normal distribution里头取样出来的样本其均值分
布近似但不等同于Normal distribution。他称之为t distribution.";
这一描述不准确.
从正态分布群体里取样出来的样本, 样本的均值分布仍然服从正态分布. (请参考以下
叙述)
"if Y is normally distributed, ......Y[hat], the mean of n such normally
distributed random variables[,]......is normally distributed."
Page 112, essential of biostatistics, 1987, Elston, Robert C.
"......if sampling from a normally distributed population, the sampling
distribution of the sampl
【在 s*****0 的大作中提到】 : 如果处理的是independent group, parametric test原则上要求每个组的observation接近正太分布, 而且有个equal variance假设,即各组的stdev也要相近. 如果原始数据不满足这些条件, 可以考虑data transformation. 理论上log transformation是最佳选择,因为也只有log的特性,才能将estimation无论是mean还是stdev有意义的transform回来.但log transformation不是万能良药, 有些情况下不适用,有些情况下transform了也未必一定能解决问题 (课后题: positive skewed和 negative skewed哪个适用log transformation?).这时候non-parametric就粉墨登场了. : 如果处理的是paired group而非independent group, 每组observation本身并不需要符合normality,但有另外一种特殊的normality要求, 猜猜看? : 从来没想到会在Student's t test上耗费如
| s*****0 发帖数: 357 | 34 周末杂事比较多,小孩的playdate,还有和朋友约定的网战等等,未能及时更新,见谅。
感谢楼上hbsr2010的一些概念更正,平时理论接触的少了,记忆有偏差,因为在网上随
便写些,也懒得查书,写的时候随兴所至,没有太注意。我尽量让文笔轻快些,让读者
不至于厌烦。以后尽量会避免误导,如有不确实之处,请务必指正。先行谢过了,因为
有自己的一摊东西要收拾,不能像做科研那样严谨了。
前文提到的t test, one way ANOVA以及相关的nonparametric都只有涉及到一个
variable,比如作对照实验,variable即treatment type,不同计量药物或者是
placebo。组和组的区分是由这个variable决定的。在涉及到更为复杂的模型前(比如
two way ANOVA, multiple regression),我觉得还是先唠叨唠叨categorical data的
统计方法,毕竟做multiple regression之类的工作需要一定的统计背景,平时远没有
Chi-square这样的test用得多。所以先简后难了。
Categorical data在生 | D*a 发帖数: 6830 | | s*****0 发帖数: 357 | 36 临周末前说说correlation和regression吧. 很多教科书上都把这两个techniques放在
一起讨论,初学统计的人难免会觉得两者密不可分。其实两者的区别还是很明显的,服
从于不同的分析目的,很少有人对数据同时使用这两种方法。
先说说correlation。Correlation是用来检测两组continous的数据间有没有
association(另一种方法前文已提到,回顾一下)。比如年龄和脂肪含量,胳膊长和
腿长,它们之间有相关性,但没有明确的causality关系。难道说年龄是导致脂肪含量
增高的根本原因?我看缺乏锻炼吃得太多才更是原因。
测量相关性用的一个系数叫做correlation coefficient。标准的计算方法经常归功于
Pearson,所以很常见Pearson's r的提法。其范围介于-1到1间。正值为正相关,负值
为负相关,而接近于0的话则相关性不显著。通常将两组数据用scatter plot画出来能
看出端倪, 数据间的分布可能有一个underlying linear trend,而Pearson's r就是
一个测量scattered的数据 | D**g 发帖数: 739 | 37 补充一下correlation的误用。生物试验或医学研究里经常会有这种情况:同一SUBJECT
(人,老鼠或者well of 细胞)在N条件下重复测定同一种东西。比如膜片钳做例子通道
,在同一膜片上梯度增加某种离子浓度,然后看通道电流的变化,如此做N个膜片,然
后想看电流跟离子浓度是否相关。如果用一般的回归或ANOVA方法求r是错误的。这里需
要区分WITHIN SUBJECT effect 和 between subject effect。 两者回答的问题是不同
的。有兴趣的请参见:
BMJ 1995;310:446 (18 February)
Statistics notes
Calculating correlation coefficients with repeated observations: Part 1--
correlation within subjects
BMJ 1995;310:633 (11 March)
Statistics notes
Calculating correlation coefficients with repeated observat
【在 s*****0 的大作中提到】 : 临周末前说说correlation和regression吧. 很多教科书上都把这两个techniques放在 : 一起讨论,初学统计的人难免会觉得两者密不可分。其实两者的区别还是很明显的,服 : 从于不同的分析目的,很少有人对数据同时使用这两种方法。 : 先说说correlation。Correlation是用来检测两组continous的数据间有没有 : association(另一种方法前文已提到,回顾一下)。比如年龄和脂肪含量,胳膊长和 : 腿长,它们之间有相关性,但没有明确的causality关系。难道说年龄是导致脂肪含量 : 增高的根本原因?我看缺乏锻炼吃得太多才更是原因。 : 测量相关性用的一个系数叫做correlation coefficient。标准的计算方法经常归功于 : Pearson,所以很常见Pearson's r的提法。其范围介于-1到1间。正值为正相关,负值 : 为负相关,而接近于0的话则相关性不显著。通常将两组数据用scatter plot画出来能
| s*****0 发帖数: 357 | 38 Essay写累了上来灌灌水,没想到脸红脖子粗的争了一场,多少有些意气了。忙了一天
,现在闲下心来好好说说这个话题。既然有网友抛砖引玉了,缄口不言也实在不够尊重
。另外版主塞了不少包子,也不能吃白食.
先说说常用的描述数据的几个概念.
1. random variation -- variability有两大类,一类是知道来源的,还有一类是
unexplained. 比如一部分variability是由treatment effect引起的,而剩下的大部分
variability却不知道缘故. 后者经常被归入random variation.
2. Mean -- 最常见的当然是arithmetic mean, 特殊情况下也会用geometric及
harmonic mean. 任何数据组都能计算mean, 但不是所有时候用mean都合适. 当碰到
extreme data values的时候(经常因为技术条件所限边缘值不太容易被精确测量),
median就会有很大的优越性, 因为median可以大幅降低个别extreme value的影响.
3. Median -- 概念不多提了, 优越性也如上略述. 还有就是做survival的时候median
很有价值. 但相比mean,median用得少,因为大部分常用statistic是parametric tests,
是mean和stdev的天下.
4. variance/std deviation -- 描述variability的有很多,比如range, percentile等
等. 但最常见的是variance和std deviation. 重要性还是因为parametric test雄踞天
下. 不过当你使用mean(+-2SD)的时候,是否曾经想过不知不觉中已经引入了一个
assumption,没有这个assumption, 2SD包含95%的observation未必成立, 请问what is
this assumption? Why? (统计科班的就别来捣乱了,让biologist们仔细想想).
略过若干概念不赘述了,比如什么是sample什么是population, 不明白的话自己看看书
吧.直接将话题引向probability distributuion.
首先什么是parameter?一个disbribution可以被若干parameter定性,比如normal
distribution,一个mu(mean)一个sigma(stdev)就能决定一个其中心位置和胖廋。从
normal distribution公式本身并不难理解这个缘故。而泊松分布就一个参数,mu(the mean),因为泊松分布的特性,其variance跟mean是一样的. 当我们选择统计方法分析数据的时候,面
对的是两种option: 要么选那些有distribution assumption的即parametric test, 要
么选那些无需对underlying data作假设的distribution-free method (也叫non-
parametric method或者rank method). 留下有一个关子: 就方法本身来说,
parametric和non parametric各有什么利弊? (这个问题我在电面的时候被问过,提醒大
家学概念别含混了事).
先说说对continous data的比较. 最简单的是就一组数据,用来跟一个hypothesized的
mean来比较.最常见的hypothesized的value是0, 意味着no change. 更常见的是对两组
或多组数据比较.这时候请务必区分实验设计. 一种可能是组和组之间是independent,
比如随机选取的treatment vs placebo, 两组observation是independent的.还有一种
即所谓paired data. 常见的原因是对同一组subject的连续observation, 不同时间的
observation构成了不同的组,但组和组之间不独立. 当然如果两组之间的subject
individually matched, 也经常可以当作paired data来对待.
(待续) | s*****0 发帖数: 357 | 39 说正题以前,先胡扯几句,算是给已经转了统计或者正在转统计的朋友们提个醒。我这
是杂谈贴,不是劝退。偶尔隔壁统计版逛逛,如今正在向生物版靠拢,成为劝退的大本
营。以前是SAS大本营,原本已经很悲哀了,现在有赶超我版的苗头。归根到底就一个
问题,就是现在的行情统计好不好找工作。我要去隔壁说统计很多availability,估计
立刻会被砖头拍死,为什么?因为大部分在版的job seeker都是fresh,又没有经验又
要身份支持,哪怕有一千个机会, 这么一stratify,也剩不了几个,而且广大的老印兄
弟还虎视眈眈。
其时学统计的时候必须要弄清楚一个问题,应用统计的关键在于应用,大部分转统计的
人都不会去搞methodology念PhD,而是期望靠统计找份工作。但当你工作后就会明白,
统计只是一个工具,工作的经验有一部分讲究的是你对统计工具的娴熟,但更看重的是
你在行业里累积的经验。比如在药厂里搞生统,当你写SAP的时候会去理解一个
therapeutic area,在银行里建模,你会去理解各种各样的风险模型信用模型。你以后
改resume跳槽,真正值得突出的是这些经验,而会什么multivariate, survival, non-
linear仅在其次。应用中的统计在行业中很单一,干一周不会干几年肯定也会了,就那
么些东西。所以能跳出普通analyst的职责而去真正从事一个statistician的工作,尽
量跳出去,SAS programmer和statistician在career上的差异会有积累效应。
--------------------------------------------------------------------------
言归正传吧,说说One way ANOVA。
t test只能处理两组数据,当实验中采集到三组级以上数据的时候,用t来处理就很麻
烦了。一个原因是不好控制overall alpha,另外一个原因是如果能用一个test来解决
问题为什么非要多次?三组数据还不算惨,要是10组数据两两比较还不昏过去了?这时
候闻名遐迩的ANOVA就大显身手了。说闻名遐迩一点也不夸张,因为ANOVA跟PCA可能是
搞生物的人最常用的统计方法,因为two sample t test是ANOVA的一个特殊情况,所以
也可以归入后者。
ANOVA最基本的原理是将数据的多样性根据来源分类。比如做一组对照实验,
不同实验条件可以是多样性的来源(systemtic difference between groups),但同
一实验条件下的数据可以因为自身条件产生多样性,比如个体差异(within group
variatio)。既然我们的null hypothesis是组和组间没有差异,ANOVA就是一个test基
于比较组间的variation和组内的variation。每组不一定需要相同大小的样本。
公式就不给了,想深入了解仔细看书吧,这年头没人手算了(考试除外)。重要的不是
要记住公式,而是理解原理和使用条件(再次唐僧一下,应用,应用)。
1. 每组数据都要来自正太分布,并且组和组有接近的variance。(条件可以适度放宽,
不过不是这个test的初衷)
2. 因为我们假设样本同源(更准确地说是来自于有着相同均值和多样性的群体),我们
可以pool不同样本的variance来estimate群体的variance。然后可以利用这个pooled
variance来计算任何两组样本均值比较的confidence interval。
3. 这时候null hypothesis是认为所有样本同源,如果这个null成立,实验条件便没有
任何作用,因为组间的差别竟然没有组内的差别明显。所以最终测试的效果,通俗点说
就是要让组间的差异beat组内的差异(别忘了你是靠什么分的组,是靠预先设定的不同
条件)。所以ANOVA的F test就是计算一个ratio,分子是组和组的差别(这个差别不是“
差"值,是组间的variability),分母是组内差别。如果这个值越大,说明你的实验条
件产生的效果越明显。
4. 够罗嗦了,都快把自己绕进去了。不妨再换个角度啰嗦。假设有两种统计模型。一
种是所有群体有一样的mean和stdev,另一种是所有群体有一样的stdev,但未必有一样
的mean。F test就是为了验证现有的实验数据在第一种模型的可行性,如果mean差别显
著不满足第一种模型,那就认可第二种模型。
如果F test不significant,谢天谢地,分析到此为止,不用深入了,不过可悲的是可
能试验要重新设计了。如果significant,那就需要解释进一步到底是来源那些组的差
异.为了控制overall alpha (0.05),需要使用特定的multiple comparison方法.
Bonferroni, Duncan, Sheffe, Tukey等等,各有各的优缺点. Peoplem的抛砖引玉帖子
已有详细讨论,这里不再复述,原因之一是我不是某个特定multiple comparison的粉丝,
真正strong的significance选哪个都无所谓,marginal significance也不值得使劲换着
法子来证明.
One way ANOVA的non-parametric姐妹是Kruskal-Wallis.照旧,我不介绍non-
parametric,理由很简单,因为不用细节也记不太住. 还要先翻书来科普,跟现翻册子给
病人开药一样,不职业(见笑了,知道我为什么总强调应用了吧,理论全还给统计老师了,
哈哈). | s*****0 发帖数: 357 | 40 周末杂事比较多,小孩的playdate,还有和朋友约定的网战等等,未能及时更新,见谅。
感谢楼上hbsr2010的一些概念更正,平时理论接触的少了,记忆有偏差,因为在网上随
便写些,也懒得查书,写的时候随兴所至,没有太注意。我尽量让文笔轻快些,让读者
不至于厌烦。以后尽量会避免误导,如有不确实之处,请务必指正。先行谢过了,因为
有自己的一摊东西要收拾,不能像做科研那样严谨了。
前文提到的t test, one way ANOVA以及相关的nonparametric都只有涉及到一个
variable,比如作对照实验,variable即treatment type,不同计量药物或者是
placebo。组和组的区分是由这个variable决定的。在涉及到更为复杂的模型前(比如
two way ANOVA, multiple regression),我觉得还是先唠叨唠叨categorical data的
统计方法,毕竟做multiple regression之类的工作需要一定的统计背景,平时远没有
Chi-square这样的test用得多。所以先简后难了。
Categorical data在生物医学中及其常见, 其重要性也不言而喻。比如一个样本中的个
体按照一定性状分组,每个组记录个体的counts,即为frequency。最常见的是当这个
frequency的分布被两个variable决定时,我们常常用cross-tabulation来表示这个频
率分布。比如,
outcome\treatment Drug Placebo
Response 10 20
No Response 10 90
上述表格中的数字隐含着一个重要的assumption, 就是累加的observation都是
independent的,如果某个个体被测了两次,两个结果不能被当作independent的数据来统
计.
先说说最简单的一种情况,即指你获得了一个proportion.比如你做的实验观察一个特定
条件下阳性结果,如果100个个体中你发现了30个阳性结果,那怎么处理你的数据? 你可
能会觉得无解,因为你只能得到一个proportion,即30%. 那如果你预期有50%的阳性,是
不是30%就证明你的结果一定低于预期? 其实如果我不把这些数据列成proportion,你的
第一反应是用原始数据作2by2 contingency table然后Chi-square, 这样的话是可以得
到p值的. 为什么chi-square可以,而proportion本身看似不可以呢?因为你忽略了一个
事实,即你计算得到30%的时候,同时也可以计算得到相关的标准误,因为proportion是按
照binomial分布的,而当np或n(1-p)超过5的时候是可以用normal来逼近binomial. 所以
哪怕只有一个比值,你也可以得到mean(SE).
应用中我们不经常直接比两个proportion, 而是直接上Chi-square. 但如果直接比two
proportions, 其实跟two sample t test很近似,既可以比较independent two
proportions也可以比较paired proportions(McNemar's test),无非就是公式上的差别
罢了.如果只有两个proportion,自然用这个方法也没错,但是当超过两个proportion时,
就不得不求助于Chi-square了.
虽然最常见的是2by2 contingency table,但是生活中我们经常能看到2 by n, m by n
的frequency table. 当然table中用的都是原始数据而不是proportion,也不能用
proportion做chi-square. 使用chi-square, 一般说来任何individual cell count不
得小于1, 小于5的cell总数不能超过80%. 不然要使用fisher's exact. 其实原理很简
单,每个cell都有一个observed value,也能计算出一个expected value,然后总和(O-
E)^2/E即得到Chi-square值。
那到底Chi-square test测了什么?其结果怎么解释呢?严格的说,它测的是variable
间association(以后提另外一种方法correlation)。比如上面那个table就可以测
treatment跟结果有没有相关性。当样本小的时候用continous的Chi-square
distribution来approximate frequencies的时候会带来bias,所以大家常常能看到
Yate's correction。建议对所有2 by 2的table使用这个correction,对大样本这个
correction没什么影响,对小样本它的结果跟原始的chi-square p值差别很大。Chi-
square有很多变种,比如处理trend variable的chi-square for trend等等,这里不一
一详述了。
最后简单提提Fisher's exact。比如上面那个表格(仅用来举例, 实际中应该用Chi-
square),individual counts可以有很多种分布在四个cells里来满足行总数相等和列
总数相等。有些趋近于balanced cells,有些趋近于比如上分布更unbalanced的cells
。Fisher's exact就是把这些更unbalanced的分布的可能性求和,看看随机得到这些分
布的可能大不大于cutoff。当样本够大而且table比较balanced时或者更为复杂的table
,Fisher's exact很耗计算,想想hypergeometric distribution分子分母上的阶乘,
不做log变换,计算机有可能都handle不了.
还有很多跟以上内容相关的topic,比如prospective study里面的relative risk以及
retrospective study的odds ratio。展开来讲篇幅不少,以后有机会结合具体的例子
比如diagnostic test的时候再说说吧。如果有朋友急着了解,不妨贡献个生物当中的
实例,讲起来也能比较切合需要。
(待续) | | | s*****0 发帖数: 357 | 41 临周末前说说correlation和regression吧. 很多教科书上都把这两个techniques放在
一起讨论,初学统计的人难免会觉得两者密不可分。其实两者的区别还是很明显的,服
从于不同的分析目的,很少有人对数据同时使用这两种方法。
先说说correlation。Correlation是用来检测两组continous的数据间有没有
association(另一种方法前文已提到,回顾一下)。比如年龄和脂肪含量,胳膊长和
腿长,它们之间有相关性,但没有明确的causality关系。难道说年龄是导致脂肪含量
增高的根本原因?我看缺乏锻炼吃得太多才更是原因。
测量相关性用的一个系数叫做correlation coefficient。标准的计算方法经常归功于
Pearson,所以很常见Pearson's r的提法。其范围介于-1到1间。正值为正相关,负值
为负相关,而接近于0的话则相关性不显著。通常将两组数据用scatter plot画出来能
看出端倪, 数据间的分布可能有一个underlying linear trend,而Pearson's r就是
一个测量scattered的数据点距离这个underlying linear trend的有多远的
measurement。当数据点spread得越开,correlation越低。
就像均值一样,任何组数据间都可以计算correlation coefficient。但是如果你的目
的不仅仅为了计算而是做hypothesis test,就要加入限制条件:observations from
random samples,如果要计算r的confidence interval,两个variable内的数据均要满
足正态分布。最简单的方法看条件是否满足就是目测,看看scatter plot,如果点的分
布大致elliptical,就基本可以了。当然正规的方法可以画normal plot或者使用特定
的test比如Shapiro-Wilk,不过大多数情况下不需要。
具体的计算不谈了,稍嫌繁琐,不过统计软件都有。不但可以计算pearson's r本身,
也可以计算它的95%CI,如果要看看这个r是否statistically from no association,
借用了t distribution, 很简单(公式不记得了,想知道的话自己翻翻书,不过统计软
件经常给了p-value,也没人去想怎么来的)。
这里主要谈谈应用中的一些常见错误。
1. 首先是与方法本身不之间相关的错误,而是对统计方法abuse的错误。比如你的数据
里有10个variable,不知道哪对数据有strong association,就两两计算比较,总共得
到了45个correlation results,然后从中挑最显著的。知道错在哪儿了么?其实严格
的说不是错误,而是misuse。
2. 如果数据的记录有显著的时间因素,使用correlation一定慎重。比如采集的数据经
年累月,却不料世事变迁,得到的数据里有一定成分的时间因素。比如测量一百个病人
的血压,从早测到晚上,这组数据用来做统计就很麻烦,因为血压的circadian变化显
著。
3. 使用了不random的样本,而是样本经过人工修饰。这一点同样适用于无理去除
outliers。
4. 使用了mixed sample而没有将一些隐含但有影响的variable考虑到。比如研究胆结
石的发病率和年龄的相关性,如果都用了female也许结果显著,如果都用了male结果不
显著,而使用mixed的样本没有考虑到性别因素在胆结石发病率中的重要性,所以就实
验设计上来说是不成功的。
5. 一个常见问题,比如有了组初始值X1--X100,另有一组变化值(Y1-X1)--(Y100-X100
),这两组数据能不能用correlation? 为什么?说能的话,请google "regression to
the mean",说不能的话能否解释解释哪个assumption被violated了。
6. 还有一种misuse是所谓的自相关。比如比较摄入的卡路里和摄入的蛋白质,这还用
比么?卡路里里头很大一部分不来自于蛋白质?一个局部和整体肯定有很大程度的
correlation。
correlation也有自己的rank test,类似于其他nonparametric。主要就是不使用数据
本身而是数据的ordering,看看两组数据的ordering相不相关。不过不常用,避过不谈。 | s********r 发帖数: 529 | | S**********l 发帖数: 3835 | 43 这帖子写得不错。虽然俺天天算这个,还是准备打印出来贴墙上:-P
【在 s*****0 的大作中提到】 : Essay写累了上来灌灌水,没想到脸红脖子粗的争了一场,多少有些意气了。忙了一天 : ,现在闲下心来好好说说这个话题。既然有网友抛砖引玉了,缄口不言也实在不够尊重 : 。另外版主塞了不少包子,也不能吃白食. : 先说说常用的描述数据的几个概念. : 1. random variation -- variability有两大类,一类是知道来源的,还有一类是 : unexplained. 比如一部分variability是由treatment effect引起的,而剩下的大部分 : variability却不知道缘故. 后者经常被归入random variation. : 2. Mean -- 最常见的当然是arithmetic mean, 特殊情况下也会用geometric及 : harmonic mean. 任何数据组都能计算mean, 但不是所有时候用mean都合适. 当碰到 : extreme data values的时候(经常因为技术条件所限边缘值不太容易被精确测量),
| g*********3 发帖数: 177 | 44 我滴个天,这么好的帖子都没人顶啊.
赞学术贴。
先顶再看。 | z*t 发帖数: 863 | 45 那消失的39个回帖谁能看到啊。。貌似是作者的后续作品
为啥加了精后就没了捏?
【在 s********r 的大作中提到】 : 这么好的帖子都没人顶啊。。。我来! : 多谢总结
| s*********x 发帖数: 1923 | | i*****g 发帖数: 11893 | | D*a 发帖数: 6830 | | m*******r 发帖数: 7495 | | h*****n 发帖数: 5 | | | | p******i 发帖数: 1092 | 51 頂SGU牛
【在 s*****0 的大作中提到】 : 临周末前说说correlation和regression吧. 很多教科书上都把这两个techniques放在 : 一起讨论,初学统计的人难免会觉得两者密不可分。其实两者的区别还是很明显的,服 : 从于不同的分析目的,很少有人对数据同时使用这两种方法。 : 先说说correlation。Correlation是用来检测两组continous的数据间有没有 : association(另一种方法前文已提到,回顾一下)。比如年龄和脂肪含量,胳膊长和 : 腿长,它们之间有相关性,但没有明确的causality关系。难道说年龄是导致脂肪含量 : 增高的根本原因?我看缺乏锻炼吃得太多才更是原因。 : 测量相关性用的一个系数叫做correlation coefficient。标准的计算方法经常归功于 : Pearson,所以很常见Pearson's r的提法。其范围介于-1到1间。正值为正相关,负值 : 为负相关,而接近于0的话则相关性不显著。通常将两组数据用scatter plot画出来能
| L*******a 发帖数: 293 | 52 写的深入浅出,重视应用。
特别适合我这种做bioinformatics的统计半吊子。。。
谢谢楼主! |
|