我来出道统计题 - Biology版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Biology版 - 我来出道统计题

相关主题
● 定尺寸求10000个数值的最小值	● 唉决定以后每天中午带饭了
● 作array cluster analysis的时候用Pearson correlation和Euclidean Distance有什么区别？	● How do I get the SEM or SD of the ratios
● 请教几个结构术语的中文翻译	● 一个统计问题：怎么评判哪种测量方法好
● 好奇一问，美国科学院院士怎么评选的？	● Re: 推荐一本书，用来准备management consulting
● 问一下，关于教授的H-index	● 我想自学R。有那位高手指点一下如何入手呢？
● 投的论文，怎么办呢	● 买房遇到难提,想问下关于MOLD
● 问一个qPCR的control差异太大的问题	● 导师的时间成本
● 谁那儿有生物专业工资的数据？	● PNAS 的length estimate

相关话题的讨论汇总
话题: mean话题: x1话题: x2话题: mvue话题: xn

进入Biology版参与讨论

(共1页)

s*****j
发帖数: 6435

实际上不算统计了，就是平均数。
假设 x1, x2, ... , xn, 平均数定义数是：(x1+x2+..+xn)/n,
取得是（x1-x)^2+(x2-x)^2+...+(xn-x)^2 的最小值。
为什么不是 |x1-x|+|x2-x|+...+|xn-x| 的最小值?

f**********e
发帖数: 1994

把 cost function 微分一次就知道为什么了。绝对值的 cost function 会导出来的基
本就是中位数。

K****n
发帖数: 5970

绝对值那个就算分段求导，中间不会搞到和x无关?

【在 f**********e 的大作中提到】

: 把 cost function 微分一次就知道为什么了。绝对值的 cost function 会导出来的基
: 本就是中位数。

K****n
发帖数: 5970

哦， "能求出来的" 呵呵

【在 K****n 的大作中提到】

: 绝对值那个就算分段求导，中间不会搞到和x无关?

f**********e
发帖数: 1994

分项微分就看出来了。x1 如果比 x 大，导数是－1, 反之是＋1. （当然会有一堆未
定义点）最后 x 会落在＋1 和－1 一样多（或是差一个）的点上。如果一个值 x 的
两边 sample 一样多的话，不就是中位数吗？但这个不会完全是中位数：如果有偶数
个 sample 的话，最小值是一个区间。

【在 K****n 的大作中提到】

: 绝对值那个就算分段求导，中间不会搞到和x无关?

K****n
发帖数: 5970

嗯，很有理

【在 f**********e 的大作中提到】

: 分项微分就看出来了。x1 如果比 x 大，导数是－1, 反之是＋1. （当然会有一堆未
: 定义点）最后 x 会落在＋1 和－1 一样多（或是差一个）的点上。如果一个值 x 的
: 两边 sample 一样多的话，不就是中位数吗？但这个不会完全是中位数：如果有偶数
: 个 sample 的话，最小值是一个区间。

s********x
发帖数: 472

算数平均值就是欧式空间里的最小距离，你定义个新空间，当然可以定义新的平均值算
法。

s*****j
发帖数: 6435

what is "欧式空间里的最小距离"?

【在 s********x 的大作中提到】

: 算数平均值就是欧式空间里的最小距离，你定义个新空间，当然可以定义新的平均值算
: 法。

s*****j
发帖数: 6435

the question actually is why we always use mean instead of median.
is mean a more "truly" representation of the average of the data?

【在 f**********e 的大作中提到】

: 把 cost function 微分一次就知道为什么了。绝对值的 cost function 会导出来的基
: 本就是中位数。

A****t
发帖数: 141

统计并不是总用mean而不用median，针对有些数据(比如可能有outlier)median比mean
更robust，可以用median.但是如果感兴趣的是average,在统计学上sample mean有很好
的asymptotic properties.而很多时候median没有这些性质，比如求个standard error
可能就要用bootstrap,或者一些比较复杂的方法来推导。

【在 s*****j 的大作中提到】

: the question actually is why we always use mean instead of median.
: is mean a more "truly" representation of the average of the data?

相关主题
● 投的论文，怎么办呢	● 唉决定以后每天中午带饭了
● 问一个qPCR的control差异太大的问题	● How do I get the SEM or SD of the ratios
● 谁那儿有生物专业工资的数据？	● 一个统计问题：怎么评判哪种测量方法好
进入Biology版参与讨论

f**********e
发帖数: 1994

只有没改行的生物人才老是会用 mean。outlier 多（还是 heavy tail 时）当然用
median 和 IQR 来看 data。

【在 s*****j 的大作中提到】

: the question actually is why we always use mean instead of median.
: is mean a more "truly" representation of the average of the data?

f**********e
发帖数: 1994

你的 x1－x 平方就是欧几里德距离平方。

【在 s*****j 的大作中提到】

: the question actually is why we always use mean instead of median.
: is mean a more "truly" representation of the average of the data?

s*****j
发帖数: 6435

上面那位说“最小欧几里德距离”，不正好是sqrt((x1-x)^2)=|x1-x|?

【在 f**********e 的大作中提到】

: 你的 x1－x 平方就是欧几里德距离平方。

t*d
发帖数: 1290

you must be kidding.

【在 s*****j 的大作中提到】

: 上面那位说“最小欧几里德距离”，不正好是sqrt((x1-x)^2)=|x1-x|?

s*****j
发帖数: 6435

如果把mean都改成用median的话，那大数定理还成立吗？

mean
error

【在 A****t 的大作中提到】

: 统计并不是总用mean而不用median，针对有些数据(比如可能有outlier)median比mean
: 更robust，可以用median.但是如果感兴趣的是average,在统计学上sample mean有很好
: 的asymptotic properties.而很多时候median没有这些性质，比如求个standard error
: 可能就要用bootstrap,或者一些比较复杂的方法来推导。

s*****j
发帖数: 6435

why? 一维数轴上的x1, x2. Euclidean distance 不就是 |x1-x2| 吗？

【在 t*d 的大作中提到】

: you must be kidding.

t*d
发帖数: 1290

never mind. I misunderstood what you were discussing here.

【在 s*****j 的大作中提到】

: why? 一维数轴上的x1, x2. Euclidean distance 不就是 |x1-x2| 吗？

f**********e
发帖数: 1994

不成立。反例一：coin toss. 反例二：alpha 和 beta 不等的 Beta 分佈。（或是任
何歪一邊的分佈）

【在 s*****j 的大作中提到】

: why? 一维数轴上的x1, x2. Euclidean distance 不就是 |x1-x2| 吗？

s******s
发帖数: 13035

right, 这个找本统计分析书看到下半本就知道了。有一种东西
叫做minimum variance unbiased estimator (MVUE)，意思比较直
接。Turn out, 可以证明，对正态分布来说，sample的mean和var
恰好是population的mean和var的MVUE, 其他的statistics可能有其他
的好性质，但是MVUE听上去多爽啊，所以回到stat101, 大家
开始都学mean, var

s*****j
发帖数: 6435

多谢LS两位。所以选算术平均从根本上讲是因为很方便，外加简单。
而不是什么更深刻的原因。

【在 s******s 的大作中提到】

: right, 这个找本统计分析书看到下半本就知道了。有一种东西
: 叫做minimum variance unbiased estimator (MVUE)，意思比较直
: 接。Turn out, 可以证明，对正态分布来说，sample的mean和var
: 恰好是population的mean和var的MVUE, 其他的statistics可能有其他
: 的好性质，但是MVUE听上去多爽啊，所以回到stat101, 大家
: 开始都学mean, var

相关主题
● Re: 推荐一本书，用来准备management consulting	● 导师的时间成本
● 我想自学R。有那位高手指点一下如何入手呢？	● PNAS 的length estimate
● 买房遇到难提,想问下关于MOLD	● 请教个统计方面的问题
进入Biology版参与讨论

s******s
发帖数: 13035

靠，我说了这么多，你都当废话了？！
算数平均是Normal的MVUE, 这个还不深刻啊。在这么多各式各样的
statistics里面，有很多estimator都是有biased，不准确；除去
这些，剩下的一大堆unbiased的estimator里面，各个的方差有大
有小，未必精确。这个MVUE就是准确的estimator里面最精确的一
个，这个多么伟大的性质啊！

【在 s*****j 的大作中提到】

: 多谢LS两位。所以选算术平均从根本上讲是因为很方便，外加简单。
: 而不是什么更深刻的原因。

s*****j
发帖数: 6435

不就是可以方便的用normal distribution了嘛？这样简单多了。

【在 s******s 的大作中提到】

: 靠，我说了这么多，你都当废话了？！
: 算数平均是Normal的MVUE, 这个还不深刻啊。在这么多各式各样的
: statistics里面，有很多estimator都是有biased，不准确；除去
: 这些，剩下的一大堆unbiased的estimator里面，各个的方差有大
: 有小，未必精确。这个MVUE就是准确的estimator里面最精确的一
: 个，这个多么伟大的性质啊！

K****n
发帖数: 5970

好像假装是normal distribution是为了方便用mean，而不是反之

【在 s*****j 的大作中提到】

: 不就是可以方便的用normal distribution了嘛？这样简单多了。

s******s
发帖数: 13035

根据中心法则，mean distribution本来就基本上是normal

【在 K****n 的大作中提到】

: 好像假装是normal distribution是为了方便用mean，而不是反之

K****n
发帖数: 5970

这句话本身很正确啊

【在 s******s 的大作中提到】

: 根据中心法则，mean distribution本来就基本上是normal

f**********e
发帖数: 1994

那大老来做个题。有什么分布的 sample mean 不是真正的 mean 的 unbiased
estimator？或是他们的 mvue 是别的函数？柯西分布这种怪东西不算

【在 s******s 的大作中提到】

f**********e
发帖数: 1994

撇大条时想/查到了。uniform distribution of unknown bounds. sample mean 可能
（直觉上认为）是 mean 的无偏估计，但是并不是 minimum variance 的。意思就是这
不是最 robust 的估计。

【在 f**********e 的大作中提到】

: 那大老来做个题。有什么分布的 sample mean 不是真正的 mean 的 unbiased
: estimator？或是他们的 mvue 是别的函数？柯西分布这种怪东西不算

l**********1
发帖数: 5204

Bingo! it called UMVUE,
pls refer,
HTTP double dot//math.arizona.edu/~jwatkins/N_unbiased.pdf

能

【在 f**********e 的大作中提到】

: 撇大条时想/查到了。uniform distribution of unknown bounds. sample mean 可能
: （直觉上认为）是 mean 的无偏估计，但是并不是 minimum variance 的。意思就是这
: 不是最 robust 的估计。

(共1页)

进入Biology版参与讨论

相关主题
● PNAS 的length estimate	● 问一下，关于教授的H-index
● 请教个统计方面的问题	● 投的论文，怎么办呢
● Quartic Kernel Density Estimation哪个软件简单好用	● 问一个qPCR的control差异太大的问题
● 能通过视网膜图像检测心脏病吗？	● 谁那儿有生物专业工资的数据？
● 定尺寸求10000个数值的最小值	● 唉决定以后每天中午带饭了
● 作array cluster analysis的时候用Pearson correlation和Euclidean Distance有什么区别？	● How do I get the SEM or SD of the ratios
● 请教几个结构术语的中文翻译	● 一个统计问题：怎么评判哪种测量方法好
● 好奇一问，美国科学院院士怎么评选的？	● Re: 推荐一本书，用来准备management consulting

相关话题的讨论汇总
话题: mean话题: x1话题: x2话题: mvue话题: xn

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天