s*****j 发帖数: 6435 | 1 实际上不算统计了,就是平均数。
假设 x1, x2, ... , xn, 平均数定义数是:(x1+x2+..+xn)/n,
取得是(x1-x)^2+(x2-x)^2+...+(xn-x)^2 的最小值。
为什么不是 |x1-x|+|x2-x|+...+|xn-x| 的最小值? |
f**********e 发帖数: 1994 | 2 把 cost function 微分一次就知道为什么了。绝对值的 cost function 会导出来的基
本就是中位数。 |
K****n 发帖数: 5970 | 3 绝对值那个就算分段求导,中间不会搞到和x无关?
【在 f**********e 的大作中提到】 : 把 cost function 微分一次就知道为什么了。绝对值的 cost function 会导出来的基 : 本就是中位数。
|
K****n 发帖数: 5970 | 4 哦, "能求出来的" 呵呵
【在 K****n 的大作中提到】 : 绝对值那个就算分段求导,中间不会搞到和x无关?
|
f**********e 发帖数: 1994 | 5 分项微分就看出来了。x1 如果比 x 大,导数是 -1, 反之是 +1. (当然会有一堆未
定义点)最后 x 会落在 +1 和 -1 一样多(或是差一个)的点上。如果一个值 x 的
两边 sample 一样多的话,不就是中位数吗? 但这个不会完全是中位数:如果有偶数
个 sample 的话,最小值是一个区间。
【在 K****n 的大作中提到】 : 绝对值那个就算分段求导,中间不会搞到和x无关?
|
K****n 发帖数: 5970 | 6 嗯,很有理
【在 f**********e 的大作中提到】 : 分项微分就看出来了。x1 如果比 x 大,导数是 -1, 反之是 +1. (当然会有一堆未 : 定义点)最后 x 会落在 +1 和 -1 一样多(或是差一个)的点上。如果一个值 x 的 : 两边 sample 一样多的话,不就是中位数吗? 但这个不会完全是中位数:如果有偶数 : 个 sample 的话,最小值是一个区间。
|
s********x 发帖数: 472 | 7 算数平均值就是欧式空间里的最小距离,你定义个新空间,当然可以定义新的平均值算
法。 |
s*****j 发帖数: 6435 | 8 what is "欧式空间里的最小距离"?
【在 s********x 的大作中提到】 : 算数平均值就是欧式空间里的最小距离,你定义个新空间,当然可以定义新的平均值算 : 法。
|
s*****j 发帖数: 6435 | 9 the question actually is why we always use mean instead of median.
is mean a more "truly" representation of the average of the data?
【在 f**********e 的大作中提到】 : 把 cost function 微分一次就知道为什么了。绝对值的 cost function 会导出来的基 : 本就是中位数。
|
A****t 发帖数: 141 | 10 统计并不是总用mean而不用median,针对有些数据(比如可能有outlier)median比mean
更robust,可以用median.但是如果感兴趣的是average,在统计学上sample mean有很好
的asymptotic properties.而很多时候median没有这些性质,比如求个standard error
可能就要用bootstrap,或者一些比较复杂的方法来推导。
【在 s*****j 的大作中提到】 : the question actually is why we always use mean instead of median. : is mean a more "truly" representation of the average of the data?
|
|
|
f**********e 发帖数: 1994 | 11 只有没改行的生物人才老是会用 mean。outlier 多(还是 heavy tail 时)当然用
median 和 IQR 来看 data。
【在 s*****j 的大作中提到】 : the question actually is why we always use mean instead of median. : is mean a more "truly" representation of the average of the data?
|
f**********e 发帖数: 1994 | 12 你的 x1-x 平方 就是欧几里德距离平方。
【在 s*****j 的大作中提到】 : the question actually is why we always use mean instead of median. : is mean a more "truly" representation of the average of the data?
|
s*****j 发帖数: 6435 | 13 上面那位说“最小欧几里德距离”,不正好是sqrt((x1-x)^2)=|x1-x|?
【在 f**********e 的大作中提到】 : 你的 x1-x 平方 就是欧几里德距离平方。
|
t*d 发帖数: 1290 | 14 you must be kidding.
【在 s*****j 的大作中提到】 : 上面那位说“最小欧几里德距离”,不正好是sqrt((x1-x)^2)=|x1-x|?
|
s*****j 发帖数: 6435 | 15 如果把mean都改成用median的话, 那大数定理还成立吗?
mean
error
【在 A****t 的大作中提到】 : 统计并不是总用mean而不用median,针对有些数据(比如可能有outlier)median比mean : 更robust,可以用median.但是如果感兴趣的是average,在统计学上sample mean有很好 : 的asymptotic properties.而很多时候median没有这些性质,比如求个standard error : 可能就要用bootstrap,或者一些比较复杂的方法来推导。
|
s*****j 发帖数: 6435 | 16 why? 一维数轴上的x1, x2. Euclidean distance 不就是 |x1-x2| 吗?
【在 t*d 的大作中提到】 : you must be kidding.
|
t*d 发帖数: 1290 | 17 never mind. I misunderstood what you were discussing here.
【在 s*****j 的大作中提到】 : why? 一维数轴上的x1, x2. Euclidean distance 不就是 |x1-x2| 吗?
|
f**********e 发帖数: 1994 | 18 不成立。反例一:coin toss. 反例二:alpha 和 beta 不等的 Beta 分佈。(或是任
何歪一邊的分佈)
【在 s*****j 的大作中提到】 : why? 一维数轴上的x1, x2. Euclidean distance 不就是 |x1-x2| 吗?
|
s******s 发帖数: 13035 | 19 right, 这个找本统计分析书看到下半本就知道了。有一种东西
叫做minimum variance unbiased estimator (MVUE),意思比较直
接。Turn out, 可以证明,对正态分布来说,sample的mean和var
恰好是population的mean和var的MVUE, 其他的statistics可能有其他
的好性质,但是MVUE听上去多爽啊,所以回到stat101, 大家
开始都学mean, var |
s*****j 发帖数: 6435 | 20 多谢LS两位。所以选算术平均从根本上讲是因为很方便, 外加简单。
而不是什么更深刻的原因。
【在 s******s 的大作中提到】 : right, 这个找本统计分析书看到下半本就知道了。有一种东西 : 叫做minimum variance unbiased estimator (MVUE),意思比较直 : 接。Turn out, 可以证明,对正态分布来说,sample的mean和var : 恰好是population的mean和var的MVUE, 其他的statistics可能有其他 : 的好性质,但是MVUE听上去多爽啊,所以回到stat101, 大家 : 开始都学mean, var
|
|
|
s******s 发帖数: 13035 | 21 靠,我说了这么多,你都当废话了?!
算数平均是Normal的MVUE, 这个还不深刻啊。在这么多各式各样的
statistics里面,有很多estimator都是有biased,不准确;除去
这些,剩下的一大堆unbiased的estimator里面,各个的方差有大
有小,未必精确。这个MVUE就是准确的estimator里面最精确的一
个,这个多么伟大的性质啊!
【在 s*****j 的大作中提到】 : 多谢LS两位。所以选算术平均从根本上讲是因为很方便, 外加简单。 : 而不是什么更深刻的原因。
|
s*****j 发帖数: 6435 | 22 不就是可以方便的用normal distribution了嘛?这样简单多了。
【在 s******s 的大作中提到】 : 靠,我说了这么多,你都当废话了?! : 算数平均是Normal的MVUE, 这个还不深刻啊。在这么多各式各样的 : statistics里面,有很多estimator都是有biased,不准确;除去 : 这些,剩下的一大堆unbiased的estimator里面,各个的方差有大 : 有小,未必精确。这个MVUE就是准确的estimator里面最精确的一 : 个,这个多么伟大的性质啊!
|
K****n 发帖数: 5970 | 23 好像假装是normal distribution是为了方便用mean,而不是反之
【在 s*****j 的大作中提到】 : 不就是可以方便的用normal distribution了嘛?这样简单多了。
|
s******s 发帖数: 13035 | 24 根据中心法则,mean distribution本来就基本上是normal
【在 K****n 的大作中提到】 : 好像假装是normal distribution是为了方便用mean,而不是反之
|
K****n 发帖数: 5970 | 25 这句话本身很正确啊
【在 s******s 的大作中提到】 : 根据中心法则,mean distribution本来就基本上是normal
|
f**********e 发帖数: 1994 | 26 那大老来做个题。有什么分布的 sample mean 不是真正的 mean 的 unbiased
estimator?或是他们的 mvue 是别的函数?柯西分布这种怪东西不算
【在 s******s 的大作中提到】 : 靠,我说了这么多,你都当废话了?! : 算数平均是Normal的MVUE, 这个还不深刻啊。在这么多各式各样的 : statistics里面,有很多estimator都是有biased,不准确;除去 : 这些,剩下的一大堆unbiased的estimator里面,各个的方差有大 : 有小,未必精确。这个MVUE就是准确的estimator里面最精确的一 : 个,这个多么伟大的性质啊!
|
f**********e 发帖数: 1994 | 27 撇大条时想/查到了。uniform distribution of unknown bounds. sample mean 可能
(直觉上认为)是 mean 的无偏估计,但是并不是 minimum variance 的。意思就是这
不是最 robust 的估计。
【在 f**********e 的大作中提到】 : 那大老来做个题。有什么分布的 sample mean 不是真正的 mean 的 unbiased : estimator?或是他们的 mvue 是别的函数?柯西分布这种怪东西不算
|
l**********1 发帖数: 5204 | 28 Bingo! it called UMVUE,
pls refer,
HTTP double dot//math.arizona.edu/~jwatkins/N_unbiased.pdf
能
【在 f**********e 的大作中提到】 : 撇大条时想/查到了。uniform distribution of unknown bounds. sample mean 可能 : (直觉上认为)是 mean 的无偏估计,但是并不是 minimum variance 的。意思就是这 : 不是最 robust 的估计。
|