d*******o 发帖数: 493 | 1 Sharpiro
Kolmogorov-Smirnov
Cramer-von Mises
Anderson-Darling |
|
f***a 发帖数: 329 | 2 The test statistic used in Kolmogorov–Smirnov test makes me very
uncomfortable because it only measures the supreme distance between two
empirical distributions while other information are ignored.
I would suggest Hellinger distance or Kullback–Leibler distance for better
accuracy. |
|
|
Y******Y 发帖数: 8753 | 4 你说的是test statistic还是p-value啊。test statistic等于1没什么奇怪呀 |
|
|
a*****n 发帖数: 230 | 6 The Kolmogorov axiom is absolutely needed when you study more complex
probability problem, such as stochastic process. |
|
a*****n 发帖数: 230 | 7 Ok, I gave up on this thread. It seems it is some semitic debate.
Write a book if you beleieve in your theory. Indeed,Kolmogorov axiom was
first published as a book. It was an absolutely amazing piece of
intellectual work in the whole math history.
By the way, it is rather easy to criticise others but much harder to come up
with a better solution or system. |
|
T*******I 发帖数: 5138 | 8 That you give up means you are not 100% confident on what you have received
in your education.
If your are 100% confident on your knowledge, you should never give up on
this issue. You should defeat me!
However, Kolmogorov is still one of the greatest Mathematicians. 尽管在他的理论体系
中存在几个瑕疵,柯尔莫戈诺夫依然是最伟大的数学前辈之一,因为他在统计学尚处于
萌芽的时期就以自己敏锐的眼光和卓越的思维完成了一项伟大的工作:抽象出了几个简
单的基本概念及其相互间的关系,从而为后人提供了一套可行的思维路径。我希望自己
能够在他已经完成的工作的基础上进一步作出一点小小的贡献,以便纠正他在概念定义
中所犯下的几个微小的、非根本性的偏差。这是我从错误中学习而获得的成功,但这个
成功不属于我所有,而是依然属于柯尔莫戈诺夫,因为是他首... 阅读全帖 |
|
T*******I 发帖数: 5138 | 9 我不太懂你的p>>n是什么意思。
我的思想很单纯和直观。当我们将n个随机点描绘在一个测度空间里时,就得到了一个
实际的样本空间。没有这些随机点的存在,就不构成一个切实的样本空间。这是一个简
单的逻辑。于是,只有在这样的样本空间里,我们才可以讨论临界分割的问题,而在
Kolmogorov定义的样本空间里,是不可以讨论这个问题的,因为那个空间如果是一个连续
型随机变量的可测空间的话,就不存在可分性。
我想借此机会谈谈goldmember (蔬菜<<<菜鸟)在这里所说的"n个样本"。这是很多人常用的习惯性语言,但它很不严谨。我想他想要表达的实际应该是"n个随机点"的意思。在统计学里,样本、统计量、参数等都应该有着不容任何混淆的含义。因此,在统计学中,一个样本只能是指的“由来自可定义的同一总体的n个随机点构成的一个随机子集”,而不能指代其中的任何一个。
基于n个样本构成的空间的。这两个空间有线性变换的关系。 |
|
T*******I 发帖数: 5138 | 10 A new horizon of Statistics:
Ligong Chen and his Self-weight Curves
版上有人对我在统计学里造新词满怀……。是的,我确实造了几个新词,诸如
1)随机常量(random constant, 事实上,我们每个人的生命的每一刻就是一个random
constant。这个生命的全部属性在那一刻具有不变的确定性,但却具有随机性。)
2)常量期望(constant expectation, 即一个常量自己,或一个不变量。当我们对一个存在的最大期望等于对它的最小期望时,它就是一个不变量,或常量。它是随机变量的对立面。)
3)随机对应(random correspondence, 严格地说,这个词不是我造的。它早就存在于人们的思维活动中,只不过我可能是第一个尝试了从数学的角度给出一个严格定义的人,尽管我的定义所采用的数学表述语言和格式并不100%的严谨,但我给出的定义的逻辑思路应该是可行的)
4)全域回归(fullwise regression,这个词是相对于分段回归(pi... 阅读全帖 |
|
T*******I 发帖数: 5138 | 11 我的发言时间是7月31日下午。The session number is 43, the section is General
Methodology.
我知道我的概念系统以及统计算法会被那些正统的数学背景出生的统计学同行视为异端
。这也是我为什么宁可选择会议渠道发表自己的观点和方法的缘故。我无视他们的知识
背景。
在现行的分段回归分析的算法中,那些数学背景出来搞统计的人竟然无视Kolmogorov所
创立的概率论中的基本概念!!例如,在抽样条件下,临界点一定是一个随机变量。既
然如此,它就一定有一个可测空间,一定有一个分布,从而一定有唯一的期望存在!!!
那些数学头脑们怎么会搞出那么一个方法论?这实在是统计学领域的一大悲哀。 |
|
T*******I 发帖数: 5138 | 12 我完全赞成你的阐述。不过,你显然对我所说的领会有误。
我所谓的“样本空间就是一个样本自己”是源自一个简单的概念定义的逻辑。那么,什
么是样本?什么是空间?什么是样本空间?这个概念的定义所体现的逻辑就如同我们用
“女”和“人”来定义“女人”一样简单。所以,我不认为Kolmogorov所定义的“样本
空间”的概念是严谨的,我认为它可以被定义为一个“尺度空间”。
这就是我的一个基本观点。当然,仅是一家之言。我说了,我可能不正确。 |
|
T*******I 发帖数: 5138 | 13 尺度空间的概念已经由Kolmogorov定义为了“样本空间”,何须我重复? |
|
T*******I 发帖数: 5138 | 14 我想我并非只是关心如何定义随机变量,而是定义那些我认为在统计学中最基础的几个
概念。这些概念是从人类最一般的统计行为中抽象出来的。这些行为包括了一般的抽样
调查和统计量的构造等。这些活动不是数学要关心的问题,因为数学不是一门研究统计
行为模式的学科,而是一门关于与“数学”有关的抽象概念的逻辑推理的学科。
我在这里组织的这些概念即使在非统计的人来看也是可以理解的。你们也可以感觉到,
它们参考了现行概率论中的一些最基本的概念。这些概念在指导我完成关于分段回归分
析的方法论构建时起了巨大的作用。正因为如此,我才说kolmogorov实在是太伟大了,
因为他在人类统计科学尚处于非常早期的时候就抽象出了那些概念。但是,作为一个非
数学背景的人士,要想透彻地理解那些已经完全脱离了实际物象的纯粹抽象的概念,我
实在是感到有些困难。于是才试图以自己独立的思考来提出一套简洁直观的概念系统。
我在版上开这一腔的目的就是想从大家的评论中重新思考是否恰当。我一再声明过,这
只是一次尝试,并非意味着我要和大家对抗。
is
theory |
|
s*****r 发帖数: 790 | 15 so you don't know what a space is.
http://en.wikipedia.org/wiki/Space_%28mathematics%29
In mathematics, a space is a set with some added structure.
did you see the "added structure"? what is your "added structure"?
set. Why can it be called a space? Why cannot the set that I defined be
called a space? If you say that there is no repeat elements in the
kolmogorov's sample space, either in my space there is no repeat individuals
. Am I right? |
|
s*******d 发帖数: 126 | 16 in light of what is happening on this board, per discussions/criticisms on
Chen and his idea(s), I am reminded of this review paper that was published
in "Bayesian Analysis" last year,
"The Search for Certainty: A critical assessment" by Christian Robert
http://ba.stat.cmu.edu/journal/2010/vol05/issue02/robert.pdf
Here is some background information, which, to some extend, mirros what's
happening on this board.
Krzysztof Burdzy is a professor from U. of Washington and he wrote a book
called "The... 阅读全帖 |
|
f***a 发帖数: 329 | 17 光知道n,mean,sd这3个值,神也判断不了是不是normal吧。。。
有具体sample的话,一般就是qqplot, some normality tests, 或者不走寻常路
calculate
hellinger/kolmogorov distance between normal and empirical distribution of
your sample
by n |
|
D******n 发帖数: 2836 | 18 KS = Kolmogorov Smirnov ? (错了告诉我哈。)
这个挺好记的。让我纠结的是为啥业界老爱用这个。学术界没人用的。 |
|
z**********i 发帖数: 12276 | 19 我用PROC CAPABILITY来CHECK NORMALITY.
看图形很NORMAL,但PVALUE 很小.这个到底是NORMAL DISTRIBUTION吗?
多谢!
Variable: RBMI
Moments
N 37667 Sum Weights
37667
Mean 0.05291262 Sum Observations 1993.
05967
Std Deviation 0.00865415 Variance 0.
00007489
Skewness -0.3560206 Kurtosis 0.
79177021
Unc... 阅读全帖 |
|
c*****a 发帖数: 808 | 20 我以前看过nonparametric 的书,里面有介绍
Practical Nonparametric Statistics (Wiley Series in Probability and
Statistics)
我记得大概流程是有个s(x)的empirical distr function on x1,x2,...xN
然后建立一个null hypothesis some distr function F*(x). you are comparing x1
,x2...xN with F*(x) to see if it is reasonable to say F*(x) is true distr
function of the random sample.
I think the method is rather simple.
F*(x) is usually starting with 0 to 1 , by .01 .05... etc your choice based
on size of n. You usually have to make a chart ... 阅读全帖 |
|
|
|
|
y********0 发帖数: 638 | 24 来自主题: Statistics版 - 一个理论题 Since you have very different assumption of the data, I am suspecting
if the usual statistical methods will be working here.
Can we try the goodness of fit respectively?
Test the hypothesis that the sample X1,...Xn iid F in fact arises from
a distribution F0. i.e. H: F=F0 with chi-square method.
IF both distribution are working well, then try the efficency even the MSE
for comparison.
Usually when you are deciding between two distributions, the distance of
the two distribution will be considere... 阅读全帖 |
|
z**********i 发帖数: 12276 | 25 来自主题: Statistics版 - 一个理论题 因为我的实际DATA是BOUNDED COUNT,所以,普遍的观点是BETA BINOMIAL要优于NEGATIVE
BINOMIAL.我在用NLMIXED做的过程中,发现BETA BINOMIAL非常难CONVERGE,最后,虽然,
GRADIENT还很大,但也勉强算是过了,因为2个MODEL的ESTIMATES已经非常接近了.我得到
了AIC和-2LL,可以用LIKELIHOOD RATIO来说BB好.
我想再理论一点,给出它们的LOG LIKELIHOOD FUNCTION,然后,阐述为什么BB好.这个对
我是真正的难点.
多谢大家的热情帮助!!
**************************************
Since you have very different assumption of the data, I am suspecting
if the usual statistical methods will be working here.
Can we try the goodness of fit respectively?
Test the hy... 阅读全帖 |
|
d**z 发帖数: 183 | 26 Tests for Normality
Test --Statistic--- -----p Value------
Kolmogorov-Smirnov D 0.214685 Pr > D <0.
0100
Cramer-von Mises W-Sq 30.13193 Pr > W-Sq <0.
0050
Anderson-Darling A-Sq 179.9905 Pr > A-Sq <0.
0050
The two variables (pre and post) are not normally distributed, as showed in
the above result for one of them. But the histogram... 阅读全帖 |
|
R*****d 发帖数: 420 | 27 Kolmogorov–Smirnov test? R 里有个 ks.test.不知道能不能? |
|
c*****a 发帖数: 808 | 28 感觉很重要的课,好像是median test,ranks, kolmogorov什么的 |
|
c***j 发帖数: 483 | 29 比如有两个班的学生成绩在ABDE分数段的分布,
班级1:
A: 20%
B: 30%
C: 40%
D: 10%
班级2:
A: 25%
B: 20%
C: 35%
D: 20%
我想计算两个分布的相似度
可以用Kolmogorov-Smirnov Test么?
用t-test的话,要求分布服从normal distribution对吧?实际数据不符合
绝对外行,请多指教 |
|
c***z 发帖数: 6348 | 30 Kolmogorov–Smirnov test?
It is distribution comparison 吧 |
|
c**d 发帖数: 104 | 31 Actually your problem is equal to "Are Two Distributions Different?"
(1) The data are either continuous or binned.
(2) Either you wish to compare one data set to a known distribution, or you
wish to compare two equally unknown data sets.
the chi-square test for binned distributions and the Kolmogorov-Smirnov test
for continuous data |
|
D**u 发帖数: 288 | 32 I am not a expert in the knowledge of testing, just my .02, no guarantee to
be right.
If you want to test for goodness of fit of a linear
regression model. The first one coming to my mind is F-test, and there are
tests like Kolmogorov–Smirnov test could be used also.
And things like residual plots, R square, AIC, DIC... are statistical
measures of the quality of a model, they are not testings, so no power
related to them.
for
. |
|
c***z 发帖数: 6348 | 33 A better answer to 3 is the Kolmogorov–Smirnov test for continuous
variables and permutation test for discrete ones
if
chi- |
|
c***z 发帖数: 6348 | 34 A better answer to 3 is the Kolmogorov–Smirnov test for continuous
variables and permutation test for discrete ones
if
chi- |
|
c****0 发帖数: 14490 | 35 proc univariate data=data_name normal; var var_name;run;
it will provide Tests for Normality
Kolmogorov-Smirnov D
Cramer-von Mises W-Sq
Anderson-Darling A-Sq
it may work... |
|
h*********n 发帖数: 278 | 36 Used the method from below and obtained Kolmogorov-Smirnov Test:
KS Two-Sample Test (Asymptotic):
KS 0.25
KSa 227.28
D 0.5
Pr > KSa: <.0001
Well below 0.85. I guess my model may even be described as not
fitting well at all? |
|
T*******8 发帖数: 260 | 37 K-S 是Kolmogorov-Smirnov Goodness-of-Fit Test么?
histogram with density我也想过,但是对还是想做一下significant test。
wilcoxon signed rank test这个办法我还没试过。感觉会是个解决办法。现在要想想
结果怎么解释比较好,而且不知道跑起来要多久了,希望不要take forever~~如果跑12
个小时能跑下来的话,也还行。我的电脑已经被弄歇菜了一次了~ |
|
q******n 发帖数: 272 | 38 No significant difference between group A and B in terms of their
distribution.
Two-sample Kolmogorov-Smirnov test
data: y[group == "A"] and y[group == "B"]
D = 0.256, p-value = 0.3212
alternative hypothesis: two-sided |
|
h***i 发帖数: 3844 | 39 小子, Kolmogorov之前概率论就不存在了? 跑在这和我玩概念 |
|
h*******l 发帖数: 1542 | 40 华罗庚,陈景润,陈省身,丘成桐, Albert Einstein, James C. Maxwell,
Galileo Galilei, Aristotle, Abu Rayhan Biruni 以及底下100位数学家,携MIT,
CIT, Stanford, Princeton, Harvard, Yale, Chicago, Duke, Columbia, Berkeley,
Oxford, Cambridge, Indian Institute of Technology, Tsinghua, Beida, 中科大数
百万学生校友,向您发来贺电!
1. Isaac Newton
2. Archimedes
3. Carl F. Gauss
4. Leonhard Euler
5. Bernhard Riemann
6. Euclid
7. Henri Poincaré
8. Joseph-Louis Lagrange
9. David Hilbert
10. Gottfried W. Leibniz
11. Alexa... 阅读全帖 |
|
f*********2 发帖数: 48 | 41 和你不太一样,我是面朝大海,喝瓶啤酒。
请大侠对我的回答给予指点!
什么是 top k items,求解释。
一大堆方法,例如 KL divergence,Kolmogorov-Smirnov goodness-of-fit test, etc.
这个得问专家,哪些 feature 是和问题有关的
这个能说出一大堆。一般地,好的模型的想法都是简单为美。
跷跷板呗。如果系统误差给定,Bias+Var=一个常数,一个增大,另一个就减小。
譬如找局部最小,就是每一步都朝最陡的方向跳。要保证每步都往下跳哦~
其实,梯度下降法就是 Newton-Raphson 方法的一个简化版本。
面朝大海,喝瓶啤酒。如果肚子有空间,再加碗凉皮。
客户着急哪个做哪个
用狗狗查! |
|
c***z 发帖数: 6348 | 42 和你不太一样,我是面朝大海,喝瓶啤酒。
请大侠对我的回答给予指点!
指导不敢,相互切磋:)
什么是 top k items,求解释。
就是SQL表,找出top selling item什么的
遇到三哥,就问问real time怎么弄 - min heap max heap 都要用,足够麻烦了
一大堆方法,例如 KL divergence,Kolmogorov-Smirnov goodness-of-fit test, etc.
要求解释原理,为什么离散分布不能用KS
遇到三哥,就问如果KS不是用min distance而是mean distance 会怎样
这个得问专家,哪些 feature 是和问题有关的
会给一个project,比如地图上GPS点的分布
这个能说出一大堆。一般地,好的模型的想法都是简单为美。
会问细节,比如decision tree 如何split
遇到三哥问问如果decision tree randomly split会怎样
跷跷板呗。如果系统误差给定,Bias+Var=一个常数,一个增大,另一个就减小。
差不多,顺便问问lasso
譬如找局部最小,就是每一步都... 阅读全帖 |
|
f*********2 发帖数: 48 | 43 分布函数已知,就用 Kullback-Leibler divergence 刻画二者差异。但这个 KL
divergence 不满足对称性,因此不是距离。
分布函数未知,大样本情况下用经验分布函数近似。比较二者,KS test 离散连续通吃
,统计量由 maximum distance between empirical distribution functions 构造,
服从 Kolmogorov 分布。
我老板的座佑铭是“客户是上帝〃,客户让干什么就干什么。
青岛啤酒不错。
etc. |
|
f*********2 发帖数: 48 | 44 和你不太一样,我是面朝大海,喝瓶啤酒。
请大侠对我的回答给予指点!
什么是 top k items,求解释。
一大堆方法,例如 KL divergence,Kolmogorov-Smirnov goodness-of-fit test, etc.
这个得问专家,哪些 feature 是和问题有关的
这个能说出一大堆。一般地,好的模型的想法都是简单为美。
跷跷板呗。如果系统误差给定,Bias+Var=一个常数,一个增大,另一个就减小。
譬如找局部最小,就是每一步都朝最陡的方向跳。要保证每步都往下跳哦~
其实,梯度下降法就是 Newton-Raphson 方法的一个简化版本。
面朝大海,喝瓶啤酒。如果肚子有空间,再加碗凉皮。
客户着急哪个做哪个
用狗狗查! |
|
c***z 发帖数: 6348 | 45 和你不太一样,我是面朝大海,喝瓶啤酒。
请大侠对我的回答给予指点!
指导不敢,相互切磋:)
什么是 top k items,求解释。
就是SQL表,找出top selling item什么的
遇到三哥,就问问real time怎么弄 - min heap max heap 都要用,足够麻烦了
一大堆方法,例如 KL divergence,Kolmogorov-Smirnov goodness-of-fit test, etc.
要求解释原理,为什么离散分布不能用KS
遇到三哥,就问如果KS不是用min distance而是mean distance 会怎样
这个得问专家,哪些 feature 是和问题有关的
会给一个project,比如地图上GPS点的分布
这个能说出一大堆。一般地,好的模型的想法都是简单为美。
会问细节,比如decision tree 如何split
遇到三哥问问如果decision tree randomly split会怎样
跷跷板呗。如果系统误差给定,Bias+Var=一个常数,一个增大,另一个就减小。
差不多,顺便问问lasso
譬如找局部最小,就是每一步都... 阅读全帖 |
|
f*********2 发帖数: 48 | 46 分布函数已知,就用 Kullback-Leibler divergence 刻画二者差异。但这个 KL
divergence 不满足对称性,因此不是距离。
分布函数未知,大样本情况下用经验分布函数近似。比较二者,KS test 离散连续通吃
,统计量由 maximum distance between empirical distribution functions 构造,
服从 Kolmogorov 分布。
我老板的座佑铭是“客户是上帝〃,客户让干什么就干什么。
青岛啤酒不错。
etc. |
|
v******a 发帖数: 45075 | 47 在俄罗斯多如牛毛的牛人中, 这个莫哥可是不比任何人弱. 相信大家都知道此人.
他也许可算上世纪苏联最牛的数学家, 同时也是世界上最牛之一把. (好象一般公认
有史以来最牛的是GAUSS, 二十世纪最牛是HILBERT.) 是莫大的博士 (Moscow State
University). MSU在二十世纪前半页绝对是一世界TOP 10牛校.
老柯研究的数学领域之广之深, 是一般人难以祈及的. 似乎出了数论外, 都有很深
的研究. 特别是在概率论方面. 1933年, 他的<<概率论基础>>一书, 是这个领域标志性
的著作. 概率论公理化体系的诞生始于此书, 为概率论后来的蓬勃发展奠定了基础.
所以今天搞概率论的不可能没听过莫哥, 不可能没读过他的书.
而且他为解决HILBER第十三问题立下了汗马功劳. 这个问题也是HILBERT二十三问题中
HILBERT着墨最多的问题. 后来好象问题的最终解决是莫哥手下的一个研究生! 牛大了.
(谁知道这个研究生是谁? 现在在干吗? 瞧人那博士念的. 郁闷ING~~~)
老柯说他在5,6岁时就注意到 1 = 1^2, 1 + 3 = 2^2. ft. |
|
k***a 发帖数: 233 | 48 我2年级学的的概率论基础(Теория вероятностеи)就是他写的
其书奇古老无比. :D |
|
|
v******a 发帖数: 45075 | 50 倒. 这就不是一两句话能说清的了.
这么说把, 个人认为是最难的东东.
陈景润搞的那东东就是数轮.
本班的WaterFire是前数学班长, 请内行谈谈把. |
|