关于样本空间的讨论汇总 - 话题女王

全部话题 - 话题: 样本空间

T*******I
发帖数: 5138

本讨论的话题是由于以下讨论引发的：
网名houselover (love my house)在MITBBS的Statistics版询问：“四十岁了，从生物
研究改到统计硕士生，可行吗？有成功的例子吗?”
smileguy (身在资本主义大农村)：“有呀。老陈，陈立功。自强不息搞研究，虽然新
的理论不被主流看好，但是仍然不屈不挠。老陈，我看好你。上次你被群殴，我顶你还
被关进小黑屋14天。你得空，发个包子吧。”
TNEGIETNI (lovewisdom)：“借此机会告诉大家，我百分之百地成功了！统计学的历史
将就此被改写！无人能够相信一个国内医学院毕业的卫生统计学硕士以独自一人的能力
为统计学筑起了一道崭新的地平线！毫无疑问，这是科学史上的一个奇迹。
当前的所谓统计学的主流，是以数学家们的思维建立起来的，混合着大量的确定
性假设等的逻辑思维，因而存在着许多荒谬。是的，他们不会认可自己的错误，但真理
终将获胜，因为随机系统不可被假定；我们唯一能够假定的是，它是非确定的，因而任
何确定性假设下的方法论都是不可接受的。”
bearJhonson (八棵七七葚)：“FT，今天终于明... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 关于样本空间，欢迎大家前来讨论

我想，就不必抄了吧。何况wiki上也有，google一下就可以了。
借此机会我想说的是，我并非要全盘颠覆目前的概率论，只是希望对其中的几个概念的
内涵略作调整，因为它们实在是不好理解。如果将概率空间的概念建立在Kolmogorov的
“样本空间”之上，这是很难令人理解的，因为那不是一个样本本身，而是一个尺度空
间，而所谓的尺度不过是一个测量工具（请原谅我在此问题上近乎直观的认知水准离纯
数学的高度抽象要求相去甚远）而已，其上是没有任何样本点的，从而也就不可能将概
率空间建立在其上。随机事件的发生概率是由样本点的实测分布推断出来的（也就是说
是从经验事实归纳出来的），而不是根据尺度空间本身的结构设计定义出来的（也就是
说不是在理论假设的基础上解构出来的）。
我所做的一切仅仅是试图将概率论中几个最基本、最原始因而也就是最有用的概念引入
到一般统计学中，以便使得任何非数学背景的人能够从简单的逻辑上理解统计学及其方
法论的哲学意义。我可能不成功，但我愿意试一试自己的能力。所以，权且让我做了再
说。
我有幸在1998年的三月底在武汉大学的数学系聆听了陈希孺院士关于统计学的历史、现
状和未来的讲座... 阅读全帖

x***m
发帖数: 298

来自主题: TrustInJesus版 - 样本空间

“军版的人和本版的人没有什么恩怨，我认为把军版的人作为样本空间还不错。”
什么是样本空间？一次实验或研究所有可能的结果叫样本空间。比如对于机器运行多少
时间这样一个continous data，样本空间 = {s: s >= 0 seconds}；对于离散变量，比
如掷骰子的结果，样本空间是{0, 1, 2, ..., n}；而对于“是，否”这样的
categorical data，比如调查“有没有，是不是，能不能...”，样本空间={yes, no}。
关于是不是的调查，不管调查对象是谁，样本空间都是{yes, no}——换句话说，样本
空间和subjects是谁，根本八杆子打不着。

T*******I
发帖数: 5138

来自主题: Statistics版 - 关于样本空间，欢迎大家前来讨论

数学家们可以继续在他们的抽象数学里讨论实可测、实连续、实变量、实XX、实YY、
实……，等等，那是他们在他们的确定性空间里该做的事。
统计学讨论的是抽象样本，就像数学讨论抽象的数字系统一样。但统计学不讨论抽象的
数字系统。抽象样本的属性与具体样本的属性具有完全的一致性，因为它们的属性本就
是从具体样本抽象出来的。
至于说到样本空间的概念定义，如果一个样本自身构成的空间不能被称为样本空间，还
有什么其它的任何事物可以被称为样本空间？你们这些搞所谓的数学的聪明脑袋难道连
如此简单的概念都不能正确定义？Hegel或马克思如果依然在世，他们一定会感到苦闷
不已。

d****a
发帖数: 655

来自主题: TrustInJesus版 - 样本空间

汗，找一本教科书，看看扔两次硬币的样本空间是什么。
对于你的例子，看看问两个人，三个人，n个人是非题的样本空间是什么。
次数和人数在你的例子里是一个意思。
科学是不是文科，懂就是懂，不懂就是不懂。像我这样懂的人，跟你说，你听就是了，
不需要辩论。不信的话，找个你承认懂的人，自己问。不补课了。

x***m
发帖数: 298

来自主题: TrustInJesus版 - 样本空间

呵呵，你说的已经是引入了次数的概念了，和我说的有什么矛盾吗？你说我错或者我引
的教科书错的前提是——在介绍样本空间时必须考虑多次、多人的情况，否则就是错的
。但事实上我硬盘存的大部分教科书都没有，只考虑最简单的情况。
不用说你懂还是我懂，拿逻辑、拿证据说话。没有考虑到人数/次数的样本空间介绍都
是错的，希望你给n本教科书写信指出这点。

x***m
发帖数: 298

来自主题: TrustInJesus版 - 样本空间

你这纯粹胡搅蛮缠了，我原帖根本没涉及人数和次数，重心是样本空间和实验对象（不
是次数）没有任何关心，结果你在这边缠人数。
介绍概念时不考虑stage是大部分教科书的做法——你看我上面贴的例子，不会只测一
次thickness吧？你如果需要我再贴一个你看看？

A*******s
发帖数: 3942

来自主题: Statistics版 - 关于样本空间，欢迎大家前来讨论

你完全可以建立起属于你自己的理论，但是你的理论中的一砖一瓦都和现代的科学体系
不相容。就比如说你经常说的连续和可测，你只要翻一翻任何一本分析和实分析的教科
书，就会发现数学家所用的概念和你所理解的不是一回事。
这样一来，你用这些术语来描述你的理论就会有很大的误导性。这就像日语和汉语都使
用汉字，但是一个中国人还是不容易读明白一篇不使用片假名的日文文章一样。所以，
我建议你使用自己的术语来代替过时的不准确的数学术语，比如说陈连续，陈可测，陈
随机变量，陈随机常量，陈样本空间，等等...

T*******I
发帖数: 5138

来自主题: Statistics版 - 关于样本空间，欢迎大家前来讨论

所以，我说我的问题会令那些数学头脑们抓狂！我也就因此而理解为什么Hegel轻视他
同时代的数学家们。
之所以称一个统计量是一个随机常量，是因为它对其被给定的样本本身来说是一个常量
，而样本对其所来自的总体而言则是一个随机子集。如果说统计量是一个随机变量，这
是没有明确指向的一个模糊的说法，是不准确的。显然，一个样本的均数对于该样本自
己来说是一个不变的量，而不是可变的量。

T*******I
发帖数: 5138

来自主题: Statistics版 - 请大家帮我看看我的新概念系统吧。

我打算今年去JSM上讲讲这个新概念系统。我不是学数学的，所以提出来请大家帮忙修
正一下，免得到时候闹笑话。当然，到时候是全英文版的。估计版上有些人已经看过的。
还会有一些数学符号式的表述，这里无法显示。多谢了。
个体：在认识论范畴内，一个个体是一个独立的存在或实体或客体，且拥有其自身已知
的、可知的和不可知的全部属性，并且由于这些属性，一个个体可以与所有其它个体相
区别。在一个特定的领域中，任何以最小单元存在着的事物可以被称为是一个个体。当
一个个体进入一个主体的观察范畴且能被认知或再认知时，它的每一个属性应该是确定
的而非不确定的。换句话说，一个个体是它自己而非任何其它事物是由于它所拥有的全
部属性至少在被认知的那一刻是确定的。反之，如果它的全部属性在被主体观察时是不
确定的，那么主体将对它不可知，或者说它对于主体来说不可测。
属性：一个个体的一个属性（用符号A(字体：kunstler script)表示）是关于它的一个
抽象的特征。这类抽象的特征通常有质和量两大类，由此我们可以在许多个体中定义一
个群体或类。例如，一个个体可以有姓字、性别、身高和体重等属性。每一个属性是唯
一的并且... 阅读全帖

T*******I
发帖数: 5138

来自主题: Belief版 - 对我的人生影响最大的几本书（原创与更新） (转载)

【以下文字转载自 Statistics 讨论区】
发信人: TNEGIETNI (lovewisdom), 信区: Statistics
标题: 对我的人生影响最大的几本书（原创与更新）
发信站: BBS 未名空间站 (Fri Apr 1 07:52:15 2011, 美东)
对我的人生影响最大的几本书
本文目前正在文学城的博客首页展出：
http://blog.wenxuecity.com/blogview.php?date=201103&postID=2515
我是一位毕业于武汉同济医科大学公共卫生学院的硕士教育水平的统计学家，我的
最高学位相当于美国的MD和MPH。带着这样的背景在当今以数学家们为主体的统计学的
公开场合下发表言论将被普遍地认为是狂妄之徒。在众多毕业于美国大学的博士级华人
统计学家们的圈子里，我实在是不应该公开称自己是一个统计学家，至多可以说自己是
个搞统计的小master。在他们的眼里，我只能毕恭毕敬地站在他们的对面聆听他们的高
谈阔论。然而，我不齿于当一个这样的小学生，为此我已遭到了这些同行们毫不吝啬... 阅读全帖

T*******I
发帖数: 5138

来自主题: TrustInJesus版 - 对我的人生影响最大的几本书（原创与更新） (转载)

T*******I
发帖数: 5138

来自主题: Statistics版 - 对我的人生影响最大的几本书（原创与更新）

对我的人生影响最大的几本书
本文目前正在文学城的博客首页展出：
http://blog.wenxuecity.com/blogview.php?date=201103&postID=2515
我是一位毕业于武汉同济医科大学公共卫生学院的硕士教育水平的统计学家，我的
最高学位相当于美国的MD和MPH。带着这样的背景在当今以数学家们为主体的统计学的
公开场合下发表言论将被普遍地认为是狂妄之徒。在众多毕业于美国大学的博士级华人
统计学家们的圈子里，我实在是不应该公开称自己是一个统计学家，至多可以说自己是
个搞统计的小master。在他们的眼里，我只能毕恭毕敬地站在他们的对面聆听他们的高
谈阔论。然而，我不齿于当一个这样的小学生，为此我已遭到了这些同行们毫不吝啬、
近乎疯狂的谩骂、诋毁、讥笑、嘲讽。在那些头顶着美国大学的统计学博士头衔但却在
骨子里浸透了中国历史的鄙俗文化的学者们的眼里，我绝对没有丝毫说话的地位。然而
，他们统统错了！我深刻地相信他们遇到了一个另类的挑战者或outlier（离群点。统
计学的专业术语，作者注）。他们最终将发现自己将不... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 答水泡泡：陈立功是谁教出来的？

Hi, every friend,
非常感激你们持续地倾注你们的热情和关注。我这几天可能处于一种癫狂的状态。好在，
终于走了出来。
我所使用的概念系统今天中午前后总算基本完成了。它们就在那个wiki网页里。是的，
那里是一个特别的地方，本不应该由我来这样做。但实在没办法，没人能够担此大任。
于是，我不得不化名行事。
我在系统里引入了尺度空间（scale space）的概念。这是13年前思考分段回归问题时就
已经形成了的概念。尺度空间就是当前概率论系统中的“样本空间”。我认为这是一个
严重的概念抽象错误。但是，它对概率论的理论形成影响不大，却人们在引用这些概念
思考统计学的一些问题时容易引起混淆和冲突。是到了必须被纠正的时候了。
样本空间只能是一个样本本身。
引入这个概念后，理解其它方面就易如反掌。
另外引入的概念是被测空间（measured space），它就是样本空间，也就概率空间。当
然，此时的概率空间定义在样本空间与尺度空间作为一个整体的的空间上。没有脱离尺
度空间样本空间存在，反之亦然。
我把可测空间还给了总体空间。那是一个可测但不可直接被概率化的空间。
我还引入了可连续空间以... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 如果你不是孬种数学背景的统计学家，请接受挑战

随机变量在概率论中有定义，我基本能理解。但我所理解的随机变量是从哲学的认识论
角度来定义的，且这两个定义之间没有什么本质上的差别，不同之处仅仅是语言表述的
风格不同而已。请参考我在09年文章中的表述。
另外，我对Kolmogorov所定义的样本空间很不赞成。我认为那是一个尺度空间，而非样
本空间。我认为样本空间就是样本本身。这是因为这里的空间是一个广义的概念，它被
一个狭义的概念“样本”所修饰。因此，这个空间拥有样本的全部属性，而一个样本的
全部属性由样本所包含的全部个体的全部属性所决定，因而，一个样本空间就是样本自
己。当然，这里可能存在着统计学中的样本与概率论中所说的样本是不同的概念这个问
题。我对此不能确定。
当然，我的上述表述数学家们是绝对不会赞成的。没关系，他们可以继续用他们所熟悉
的概念系统进行思考和论述。但我不会。我需要新的概念系统来思考，因为现有的概念
系统不能使得我以严谨的、无任何混淆的逻辑进行思考。所以，我必须引入新的概念并
修正现有的概念系统。我可能不成功，因此我只把自己的行为称为是一个尝试。
促使我如此行的一个主要因素是，在我本科和研究生阶段学习的应用统计学中，... 阅读全帖

T*******r
发帖数: 333

来自主题: TrustInJesus版 - 进化的概率问题：人的产生是神迹还是概率? 【2006年旧帖】

引言：
如此小概率的事件，可以称为神迹了。 [信仰家园] - josephshen
正文：
如果小概率事件就可以成为神迹的话，那么我们每个人随时都可以表演（josephshen也
不例外）。很简单，拿出一张白纸，在上面随意的戳一个点。恭喜你，你已经完成了一
个神迹！在白纸上点中那个点的概率是多少？无穷小！基本上就是零。这么小的概率你
都把它点中了，这不是神迹是什么？！
呵呵，估计大家看了都会笑了，这也算神迹？！可是同样的事情，在讨论到人类的出现
的时候，有的人脑袋就转不过弯了，就觉得人类的出现就是神迹！
是这样吗？
我们来比较一下在白纸上戳点和人类产生这两个"神迹"：
第一，事前概率与事后概率
这两个神迹都是在事情已经发生以后再来讨论概率。这就是典型的先射箭，再画靶子。
因为这里的概率，是事前概率。反过来想，如果在白纸上事先确定一个点，再让你随机
的戳上去，你还能点中它吗？
同样的，对于某一个具体的物种来说，进化是没有方向的，完全由当时的环境来决定。
没有一个科学家会指着一只猴子说，“根据进化论，你的后代肯定会是人类”。他只会
说，“你的后代有可能会进化成人类那样的智能生物，但是概率很... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 一个简单的数学问题，我和我老板争论不停，其中一定有一个人是(转载)

我所定义的样本空间很直观简单啊。怎么会不好理解？打个比方，我们有两个随机变量
X和Y构成的一个联合空间，样本量是35。按照我的定义，这个样本空间就是由这35个随
机点及其测量尺度（或坐标）构成的一个空间。这当然是很经验化的了，但依然是一个
抽象的空间。而按照Kolmogorov的定义，样本空间仅仅是两个坐标构成的空间，其中没
有任何实际的样本点，因为他认为任何实际的样本点都是来自这个可测空间的。也就是
说，他所定义的是完全抽象化的空间，与具体样本无关。这是让我感到彻底困惑的逻辑
难题（对于那些学数学的来说，没有任何障碍）。
我承认我和kolmogorov在对统计学的理解上存在着哲学上的差异，而我的数学思维极其
有限，但我希望以直观的方式建立一套逻辑思维系统。在我看来，统计学中的所有样本
都既是具体而实际的，又是抽象而广义的。不仅如此，任何统计方法都是在处理实际样
本的过程中构造出来的具有普遍而抽象意义的算法，而非从某个或某几个数学理论直接
推导出来的。这是统计学方法与数学方法之间的巨大差别。我可以不懂任何高深的数学
理论，但如果我掌握了简单的数学运算法则，我照样可以用实际样本构造出一套... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 一个简单的数学问题，我和我老板争论不停，其中一定有一个人是(转载)

我不太懂你的p>>n是什么意思。
我的思想很单纯和直观。当我们将n个随机点描绘在一个测度空间里时，就得到了一个
实际的样本空间。没有这些随机点的存在，就不构成一个切实的样本空间。这是一个简
单的逻辑。于是，只有在这样的样本空间里，我们才可以讨论临界分割的问题，而在
Kolmogorov定义的样本空间里，是不可以讨论这个问题的，因为那个空间如果是一个连续
型随机变量的可测空间的话，就不存在可分性。
我想借此机会谈谈goldmember (蔬菜<<<菜鸟)在这里所说的"n个样本"。这是很多人常用的习惯性语言，但它很不严谨。我想他想要表达的实际应该是"n个随机点"的意思。在统计学里，样本、统计量、参数等都应该有着不容任何混淆的含义。因此，在统计学中，一个样本只能是指的“由来自可定义的同一总体的n个随机点构成的一个随机子集”，而不能指代其中的任何一个。

基于n个样本构成的空间的。这两个空间有线性变换的关系。

T*******I
发帖数: 5138

来自主题: Statistics版 - 我说老陈，咱别玩儿虚的了。你给说明一下这个简单的例子

在我看来，如果对未知总体的样本量只有20例，那么，其连续型变量的最大最小测量之
间的一个连续空间就构成了一个尺度空间，而每个个体的测量结果就构成了一个样本空
间。如果将这２０人的身高和体重描绘在一个二维空间里，为什么我们不能说这个包括
２０个样本点在内的二维空间就是这个样本构成的一个样本空间？这是一个令非数学背
景的我感到困惑的地方。
样本是统计学里最重要的核心概念。一个样本就是我们能够获得的对外部未知世界的经
验事实，是我们因此而可以获得有限认识的基础。离开了这个基础，We can do
nothing. 但我们又不能将认识仅仅停留在这个直观的样本之上，因为它仅仅是一个随
机得到的子集。由此，我们形成了样本的代表性的概念。没有什么magic的数学理论可
以解决样本与其总体间的联系的确定性问题。这个就是一个认识上的信心问题。
要想使得一个样本对总体具有代表性，抽样时就要满足随机和足量的法则。终极地说，
真正做到这两点实际上都极其的困难，因为总体具有无限性且一般来说未知，因而“随
机”和“足量”都是很难被较好地定义的。
以上算是对问题（１）的不成熟的回答。
至于问题（２），我觉得那个抽样... 阅读全帖

c*******u
发帖数: 12899

来自主题: NextGeneration版 - [合集] 无意中我闯进了美国的医疗盲区

☆─────────────────────────────────────☆
redfoxjoy (凡所有相皆是虚妄) 于 (Tue Jul 19 11:02:15 2011, 美东) 提到:
此文作者是中医世家姚氏膏药的传人，推荐给各位妈妈一读
----------------------------------------------------
无意中我闯进了美国的医疗盲区
―――我作住家保姆的经历
一、到美国，我作了住家保姆
退休后，我们夫妻俩来到美国，住在弟弟家。
初次来到美国，先后在DC以及DC附近几个朋友住的城市玩了一个月，初步领略了美利坚
大自然的美丽，真是蓝天白云、鸟语花香；亲身体会了令人羡慕的社区管理，尤其是那
幽静的图书馆、分布合理的运动场，更是让人流连忘返。为了对美国民众的生活有个进
一步的了解，使生活更充实些，我们夫妇两个到一家华人家庭作了住家保姆。
这是一对中年夫妇，两人都在ＩＴ行业工作，养了一男一女两个孩子。我们的工作就是
带孩子、做家务。
二、我带的孩子扁桃体肿大，又发烧了，不吃抗生素行吗？
我印象中的美国医疗是很先进、很科学、很人性化的。... 阅读全帖

L*D
发帖数: 3966

来自主题: ChineseMed版 - 无意中我闯进了美国的医疗盲区　 (转载)

五石去宝宝版发言了，写了很多，大家看看。
___________________________________________________________
发信人: fivestone (fivestone), 信区: NextGeneration
标题: Re: 无意中我闯进了美国的医疗盲区
发信站: BBS 未名空间站 (Tue Jul 19 14:16:18 2011, 美东)
中药的使用是要辩证施治的，对证治疗才行。特别是内服药，外用药还好些。
____________________________________________________________________
发信人: fivestone (fivestone), 信区: NextGeneration
标题: Re: 无意中我闯进了美国的医疗盲区
发信站: BBS 未名空间站 (Tue Jul 19 14:20:57 2011, 美东)
1. 人体本身有一定抵抗能力，一般感冒如果不治疗，自愈在6-7天，治不好会拖到12-
14天。
但也有扛不过去的时候，到肺炎、中耳炎等。
2. 扁桃体是人体的... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 统计学的新地平线——陈立功与他的自权重曲线

看来，在那些抽象的概念上纠缠永远不能有结果。让我说得具体一点。
给定一个两分法的样本（假定X是自变量而Y是因变量，两段都是简单线性模型，且临界点是在X上）。现行算法及分段模型组的基本表述如下：
hat\y_1 = a1+b1X if X<=t
hat\y_2 = a2+b2X if X>t
ID X Y M CR
1 x1 y1 m1 cr1
2 x2 y2 m2 cr2
3 x3 y3 m3 cr3
4 x4 y4 m4 cr4
5 x5 y5 m5 cr5
6 x6 y6 m6 cr6
7 x7 y7 m7* cr7 min(.)
8 x8 y8 m8 cr8
9 x9 y9 m9 cr9
0 x0 y0 m0 cr0
其中，M是由分段模型组的系数构成的矩阵，CR是分段模型的合并残差。*表示根据最小
CR选定的分段模型，如果我们有 ... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 如果你不是孬种数学背景的统计学家，请接受挑战

我完全赞成你的阐述。不过，你显然对我所说的领会有误。
我所谓的“样本空间就是一个样本自己”是源自一个简单的概念定义的逻辑。那么，什
么是样本？什么是空间？什么是样本空间？这个概念的定义所体现的逻辑就如同我们用
“女”和“人”来定义“女人”一样简单。所以，我不认为Kolmogorov所定义的“样本
空间”的概念是严谨的，我认为它可以被定义为一个“尺度空间”。
这就是我的一个基本观点。当然，仅是一家之言。我说了，我可能不正确。

s*****i
发帖数: 5548

来自主题: Texas版 - [合集] 小费份额年年长，要涨到多少才够？

☆─────────────────────────────────────☆
happyboar (We must continue our struggle) 于 (Wed Dec 28 20:24:07 2011, 美东) 提到:
很多老人家说，当年给10％小费就很不错了，等我十年前来美国的时候，被教育给15％
。这十年来我每次都给15％，除非特别的情况，自己觉得已经很大方了，可是现在又有
人说晚餐要给20％……
我尊重每一个劳动者的劳动，但是难道若干年来，餐馆服务生的劳动，相比后台大师傅
的劳动，变得更值钱了？我更相信是服务生贪得无厌，索要无度，再加上用餐顾客好面
子的结果。
以后我要恢复古风（其实也不算多古，就20年前吧），每餐只给10％小费，除非特殊情
况。
☆─────────────────────────────────────☆
kissingfish (暖暖如斯) 于 (Wed Dec 28 20:25:47 2011, 美东) 提到:
占位等看lz被拍
☆─────────────────────────────────────☆
qx... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 陈大师，　我很好奇

老实说，我第一次听说overfitting是在2006年重新开始三分法的算法构建时才读到有
关文献的。AIC被认为是控制overfitting的一个手段。通过非仔细地阅读我所从事的领
域的文献，发现很多overfitting是由于最优化导致。但我的方法论与最优完全无关，
我估计的是样本的期望临界点，即是用全部样本估计的一个充分的期望估计，没有任何
样本信息的损失，正如我们用一个正态随机变量的全部观察值计算其算术均数一样。
当一个outlier出现在样本中时，用我的方法，它的权重会接近于0。如果你真正看懂了
我所设计的三分迭代搜索方法以及权重的定义的话，你就会明白这一点。
我觉得我是在遵循概率论的基本概念系统（虽然我不是透彻地理解它）建立自己的算法
，这就是力图为每个随机临界点在全样本空间里（即使用全部实测样本点对每个临界点
进行搜索，亦即，每个实测样本点对期望临界点的贡献全部考虑进来了，没有任何损失
）构建一个可测空间、定义权重及其可测性、计算加权期望估计未知临界点。遗憾的是
，在其他人的方法里找不到这样的分析逻辑和算法。他们根本不考虑临界点的可测空间。

感。
给你
至少

m******2
发帖数: 564

来自主题: Statistics版 - 陈大师的意思我终于有点领会了

就是他要给分段模型测一个断点位置
为了更准确合理的寻找这个断点位置，他对每一个样本点测一个是断点的概率
然后求一个断点位置的期望，确定断点
然后再分段回归
基本意思就是这样吧
http://www.mitbbs.com/article_t/Statistics/31280183.html
“我所说的迭代搜索，是指的根据全域模型给定的模型结构（例如这里我采用的是最简单
的直线模型。这个例子的全域模型也可以采用二或三次多项式模型），假设Ｘ的任一随
机实测点是可能的临界点，然后据此分解样本空间，在每段子空间里建一对与全域模型
同构的分段模型，其回归系数将依从假设的临界点而随机可变。因此，如果样本量为ｎ
，则有ｎ对临界模型，但这些模型都不是我们所需要的，它们的作用仅仅是输出期望的
预测误差，从而与全域模型的期望预测误差构成一个相对权重（这个权重是一个随机变
量，有ｎ个随机点测量值），从而，被假定的x_i与其权重一起就可以估计X的一个加权
期望。由于在这个两分法中Ｘ是作为被分割的临界变量的，因此，随机临界点的可测空
间与Ｘ的可测空间相同，从而这个加权期望就是随机临界点的期望估计。既然临界点期
望... 阅读全帖

s*****r
发帖数: 790

来自主题: Statistics版 - 如果你不是孬种数学背景的统计学家，请接受挑战

我认为样本空间就是样本本身。这是因为这里的空间是一个广义的概念，它被
就这些，如果是正常语言的话，说明你是多么无知了。统计从来不是研究“样本所包含
的个体”的属性的，尤其你所说的样本所包含的全部个体。
如果你的样本包含了全部可能性，那就不需要统计了。比如，你要试验一种药在某种病
人身上，看看成功率多少。如果所有病人都试验了，那就只需要一些描述就好了。问题
就是你的样本不可能是全部，这才需要统计做inference.样本的目的就是为了对未知的
做认识。

T*******I
发帖数: 5138

来自主题: Statistics版 - Re: 关于肖手术的最新review (转载)

对不起。晚上事情比较多，还要教女儿学小提琴，所以晚了。
sum of squares error, 算法还是逻辑？
least squares，算法还是逻辑？
解least squares的gradient equations，算法还是逻辑？
在你的问题中，如果我们能发现上述三个与其它之间有差别的话，它们应该是具体的数
学计算方法，或简称算法（然而，一般的算法的内涵也可以比这个狭义的概念的定义要
广义得多，但请允许我暂时在这里用一个狭义的内涵）。
至于线性回归，当我们一般性地谈论这个问题时，它是方法论；而当我们在具体计算过
程中时，它又可以用广义的算法的概念来解释，例如，当我们在SAS中调用回归分析的程
序Reg处理一个样本S时，Reg就是定义在样本空间S（请注意，我所使用的样本空间的概念
与现行的概率论中的样本空间的定义不一样）上的一个泛函，其输出的回归模型的全部
统计量就是这个泛函的结果。此时，我们可以说，线性回归就是一个广义的算法。
而线性回归的逻辑是另一个非常抽象的理解，它可以用来指高尔顿当年脑海里萌发的那
个最简单而又高度抽象的思想。在其起始时刻是没有任何具体的数学计算形式或

X*U
发帖数: 5518

来自主题: PhotoGear版 - 临界回归模型的连续性 (转载)

【以下文字转载自 Statistics 讨论区】
发信人: TNEGIETNI (lovewisdom), 信区: Statistics
标题: 临界回归模型的连续性
发信站: BBS 未名空间站 (Sat May 14 19:04:31 2011, 美东)
Continuity of Threshold Regression Model
我做了一个图来说明统计学中分段回归模型的连续性与数学中分段函数的连续性的区别。
说明一下：图中的临界点被假设并估计在Ｘ上（Threshold on X），它是在全样本空间
里进行迭代搜索（即每假设Ｘ的一个随机实测点为可能的临界点时就得到一对分段模型
，当样本量为ｎ时，就有ｎ对随机临界模型，每对临界模型都有一个合并的预测残差的
期望估计量）的基础上以分段模型的合并残差期望对全域模型的残差期望的相对改变为
权重而计算出来的Ｘ上的一个加权期望。所以，两个分段模型间不是ｅｘａｃｔｌｙ连
接在一起的。
我的问题是，这两个分段模型间是连续的还是离断的？为什么？（问题上站几个小时了
也没人愿意回答。还是让我自己回答好了：从统计的随机变异角度看，我们没法假设... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 临界回归模型的连续性

Continuity of Threshold Regression Model
我做了一个图来说明统计学中分段回归模型的连续性与数学中分段函数的连续性的区别。
说明一下：图中的临界点被假设并估计在Ｘ上（Threshold on X），它是在全样本空间
里进行迭代搜索（即每假设Ｘ的一个随机实测点为可能的临界点时就得到一对分段模型
，当样本量为ｎ时，就有ｎ对随机临界模型，每对临界模型都有一个合并的预测残差的
期望估计量）的基础上以分段模型的合并残差期望对全域模型的残差期望的相对改变为
权重而计算出来的Ｘ上的一个加权期望。所以，两个分段模型间不是ｅｘａｃｔｌｙ连
接在一起的。
我的问题是，这两个分段模型间是连续的还是离断的？为什么？（问题上站几个小时了
也没人愿意回答。还是让我自己回答好了：从统计的随机变异角度看，我们没法假设两
段模型间是连续的，两者间必有一个随机的连接变异存在，从而也就不能用解联立方程
的办法来估计临界点。为了知道两段模型是否连续，我们需要一个概率推断，即推断那
个随机的连接变异在本次抽样中作为随机误差发生的大小。这个变异在样本空间上发生
概率的大小可以用来估计其抽样误... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 临界回归模型的连续性

如果您依然没有读懂我的这篇短文，我愿意再次陈述清楚一点。
我所说的迭代搜索，是指的根据全域模型给定的模型结构（例如这里我采用的是最简单
的直线模型。这个例子的全域模型也可以采用二或三次多项式模型），假设Ｘ的任一随
机实测点是可能的临界点，然后据此分解样本空间，在每段子空间里建一对与全域模型
同构的分段模型，其回归系数将依从假设的临界点而随机可变。因此，如果样本量为ｎ
，则有ｎ对临界模型，但这些模型都不是我们所需要的，它们的作用仅仅是输出期望的
预测误差，从而与全域模型的期望预测误差构成一个相对权重（这个权重是一个随机变
量，有ｎ个随机点测量值），从而，被假定的x_i与其权重一起就可以估计X的一个加权
期望。由于在这个两分法中Ｘ是作为被分割的临界变量的，因此，随机临界点的可测空
间与Ｘ的可测空间相同，从而这个加权期望就是随机临界点的期望估计。既然临界点期
望已经被估计出来了，我还会继续找其它的什么点作为临界点么？
因此，当临界点的期望得到后，据此分解样本空间并由各子样本建立最终的分段模型。

T*******I
发帖数: 5138

来自主题: Statistics版 - 居然还有人试图和陈大师讨论统计问题

我将对它的运算放在尺度空间（=柯氏样本空间）上，由此得到样本空间（=样本=
dataset），由此，抽样分布是在尺度空间上的分布，这个分布的概率化就是概率运算
的基础。

p********a
发帖数: 5352

来自主题: Statistics版 - [合集] 说两句关于bootstrap的看法

☆─────────────────────────────────────☆
tamuer (hoho) 于 (Fri Oct 21 20:41:07 2011, 美东) 提到:
前面有人问bootstrap能不能更逼近真理。我不是这方面的专家，但是发表一点自己的简
介，希望和大家交流一下吧。
总体而言，我觉得使用bootstrap不能说是逼近真理。但是有的时候，确实比不做boot
strap比更好，或者比使用单一样本更接近真理。大家都觉得bootstrap没有真正用处的
原因是觉得所有bootstrap重复抽样的样本都是从一个样本里出来的，所以用bootstrap
的效果不会比使用原来的样本好多少。这一点我也同意。
但是从另外一个角度来说，一个样本里面包含的信息是很丰富的，我们是否已经完全利
用了现有样本里面的信息呢？最简单的例子来说，一个样本，很多时候我们用就用samp
le mean来summarize样本信息，但是使用sample mean的时候又忽视了多少样本中原来的
信息呢? 比如各种quantile的信息之类。类似的，换一个角度来说，bootstrap是在... 阅读全帖

m**********e
发帖数: 12525

来自主题: Military版 - 给索男们出一道数学题

因为印度阿三假定了前后2胎不是独立事件,
阿三理论中，样本空间有约束条件：
MF+MM+FF+FM=1,
第一胎知道后，剩余样本空间就缩小了，第二胎的样本空间与第一胎不一样，
所以最后丫搞了个p=2/3
数学上，这是时间序列的一种特例。
当然，如果没有这个假设，p=1/2

J*******g
发帖数: 8775

来自主题: TrustInJesus版 - 罪犯的信仰

我是翻译链接中文章作者的东西。那人八成是无神论的，仔细看看，那个叫Friendly
Atheist专栏，你要反无神论了？
人家说取样有漏洞，有没说样本空间的问题。
说道样本空间，样本空间就不该有中国，印度，日本，伊朗？你很会统计啊。
再次说明你为反基而反基。其它东西只要不利于反基，即使是理性的无神论者，也会被
你抛弃。

本？

G*****7
发帖数: 1759

来自主题: Statistics版 - Re: 关于肖手术的最新review (转载)

你的回答非常令人不满意。你的风格似乎是，用能引起别人十个追问的语言来回复别人
的一个问题。
你说：（请注意，我所使用的样本空间的概念与现行的概率论中的样本空间的定义不一
样）
那你的样本空间定义是什么。你不讲清楚定义自己的东西，怎么让别人判断你对错。
你又说：线性回归，... 是方法论； ... 又可以用广义的算法的概念来解释...
你曾说：与你不同那个统计体系逻辑是错的, 方法论是错的，算法是对的。
c.f. http://www.mitbbs.com/article/Statistics/31246339_0.html
那么我问你，与你不同那个统计体系下线形回归，照你说既是方法又是算法，那么它既
是对的又是错
的？
你饮用的wiki文章可没有定义什么是分析逻辑，什么是算法，以及二者区别何在。那里
只是列出了一
个
六步的算法（it is composed of the following six main components一句）。
你又说：它可以用来指高尔顿当年脑海里萌发的那个最简单而又高度抽象的思想。
Ok, enlighten me, what/which 那个最简单而又高

T*******I
发帖数: 5138

来自主题: Statistics版 - 统计学的新地平线——陈立功与他的自权重曲线

A new horizon of Statistics:
Ligong Chen and his Self-weight Curves
版上有人对我在统计学里造新词满怀……。是的，我确实造了几个新词，诸如
1）随机常量(random constant, 事实上，我们每个人的生命的每一刻就是一个random
constant。这个生命的全部属性在那一刻具有不变的确定性，但却具有随机性。)
2）常量期望(constant expectation, 即一个常量自己，或一个不变量。当我们对一个存在的最大期望等于对它的最小期望时，它就是一个不变量，或常量。它是随机变量的对立面。)
3）随机对应（random correspondence, 严格地说，这个词不是我造的。它早就存在于人们的思维活动中，只不过我可能是第一个尝试了从数学的角度给出一个严格定义的人，尽管我的定义所采用的数学表述语言和格式并不100%的严谨，但我给出的定义的逻辑思路应该是可行的）
4）全域回归(fullwise regression，这个词是相对于分段回归（pi... 阅读全帖

b*****e
发帖数: 499

来自主题: _K12版 - 我娃的智商

吗？
就是MODE。不过我觉得你这个MODE比我用的词专业，我还得加段google出来的解释
“In statistics, the mode is the value that occurs most frequently in a data
set or a probability distribution. ”
这也算BSO吗。
皮皮娘，咱俩用的样本空间不一样。我用的是普通大众的样本空间。你的是K12的牛妈
牛爸们生的牛娃们的样本空间。那能比吗？我家娃的智商值在K12娃的智商曲线上那是
要排在均值左侧一个标准方差以外了。

f*******e
发帖数: 5594

来自主题: Wisdom版 - 以有为法求无为法，终不可得

1 “确定”这个中文词就是上面说的基本含义，宽泛不宽泛是另一回事，我只是想问你
是否同意这个中文词的解释？
2 确定性系统在百度百科里没有解释，在互动百科里的解释是：
“输入作用和外加扰动均按确定的规律变化，且结构不包含任何不确定因素的一类系统
。” 这里的不确定因素是指在当时的实验条件下无法确定的因素，这个与我们要讨论
的问题不一样啊？
你既然同意用必然事件，那就用这个。根据百度百科里的定义：
“样本空间Ω包含所有的样本点，它是Ω自身的子集，在每次的试验中它总是发生，称
为必然事件。”
这里的一个简单情况就是，这个样本空间只有一个样本点，这就是一种必然事件了。你
同意吗？

l***y
发帖数: 4671

来自主题: LeisureTime版 - 达摩与明心见性--揭开达摩传法实相 (转载)

没错！
本来不想再回帖了。灌水是个很上瘾的事情。每一帖都是攀缘，后果都是牵绊。开始还
知道是自己在做主，还是被牵着走，是自在还是放纵。很快就身不由己了，分不清这一
贴是不是手痒或者手欠，总给自己找些应当灌的理由。到最后就掉进去了。看不清时就
该打住，否则又灌出烦恼来。
但是你说的这个话题太切中那个啥，“灌点”了。真是欲罢不能啊。马上就有冲动想洋
洋洒洒写一篇儒释两家各流派历史上在各国的动态变迁来。所以考验一下自己，是不是
能说断就断，回完这贴就此打住。
逻辑可能比较绕，我的表达能力又很烂，对博弈论和概率模型比较熟悉的，可能容易跟
上思路。原谅我能力有限吧。
仅说观点，不结合历史案例详细展开，也尽量回避数学词汇：总的来说，我觉得文明的
兴衰是相当复杂，随机性很大，而且很难简单化地归纳的一个问题；笼统地评论一种文
化在其中起到的总的作用，可能不是人类目前的经验和智慧能够胜任的；即便能够胜任
，可能对未来也缺乏指导意义。
具体到中印两国来说，我不认为中印两种文明衰落了；从时间上看，像这样的重要文明
圈的兴衰是以百年到千百年为尺度的，衡量一大类思想对相对应的文明的兴衰的作用，
肯定也不能只看一... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 问个有关概率基本概念的问题

题目说的是两分法，而提问的lz假设的是三分法。Lz是不是搞错了？
如果是三分法，正如楼上有人指出的那样，lz自己把x_1和x_2排序了，从而得到那样的
均匀分布密度函数。事实上，在三分法中，x_1和x_2的可测空间是一样的，即都是[0，
1]，没有排序的可能性，所以，结果就不是lz假设的那样。
本人正好完成了一个三分回归分析法的方法学研究。两个临界点的可测空间都是全样本
空间。当然，我所面对的样本空间不是一个均匀的空间，所以，事情比这个复杂得多。

f*******e
发帖数: 5594

来自主题: Wisdom版 - 以有为法求无为法，终不可得

好吧，我们看一下百度百科上的定义：
-----------------------
在随机试验中，可能出现也可能不出现，而在大量重复试验中具有某种规律性的事件叫
做随机事件，简称事件。随机事件通常用大写英文字母A、B、C等表示。
在抛掷一枚均匀硬币的试验中，“正面向上”是一个随机事件，可用A={正面向上}表示。
随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点，记作ωi。全体
样本点组成的集合称为这个试验的样本空间，记作Ω．即Ω={ω1，ω2，…，ωn，…}
。仅含一个样本点的随机事件称为基本事件，含有多个样本点的随机事件称为复合事件。
------------------------
注意，“大量重复试验”中的事件才叫随机事件，“每一个可能的结果”是一个样本点
。已经发生的事情，是可能的结果之一，也就是一个样本点。这个一个样本点是确定的。
可是你前面说“随机说的是已经发生的事，不是没发生的事。”

T*******I
发帖数: 5138

来自主题: Statistics版 - 陈大师的意思我终于有点领会了

多谢。我大致浏览了一下，他们的逻辑与算法与我的完全不一样。
在这类问题的分析，很多人存在着认识上的误区。
首先，他们基本都是通过一个直观的判断就肯定changing-poing存在。而我的思想是，
它是否存在不知道。所以，我首先建一个全域模型，然后以该全域模型的基本结构为标
准对每个实测样本点成为可能的临界点的意义进行估计（这就是每个点的权重的特定含
义，也就是说，权重的含义决定了临界点的期望估计的本质是什么）。
其次，你可以从Liu和Qian的文章中发现他们既没有逃脱这个误区，也没有考虑临界点
的连续性检验的问题，因为这个问题已经在其方法论的前提上被排除了。
第三，我找不到他们为临界点定义的可测空间在哪里。没有这个空间，你认为你能找到
它吗？
第四，我讨论的是三分法为基础的分段回归，因为在我看来，两分法不过是三分法的一
个特例，即当样本空间里的两个抽样临界点一致时就是两分法。为此，我为每个临界点
定义了一个可测空间，而三分迭代搜索的机制可以确保对两个临界点的搜索是完全独立
的，因而互不影响。这是检验它们是否一致的基础。
总之，我在自己的方法学为每一个细节都制定了一个概率估计的办法，当... 阅读全帖

j********z
发帖数: 3242

来自主题: Belief版 - [合集] 和所谓的给非基上概率课的基谈谈概率

☆─────────────────────────────────────☆
knuthfan (你有科学，我有神功) 于 (Fri Aug 29 03:51:32 2008) 提到:
看了某位基的大作"和非基谈谈概率",不禁喷饭,看来这为仁兄来基本的概率问题都没
学好,其中关于中彩票的讨论充满了似是而非的错误结论.下面我就替他的数学老师,免
费上一堂大学概率习题课
Q1.如果每一次投注赢六合彩的概率是p,那么一个人每次买一注,连续中奖两次的概率是
多少?
A:这为基的答案是p*p,恭喜你,答对了
Q2.同样的条件,请问每期六合才有人中奖的概率是多少呢?
A:这位基文中的答案是N*p,恭喜你,又答对了
Q3:这两道题说明了什么呢?
在这位基的文中结论性的指出“说明对于小概率事件,其发生的概率和样本数目成正比,
所以样本数越大,小概率事件发生的基率越大,反之越小.”
但是Q1、Q2的问题是不同的。这是最简单的贝努力概型和n重贝努力概型的区别。
对于“一次投六合彩就中奖”这个事件，样本空间不改变其发生概率，这是小概率事件
而对于“每期有六合彩中奖者”这个事件，才是和样本空间大小

z********o
发帖数: 18304

来自主题: TrustInJesus版 - 罪犯的信仰

视而不见？看见你这种弱智之极的狡辩的第一条就看不下去了：
懂不懂什么叫统计？懂不懂什么叫样本空间？谁告诉你样本空间必须涵盖所有可能样本？
尼玛！基们到底有多弱智！！！！！！！！！！！！！！！！！！！
照基们这个弱智的逻辑，任何统计只要有一张废票就不成立了。尼玛！选举的时候有一
张废票就该取消选举了？尼玛！弱智到这种程度还好意思出来丢人现眼！

f****r
发帖数: 5118

来自主题: Mathematics版 - 有关central limit theorm 的一个silly 问题

central limit theorm要求要求只要iid, 不管那些数是个什么分布，样本的均值肯定
是normal distribution.
那么我的问题是如果样本空间为1，那么不就只有一个数了吗？这个数的均值也就是这
个数，也为normal distribution，不是违背了最初的分布了吗？
我知道样本空间要大，也知道我的问题很愚蠢，但是n确实可以等于1啊？数学公式应该
是严格的。
谢谢

f****r
发帖数: 5118

来自主题: Mathematics版 - 有关central limit theorm 的一个silly 问题

n 就是样本空间中的样本个数 n=1的话，就是只有一个数载样本空间里

t****z
发帖数: 8931

来自主题: Military版 - 基姥就是反人类

什么样本空间不空间
我统计电脑都是美国学的
不知道啥样本空间

q******7
发帖数: 1309

来自主题: ChinaStock版 - 中证行业指数系列7月正式亮相

2009年06月18日 19:27:05 　来源：新华网
新华网上海６月１８日电（记者潘清）中证指数有限公司１８日宣布，中证能源、中证
材料等１０条中证行业指数将于７月３日正式发布，用以反映沪深两市Ａ股中不同行业
公司的整体表现，并为指数化产品提供更多的标的指数。
据介绍，中证行业指数在编制中参考了国际主流行业分类标准，将样本空间股票分
为能源、原材料、工业、可选消费、主要消费、医药卫生、金融地产、信息技术、电信
业务和公用事业等１０个行业。
与２００７年７月发布的沪深３００行业指数系列所不同的是，此次发布的中证行
业指数系列以同时覆盖沪深两市大盘股、中盘股和小盘股的宽基指数中证８００作为选
样空间，并以选样空间内各行业的全部股票作为样本编制相应行业指数，属于宽基行业
指数，能够保证各行业指数具有充分的行业代表性与可投资性。

s*********l
发帖数: 103

来自主题: JobHunting版 - 分享一道最近碰到的很好的面试题。

所以对这道题来说，即使不用额外空间，时间复杂度也是O(kN)，
k的上限和N无关, 所以不能说是O(N^2),而且平均情况下k会小很多
看出现重复的概率, 没有错, 样本空间越大,重复概率越低, 平均扫描长度越长,
所以对那些假定样本空间可以无限大的情况, 最坏情况下复杂度会退化到O(N^2), 但同
样用Hash的话,最坏情况下的时空复杂度会是多少?

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天