第7页 - 关于抽样的讨论汇总 - 话题女王

P*******e
发帖数: 39399

我觉得那个数据一直不太准
但是比赛期间帖子太多不够几百根本排不进来所以也就没人太在意
我印象去年也是枯水期大家觉得排名有问题
没关系就当抽样观察了
就是不知道怎么抽样像make list还是要多多灌水 lol
不过你老确实不用在意我老在意更多的人比我灌得多。。。

N*****7
发帖数: 1899

来自主题: Tennis版 - 普通人开始跑不动的年龄分界线

这个样本不是随机的。
参加的人里 60岁的人是感觉能和年轻的竞争才参与
年轻职业很能跑的， 20-30 岁，可能也就不参与这个比赛了
15-20 岁的，跑步也还是业余，也会参加这个比赛。
结果成绩看起来就是六十岁的和三十岁的跑步差不多，有些15-20 岁的最强。
要检验“跑步成绩和年龄是何关系”，样本需要随机。比如，分层随机抽样，用身份
证号，
电话号码随机抽样。
答案如何，大家都会有直感。我感觉个人差异，生活方式，对身体表现会有很大影
响。

l***y
发帖数: 4671

来自主题: LeisureTime版 - 达摩与明心见性--揭开达摩传法实相 (转载)

没错！
本来不想再回帖了。灌水是个很上瘾的事情。每一帖都是攀缘，后果都是牵绊。开始还
知道是自己在做主，还是被牵着走，是自在还是放纵。很快就身不由己了，分不清这一
贴是不是手痒或者手欠，总给自己找些应当灌的理由。到最后就掉进去了。看不清时就
该打住，否则又灌出烦恼来。
但是你说的这个话题太切中那个啥，“灌点”了。真是欲罢不能啊。马上就有冲动想洋
洋洒洒写一篇儒释两家各流派历史上在各国的动态变迁来。所以考验一下自己，是不是
能说断就断，回完这贴就此打住。
逻辑可能比较绕，我的表达能力又很烂，对博弈论和概率模型比较熟悉的，可能容易跟
上思路。原谅我能力有限吧。
仅说观点，不结合历史案例详细展开，也尽量回避数学词汇：总的来说，我觉得文明的
兴衰是相当复杂，随机性很大，而且很难简单化地归纳的一个问题；笼统地评论一种文
化在其中起到的总的作用，可能不是人类目前的经验和智慧能够胜任的；即便能够胜任
，可能对未来也缺乏指导意义。
具体到中印两国来说，我不认为中印两种文明衰落了；从时间上看，像这样的重要文明
圈的兴衰是以百年到千百年为尺度的，衡量一大类思想对相对应的文明的兴衰的作用，
肯定也不能只看一... 阅读全帖

M********c
发帖数: 11672

来自主题: LeisureTime版 - 读书笔记-大数据时代（Big Data） Viktor Mayer-Schönberger

大数据 BIAS 还来自于为了自我保护而有意识的错填，另外还可以用公共场所WIFI进行
有关自身的搜索。是不是靠谱关键还是看用大数据进行哪方面的预测，BIAS 有多大。
其实传统统计抽样，尤其是随机抽样，一个优点就是减小BIAS。这个是大数据无法替代
的。网络数据目前来说还是有局限性的。除非全民上网，感冒了都去查相关症状，否则
还是统计各地感冒药的销售量更靠谱。

X*U
发帖数: 5518

来自主题: PhotoGear版 - 临界回归模型的连续性 (转载)

【以下文字转载自 Statistics 讨论区】
发信人: TNEGIETNI (lovewisdom), 信区: Statistics
标题: 临界回归模型的连续性
发信站: BBS 未名空间站 (Sat May 14 19:04:31 2011, 美东)
Continuity of Threshold Regression Model
我做了一个图来说明统计学中分段回归模型的连续性与数学中分段函数的连续性的区别。
说明一下：图中的临界点被假设并估计在Ｘ上（Threshold on X），它是在全样本空间
里进行迭代搜索（即每假设Ｘ的一个随机实测点为可能的临界点时就得到一对分段模型
，当样本量为ｎ时，就有ｎ对随机临界模型，每对临界模型都有一个合并的预测残差的
期望估计量）的基础上以分段模型的合并残差期望对全域模型的残差期望的相对改变为
权重而计算出来的Ｘ上的一个加权期望。所以，两个分段模型间不是ｅｘａｃｔｌｙ连
接在一起的。
我的问题是，这两个分段模型间是连续的还是离断的？为什么？（问题上站几个小时了
也没人愿意回答。还是让我自己回答好了：从统计的随机变异角度看，我们没法假设... 阅读全帖

r***u
发帖数: 1272

来自主题: WaterWorld版 - 手机扫黄一年形势不容乐观:不降反增(ZZ)

手机扫黄一年形势不容乐观:不降反增(ZZ)
“经过1年时间的整治，淫秽色情手机网站的比例不但没有降低，其总量还相对增加了
数万个。”中国科学院科技政策所博士李强说。
从2009年12月开始，中央外宣办、全国“扫黄打非”办、工业和信息化部、公安部、新
闻出版总署等九部门，在全国范围内联合开展深入整治互联网和手机媒体淫秽色情及低
俗信息专项行动。一年来，专项行动效果如何呢？
据中国科学院科技政策与管理科学研究所网络信息安全课题组（以下简称“中科院网络
信息安全课题组”）近日出炉的移动互联网违法和不良信息监测报告显示，手机扫黄形
势依旧不容乐观。2009年12月之前，中科院网络信息安全课题组随机抽样监测了2000个
手机网站，其中淫秽色情手机网站167个，占比8.3%，如今，这一比例上升至了9.9%。
色情手机网站屡打不绝
淫秽色情手机网站的变化不仅体现在数字上。监测报告还显示，色情手机网站已经呈现
出规模化、团伙化的特点。
去年6月3日，中科院网络信息安全课题组向相关职能部门举报了76个淫秽色情手机网站
，其中某些淫秽色情手机网站还被媒体屡次曝光。然而半年时间过去了，某淫秽网站不
但没有... 阅读全帖

t***o
发帖数: 19256

来自主题: WaterWorld版 - 最权威的新百家姓

2007年公安部公布结果
新版“百家姓”公布，李、张列第二三位，公安部公布了我国百家姓的最新排名，
王、李、张分列前三位，其总人口数就已达2.7亿，这接近了美国总人口数。排在前10
名的还有刘、陈、杨、黄、赵、吴、周。根据公安部治安管理局对全国户籍人口的统
计分析，王姓目前仍是我国的第一姓，有9288.1万人，占全国人口总数的7.25%。也就
是说每13个人中就有一个人姓王，这相当于四川省的总人口，比德国的总人口还高1000
万人。
中国青年政治学院姓名研究专家王大良昨天分析了王姓在北京的特点。“北京历史
上就是移民城市，这里的姓氏符合北方各个地方的特点，王姓在北京也是大姓。”他说
，北京城的王姓一部分来自河北、东北、山西、河南等地的移民，还有一部分元代的蒙
古皇族、清朝贵族，没落之后改为汉姓“王”。相传王姓汉族人是周灵王太子晋的后代
。王大良认为，这次最新排名是有史以来最准确的一次，这对了解姓氏的分布与人口迁
徙过程都有着重要意义。王大良说，“以前的排名方法，是在全国抽取50多万人进行抽
样调查，然后根据调查结果确定排名顺序，这些姓氏也主要是汉族的姓氏。“而此次的
排名，是依托公安... 阅读全帖

f**********y
发帖数: 71

来自主题: WaterWorld版 - 韩寒的代写者太无私了

我的父亲韩仁均以及他的作品(2012-01-27 14:08:14)转载▼标签：杂谈
今天一大早，我的父亲给我电话，说写了一篇文章来说明一下，问我这样写能
不能把事情说清楚了。我觉得特别的凄凉。一开始，他们说我有团队，并重金鼓励网友
举证，结果千万网友中没有人能举证出身边的亲朋好友属于我的写作团队，于是他们又
说金波是我少年成名的推手，结果发现金波98年的时候还在河南的一个罐头厂工作。他
们最后的一招就是把所有的脏水泼到了我父亲身上。说我的父亲替我写了我少年时候的
文章，因为我少年时候的文章特别的老成，不可能是17岁的学生写的。这个非常可笑，
我在很多的场合说过，我小时候喜欢阅读钱钟书梁实秋和很多民国作家，因为我觉得他
们文字好。在一个人刚开始写文章的时候，你阅读谁，必然模仿谁。而了显得渊博和少
年老成，我还摘录了很多典故或者英语，准备随时引用在文章里显摆。而我的父亲则对
民国文人兴趣不大，所以我们两人的文字非常好辨认。如果这样去加罪文学作品，我在
十七岁的时候还发表过两篇写大学生活的小说，十五岁的时候还发表过写成年人生活的
散文，当时我非常得意于杂志社的编辑都不知... 阅读全帖

H****g
发帖数: 14447

来自主题: WaterWorld版 - 王绍光清华大学演讲的整理稿：民主与抽签 (转载)

【以下文字转载自 Military 讨论区】
发信人: Herzog (singularity), 信区: Military
标题: 王绍光清华大学演讲的整理稿：民主与抽签
发信站: BBS 未名空间站 (Thu Aug 30 15:10:06 2012, 美东)
王绍光的演讲生动有趣，讲的深入浅出，即使像我这样的外行，看了也有收获。印象最
深刻的是“抽签民主”，这一点，以前数学（陈必红）多次也写过。抽签的实质是随机
抽样，只有随机抽样，才能解决大样本的代表性问题。也就是说，只有抽签，才能真正
的实现representative democracy所声称的代表性。当然，光是有代表性，仍然不足以
实现民主，这就需要群众性的参与，也就是毛泽东思想里的群众路线，王给群众路线起
了一个洋名，"qunticipation"，"qun"就是群众的意思。
总之，王绍光的这篇演讲，还是很值得一看的。内容也很丰富，可以从中大致了解毛派
对民主制度建设的观点。
=============================================
王绍光：民主：独轮车还是四轮驱动
来源:本文为... 阅读全帖

a**********t
发帖数: 9684

来自主题: WaterWorld版 - 黑梅之死将近，一个自以为是的巨人倒下

尼尔森家的数据都是抽样的，抽样误差天晓得

a******9
发帖数: 20431

来自主题: WaterWorld版 - 这个周末国内综艺节目的收视榜

抽样的
每个城市都有若干户家庭属于被抽样对象每家有一个类似于机顶盒的东西自动把收
视情况传回调查公司

t******n
发帖数: 2939

来自主题: WaterWorld版 - [合集] 黑梅之死将近，一个自以为是的巨人倒下

☆─────────────────────────────────────☆
Zildjian (佛挡杀佛,鬼挡灭鬼) 于 (Fri Sep 20 17:49:05 2013, 美东) 提到:
没有谁会接盘，上万名愚蠢的研发者不懂潮流。堕落到连三星也不如的地步。
不知道中国公司会不会买黑梅，买了是愚蠢。
☆─────────────────────────────────────☆
P235 (老来多健忘能饮一杯无) 于 (Fri Sep 20 19:19:21 2013, 美东) 提到:
我想用全键盘的手机，不习惯触摸屏
☆─────────────────────────────────────☆
nnutsudu (nnutsudu) 于 (Fri Sep 20 19:22:00 2013, 美东) 提到:
发贴也稍微有点态度
你怎么不写成黑霉黒煤呢
☆─────────────────────────────────────☆
suyihan (苦尽甘来) 于 (Fri Sep 20 20:45:26 2013, 美东) 提到:... 阅读全帖

x*****g
发帖数: 1067

来自主题: Joke版 - 44.7%（比77给力啊）

http://news.sina.com.cn/c/sd/2011-01-11/001121792602.shtml
2009年家庭收入与幸福感的关系
2009年收入与幸福程度关系
不同幸福感群体2007年除基本生活外的实际支出
8万人的幸福答卷
——CCTV经济生活大调查发现的中国幸福观
北京大学国家发展研究院副院长I胡大源 ●夏雨春杨子霄
2009年，哈佛大学心理学家巴泽曼教授的名著《管理决策中的判断》出了第7版，
他将人们在管理决策中常见的判断错误归纳为三类，其中第一类是“可得性启发式偏差
”，简单地说就是：那些容易回忆、便于从人们记忆中提取的信息，往往容易导致决策
偏差。
在现实世界，这样的实例层出不穷。2004年国内某媒体的一篇文章激起了公众对一
次性木筷的口诛笔伐，进而升级为两会提案，促使国家有关部门2006年作出决策，对木
制一次性筷子加征了消费税和出口关税。
2006年底，笔者跟随北京大学周其仁、卢锋两位教授到黑龙江调查才发现，一次性
木筷的生产并不是像媒体报道的那样“一采光”式的对天然森林资源的“毁灭性的采伐
”，而是间伐以速生林为主的杨木桦木。然而不到一年的光... 阅读全帖

R********n
发帖数: 657

来自主题: Belief版 - 2008年高校基督徒群体现状分析(zz)

作者：中国社会科学院唐晓峰
2008年，大学校园中的“基督教热”现象仍持续升温，大学生信教问题颇受关注。众多
数据显示，这一群体中，基督教信仰者的比例要远远高出普通民众的信教比例。2008年
初，一份在上海地区六所高校及研究机构进行的抽样调查报告显示，大学生中信仰基督
教的人数为4.7%，远远高于上海市基督徒1.07%的比例。[1]在北京地区高校中的情况同
样如此，根据2004年左鹏发表于《青年研究》上的调研报告推测，在北京某大学中的基
督徒学生数量占该校学生总数的1.8％，远远高出当时基督徒在北京市总人口中所占的0
.23%的比例。[2]而左鹏的这一统计数字要低于大部分相关研究.2002年，在中国人民大
学进行的一项题为“当代中国大学生对基督教信仰的理解特征”的调研结果显示，有 3
.6％的受访者明确认信基督教，而在2008年，由该课题组在中国人民大学以同样题目进
行的试调研的结果显示，这一数字为2.8％；2008年9月“高校学生思想信仰情况调查”
课题组在人民大学获得的数字为3.8％。
同时，据多项调查显示，大学生信徒多为入校后信教的。2004 年，左鹏的抽样数据表
明，在82名

M******a
发帖数: 6723

来自主题: ChineseClassics版 - 网文：70年前的一场考试 (转载)

【以下文字转载自 Military 讨论区】
发信人: Mayingba (马英八：我弟弟要滚蛋鸟), 信区: Military
标题: 网文：70年前的一场考试
发信站: BBS 未名空间站 (Sun Mar 27 22:52:22 2016, 美东)
公元八世纪初，中国唐朝时期，日本出了一个女天皇，叫做元明天皇。元明天皇在位仅
8年，却做了一件影响后世极为深远的事情：改了全国地名汉字。
原来，在那之前，汉字尽管已经传入日本，但用法并不统一。官方用来写公文书、史书
，民间用来做发音符号。甚么叫做「发音符号」？就是如同我们把Malaysia翻译成「
马来西亚」一样，是用来表音，没别的意思，不能照字面解释成「一匹马来到了西亚」。
所以，看官们来到日本玩，看到诸如「我孙子」这类的地名，先别忙着笑人家。「我孙
子」固然看着滑稽，但「马来西亚」又与马何干？这都是拿汉字表音的结果。
当时日本国内用汉字取地名，取得一片纷乱。有的取成了三个字，有的又取成一个字
。日本现在有不少地方，名称为「武藏」（MUSASHI），当年的名字可滑稽了，有的叫
「无邪志」，有的叫「牟射志」，有的还叫「... 阅读全帖

v*******e
发帖数: 1715

来自主题: Thoughts版 - Re: 请教另一个逻辑问题

这里谈了抽样检验,主要是抽样比例和置信度(支持度)的关系.这是
对命题的支持.
还一种是对实用的支持.则和比例无关.
比如你见过100个天天鹅,都是白的,那么,在相同环境下,你认为天鹅
都是白的,出错的可能<1/100.
相同,你选了100个不是白的,结果都不是天鹅,那么,你继续以相同方法选,
只要不是白的,你可以认为都不是天鹅,你可以相信出错的机会<1/100.
这样,比例其实隐藏在你以相同方法选东西的过程中.
但这种实用原则的支持,注重的是出错概率,而不是对原命题的支持.
判断出错的概率和对命题支持的程度分离,是我这里要说的.
...这样说可以么?

b********h
发帖数: 2451

来自主题: TrustInJesus版 - 基和非基都来看，这篇基咬基的博客。基们怎么看？

呵呵，管他搭不搭
你是在我骂你之后才抛出来的，所以不是我没有理由才骂你，而是你没有理由胡吵，我
才骂你。
你承认吗？为什么避而不答呢？
广州某个教会抽样，单样本抽样，你真幽默啊。
另外你别忘了，你口中高大上的高校，很多都是教会创办的！
再有，中国教会信徒素质低，这不是教会之过，而是教会之功，
早期的宣教士，放弃繁华的大城市，而是深入中国落后的内地，给底层民众带来福音也
带来生活的关怀，比如饮水改善，基本医疗，以旧中国民众受教育的程度比例，教会总
体信徒素质当然不高。到新中国历次政治运动，城市教会受冲击最严重，偏远地区的教
会反而不少幸存。改开后信仰复兴，教会发展从农村最先开始，理所当然。
所以，你摆弄那些数字，却不去结合历史事实正确的解读，毫无意义。

w***o
发帖数: 151

来自主题: Hubei版 - 依法抢劫

上升不明觉厉，“依法抢劫”的几个未解之问(原创首发)
流年蝶梦1 12月26日 08:56
日前，湖北电视台曝光黄冈黄州区食品药品监管局执法人员执法乱象。一家粮油店监控
显示，执法人员不断地往店外搬运商品，与店家发生语言冲突，竟语气惊人地称“依法
抢劫”。面对不出示执法文件的质疑，执法人员表示，“人在屋檐下，岂能不低头”。
黄冈市食药监局官员表示，抽样检查应当出票购买，而不能随意搬拿。据悉，黄州商城
商家普遍反映，黄州区食药监执法乱象普遍，罚款金额却无标准。商店内过期商品，对
尚未销售出去，本应销毁即可，黄州区执法者却发出多则上万元的罚款。（未来网 12
月25日）
“依法抢劫”，在笔者印象中，在让人悚然动容的程度上能够与之媲美的恐怕只有“我
爸是李刚”这句话了吧。而这句话背后透露的信息更是让人惊诧，我们不妨一一问来。
首先，“依法抢劫”依的是什么法？执法队员因“怀疑店内某品牌食用油有问题”，就
可以以“调查”为由一次性带走“样品”36瓶？且不说按照规定，抽样检查应当出票购
买，也不说“怀疑”便可以带走这样的理由是否充分，仅一次性带走36瓶这个数量就值
得商榷。如果有证据证明该品... 阅读全帖

m*y
发帖数: 5861

来自主题: Zhejiang版 - 北美是没有爱情的地方。

你抽样是在工作以后30+的人里还是校园或者20左右的人群里？还有抽样样本大小是多少

m********5
发帖数: 17667

来自主题: Programming版 - How to find the best fit dimension of Polynomial interpolation/curve fitting ?

肯定是越高次fit越好，但这没有任何意义
一般会根据复杂程度进行惩罚，但在没有物理模型指导的情况下，统计上的惩罚度只能
是经验性的，没有太大意义
说个最土的，你随机重抽样你的data pool，得到一个子样本. fit子样本以后拿去匹配
剩下的样本，看哪个fit更好。
然后多重复几次随机抽样，看fit参数是否稳定

h*i
发帖数: 3446

来自主题: Programming版 - 王垠的40行代码是干嘛的

https://github.com/yinwang0/lightsabers/blob/
6a66c294d4c4217efebfdeae18ee4697d802f79e/cps.ss
他那段代码的功能，是自动把正常风格的代码转换成CPS风格（Continuation-passing
style）的代码，所以叫CPS transformer。
CPS是啥？就是一种编程风格，每个函数结尾，不是直接返回结果，而是调用并把结果
传给一个“下一步”函数。当然这个“下一步”函数，也是从外面传进来的，所以CPS
风格的函数要比正常风格的要多一个参数。
CPS有啥用？很多编译器需要。代码转成CPS之后，很多事机器更容易干。
比如说，你想发明一个高大上的能自动作贝叶斯推理的编程语言，就是现在前沿的所谓
叫probablistic programming language的东东，这种语言的执行不是常见的按代码顺
序执行，而是基于对一些随机变量抽样的结果来决定下一步作什么。要实现这样的一个
语言，一个容易的办法，就是把常规代码先转成CPS风格的，在每次调用“下一步”函
数之前作抽样。
另外一个例子，比... 阅读全帖

I****s
发帖数: 467

来自主题: Accounting版 - 说说对auditing的看法，以及求职业发展建议

我觉得yeyuan2说得挺对的啊.
拿抽样的来说, 抽样软件说抽36个,但具体抽哪36个就是你个人判断了. 如果发现抽的
样本错了一个,那么换一个对的放到样本里面就是了.你硬要放错的进去,那就是自己找
麻烦了. 我下面一个项目两个星期要做完final,别人都很快做完了,你还在那里磨磨叽
叽,别人会认为你比较差拉.
不过这个度比较难掌握, 错一个可以换,错两个呢? 3个呢? 要到多少才觉得是真有问题
了? 5个?

s*******8
发帖数: 14

来自主题: Accounting版 - 说说对auditing的看法，以及求职业发展建议

看了楼主的回复,我感到很难过. 我也是CPA,也曾在美国四大做了4年. 很不敢苟同楼主
的观点. 业界就是把外审当经济警察的. 我们既然吃这口饭的,就要有应有的职业道德.
虽然我们有时间的限制,我们还是应该遵守审计的准则规范,而不是客户怎么高兴怎么
来. 当然也不是和客户对着干. 和客户保持良好关系并不等于放弃我们的准则迎合他们.
另外,楼主所说的很多的蒙混过关的细节,比如抽样调查发现错误,直接换掉不在工作底
稿中做说明.这跟会计作假帐无异. 客户一般都会留有你抽样的清单, 电子邮件也都留
有底. 以后如果出问题,很容易就查得出来. 我有朋友在Fraud Detection部门作过,就
对美国这边的信息搜索技术深感震撼. 另外,抽样调查的具体方法都是由很严密的统计
方法得出的.错一个该怎样,错两个又应得什么结论,都是有统计基础的. 不应该自己觉
得没问题就忽视它. 有些抽样是从几万甚至上百万样本中得的,在这么大的样本中只拿
25个就碰巧有1,2 个有问题,你不觉得整个样本有点可疑吗?
无原则地应付客户和上级,短期内可能无害,甚至好处多.长期里,职业生涯很可能受阻,
甚至毁了(假如不幸,

y*****2
发帖数: 2435

来自主题: Accounting版 - 说说对auditing的看法，以及求职业发展建议

我个人的感觉
1. 我是以Client Service为第一位的，谁掏钱谁是爷。我绝对不会怀疑一切。我们不
是警察，我们也没有警察的义务。凡是能不看的，我都不看，凡是不需要做的，我都不
做。客户怎么高兴怎么来。举个例子，去点存货，一个箱子，4000磅，那么多箱子的货
物，统一都是4000磅，我拿出来一个称一下，4000磅没问题，然后敲敲其他箱子，挺满
的，就完了。以前其他人点，要每个样本都称一遍，点到晚上7点，弄得客户很不高兴
，你不点完，工厂就不能开工，一个工厂，每个IDLE的小时耗资3-4万刀。。。你说你
点一天，客户能爽了？我过去就点了1个多小时完事，客户很高兴，请我大吃了一顿。
2. 至于我这么做是不是有错误/舞弊不能发现，那是绝对的。我的第二个理解就是，审
计压根就不是保护投资者，也不是保证Financial Statement is not materially
misleading.审计，作为一个为客户服务的行业，我们为目标就是，在自己不用蹲监狱
的情况下，最大限度的满足客户的各种要求。而我们从第一天开始干的说有事情，就是
为了将来万一出了问题，我们有足够的证据证明我们做... 阅读全帖

I****s
发帖数: 467

来自主题: Accounting版 - 说说对auditing的看法，以及求职业发展建议

s*******8
发帖数: 14

来自主题: Accounting版 - 说说对auditing的看法，以及求职业发展建议

y***i
发帖数: 11639

来自主题: Biology版 - 大家发文章用standard deviation，还是standard error？

我觉得是sunnyday对。证据是比较两个数据组用ttest，而ttest的公式计算的是SE。
另一角度可以这么想：你的数据组抽样越多，SE越小；同时数据组抽样越多，越能可靠
的确定两个数据组的细微差别。所以sunnyday说比较平均值的差异该用SE是对的。
但直觉上看用SE其实不爽。因为我们更希望整个数据分布有大的差异，which is SD.

l***y
发帖数: 4671

来自主题: Biology版 - 大家发文章用standard deviation，还是standard error？

呵呵，这就是我为什么说你的数学公式都是对的。但是统计思想和统计概念更重要。这
里涉及到的，一个是假设检验的思想，另一个是 model and sample 的概念。
假设检验的目的是帮助决策。所谓决策，就是 decision。比如说，下个结论，说有显
著区别，这个产生结论的过程就是一个决策。我们时时刻刻都在做决策，小到一个标
点符号的选择，都算决策。而假设检验是为了给理性决策提供依据，却并不能代替决策
本身。这就是我提到的，假设检验本身并不能证明任何事情。
具体到 t-test 上。在统计意义上，我可以比较安全地认为，在所有情况下，只要 n
足够大，对任意两个分布采样后用 t-test 都可以计算出其均值有显著差异。做这样的
判断的错误概率相当小，尤其是在你说的这种群体数目有限的情况下。但这有意义么？
再进一步讲，一个判断的意义，在于其信息的含量。我做的上述判断，有信息含量么？
会对决策有贡献么？如果没有，那么这样的假设检验，有意义么？
而大部分人不会故意在 paper 里放上没有意义的工作。那这种没有意义的假设检验的
实际意义何在呢？为发 paper 为自己的结论做个包装而已。
所... 阅读全帖

y***i
发帖数: 11639

来自主题: Biology版 - 大家发文章用standard deviation，还是standard error？

l***y
发帖数: 4671

来自主题: Biology版 - 大家发文章用standard deviation，还是standard error？

p*****c
发帖数: 20445

来自主题: Biology版 - 沙特国王大学（KSU），有愿意来沙国做博后的三思而后行吧 (转载)

【以下文字转载自 Military 讨论区】
发信人: pacific (hh), 信区: Military
标题: 沙特国王大学（KSU），有愿意来沙国做博后的三思而后行吧
发信站: BBS 未名空间站 (Mon Aug 12 14:29:00 2013, 美东)
搜索沙特国王的title，无意中看到这个。。。
作者: xintangren (站内联系TA) 发布: 2011-10-31
已经进驻沙特国王大学（KSU），感觉还可以。教授帮忙联系我住在大学生宿舍，距离
实验室很近，走路大概也就5分钟的路程。来程的机票都是这边大学买的，教授说最多
可以提供4位家人的机票，可惜我只一个人来了。学校提供可以免费最多住十天的宾馆
。已经体检了，等着签合同，估计年薪应该过得去，有愿意来沙国做博后的尽管来吧。
唯一遗憾的是整个大学里找不到女生，更别说想找个女人说上两句话，估计至少一年时
间内现实生活中听不到女人的说话声音。。。
现在很郁闷，水土不服，宗教不服，科研环境不服，老板总是一惊一咋的，时而愤怒，
时而高兴，限制科研面很窄，思想不自由，意见总是不和，连最喜欢用的Latex也不允... 阅读全帖

c****n
发帖数: 21367

来自主题: ChineseMed版 - 牛奶喝愈多，骨折率愈高

原来你的“有效”就是这个概念，你是做毒品还是做药物啊？大米抽样例子讲解的
分布一致性对抽样的影响你懂吗？呵呵。
明显，微小的变化当然
很多，但是吃药这种事情是重大的干预，相比之下小的干扰可以忽略。其二，有些人始
终没有明白的是临床试验
只是最后的一个证明而已，一个疗法，早就从分子水平，细胞水平，动物水平，人体代
谢水平，流行病，病例，
病理水平多方面多方积累观察过了。相关的重要变量早就被人注意到了。
hoho，“小的干扰可以忽略”，“相关的重要变量早就被注意到了”。凭什么？
凭你上下嘴巴皮子一动，凭无知者无畏嘛。
你问问学生物的人，他们明白了代谢过程里全部“相关的重要变量”吗？你问问化学，
酶催化作用搞明白了嘛？生物化学都不明白，基于生物化学之上的一个应用学科，
有个屁的“明白”可言。
BES潜伏期十多年，要不是有致死效应，比如只是让人智商下降，就不可能察觉到PrP，
英国人还会继续拿疯牛肉喂牛。你怎么知道搞进去的药物没有跟PrP类似的效果？
或者更糟糕，没有“生物标志物反应”，但是对健康有系统性损害。你拿什么比对试验
能看出来？
还是你在分子水平细胞水平动物水平人体代谢水平流行病水

m****t
发帖数: 570

来自主题: Mathematics版 - 恽自求教授的另外一篇文章

哈哈哈，Shannon抽样定理也出来了
之前说的Shanonn定理可从来不是指Shannon抽样定理
你又在做梦了？

w**********y
发帖数: 1691

来自主题: Quant版 - 请问Markov Chain Monte Carlo和 Monte Carlo根本性的区别是什么？

本质都是随机抽样,大样本去近似估计以关心的统计量.
区别是如何做随机抽样. MC不能做的,就用MCMC了.
MCMC在统计领域火了这么久,就是因为你可以随便做非常复杂的model,基于MCMC都能给
estimation/model calibration..(但是对错不保证.哈哈)

l*******z
发帖数: 108

来自主题: Quant版 - 欧美是怎么做index arbitrage的？

long 一篮子股票，short index future?
怎么选这一篮子股票呢？全复制指数？还是抽样？怎么抽样呢？
不知道有没有人有过经验

l*******z
发帖数: 108

来自主题: Quant版 - 欧美是怎么做index arbitrage的？

long 一篮子股票，short index future?
怎么选这一篮子股票呢？全复制指数？还是抽样？怎么抽样呢？
不知道有没有人有过经验

m*****s
发帖数: 175

来自主题: Statistics版 - 一道概率题

考虑不放回连续抽样
let xi=第i次抽样结果
P(A win)=
P(x1=white)+P(x1 to x2=red)*P(x3=white)+P(x1 to x4=red)*P(x5=white)+P(x1 to
x6=red)*P(x7=white)
=3/10+(3/8)(7*6)/(10*9)+(3/6)*(7*6*5*4)/(10*9*8*7)+(3/4)*(7*6*5*4*3*2)/(10*9
*8*7*6*5)
=7/12
P(B win)=5/12

s*****n
发帖数: 2174

来自主题: Statistics版 - 到底怎样正确理解confidence interval才好

传统的Frequencist的解释大体是:
1. 真值是fixed, but unknown.
2. 根据一组样本, 计算一个95%置信度的置信区间
3. 如果你(理论上)重复抽样很多次(比如N次), 每次都计算一个相应的置信区间. 那么
95%的情况下, 置信区间会覆盖住真值. 或者说真值(确定不变的)落在置信区间(根据样
本变化)之间.
最重要的是: "假如我们可以重复这个抽样很多次..."

D*********2
发帖数: 535

来自主题: Statistics版 - 求助 R sample in matrix form

不好意思麻烦下各位R高手～
我现在有两个矩阵，A, B, 还有一个同样的概率矩阵，要从A,B中抽样建一个新的矩阵U
。U中的每一个element, 都是从A ,B中的对应位置依bernoulli(P)抽样，P也是同样的
对应位置。
按理说是很整齐的格式。但R里面这个sample好像只能处理按元素处理？
有没有什么省时的方法，谢谢谢谢。
> (A <- matrix(1:12, 4, 3))
[,1] [,2] [,3]
[1,] 1 5 9
[2,] 2 6 10
[3,] 3 7 11
[4,] 4 8 12
> (B <- matrix(rep(c(1:3),4), 4, 3))
[,1] [,2] [,3]
[1,] 1 2 3
[2,] 2 3 1
[3,] 3 1 2
[4,] 1 2 3
> (P <- matrix(runif(12), 4, 3))
[,1] [,2] [,

m**c
发帖数: 88

来自主题: Statistics版 - X 是随机变量, 那么 X + X 等于 2* X 吗?

真实丢人了！
我搞错了一个概念，“独立的” 或 Independent，
我似是而非的认为独立是指的两个分布互相独立！ “独立”这个词应该是指的从某个
分布中抽样得到的样本（observations, realizations）之间相互独立。http://en.wikipedia.org/wiki/Independent_and_identically-distributed_random_variables
没搞清楚这个独立的概念，所以出现了以下矛盾的结论：
x~N(0,V)
从这个分布中抽样，得到n个observations的和，
y = x1 + x2 + x3 + ... + xn
y 的分布是什么样的？
按照我的理解，因为x1,x2,...,xn来自同一个分布，所以他们的"分布是不独立的"，所以
y ~ N (0, n^2*V).
但独立指的是哦bservations之间独立，所以他们是独立的
实际上 y ~ N (0, n*V).
我有好好看了各位人心网友的回帖，有些已经看出我的问题了，但是我没懂。
哈哈
不管怎样，谢谢这么多热心网友。
如果文章发表成功，我会Ackno

T*******I
发帖数: 5138

来自主题: Statistics版 - 弱问一个概念

首先指出你没有说清楚你的问题，因为在你的问题中混淆了有关概念。
一般来说，当我们计算一个样本的standard deviation（中文翻译是标准差）时，这个
standard deviation指的是该样本中所有点对其分布的期望位置的标准离差，而不是说
它是sample mean的标准离差。这是一个衡量整个样本中各样本点的随机变异性的统计量。
而对于standard error of mean（中文翻译是均数的标准误）来说，它指的是当从同一
个总体中多次抽样时，你就会得到多个样本，而每个样本包含一定数量的个体观察单元
，此时，各样本均数本身就成为一个随机点，因而各样本均数就会构成一个随机分布，
而这个分布同样也有一个期望位置，因此，根据上面计算一个样本的standard
deviation的相同逻辑，我们也可以计算多个样本均数构成的分布的随机变异性，这个
变异就被称为standard error of mean，以便与前面的standard deviation相区别。
然而，问题是，通常情况下我们不会对同一个总体进行多次抽样（这在经济上、时间上
、环境上可能都不允许），而是仅用一次抽

v*****a
发帖数: 1332

来自主题: Statistics版 - 海量SAS data的处理

。。。。
那我再把问题简化，
一个200长度的相量，每个元素就是一个超级大的数字，超级超级超级大那种，每个元
素的大小就是1G，
现在我要算STD，
这个你能抽样么？
你还能把我1G大小的一个数字抽样成"1m或1k" ？？

you

T*******I
发帖数: 5138

来自主题: Statistics版 - 统计学的新地平线——陈立功与他的自权重曲线

我从来没有说过Sample是Fixed。我只说过样本中的所有随机点以及样本统计量都是随
机常量，亦即，整个样本是总体的一个随机代表以及对总体参数的一个随机估计而已。
既然样本是一个随机代表，因此，样本中的最大最小测量结果不能被用来做最优化决策
，因为在抽样基础上对应于最大最小测量的那个统计模型或决策中的全部统计量构成的
集合仅仅是一个随机的点集合而已。我们需要的是一个对应于诸如likelihood或一般“
optimizer”的期望的统计量集合所决定的统计模型或决策。只有这个对应才是随机系
统中比较稳定的对应关系，因而是可以被“期望”的。
所谓统计量的可信区间，是由于抽样导致的对样本统计量所要推断的总体参数的一个估
算模型。它仅仅是依据样本数据而构造的一个随机测量的方法。任何人都可以另外构造
一个不同的方法从而带给我们一个不同的估计。不过，既然统计学的前辈提出了一个合
理的分析逻辑和算法，大家就不妨接受它并因此而建立一个能带给我们一致性测量结果
的工具。
显然，如果能够得到总体的全部个体，我们就不需要可信区间了。遗憾的是，这是不可
能的。
最后，我对Bayesian Statistic... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 统计学的新地平线——陈立功与他的自权重曲线

非常感谢各位从不同的角度以不同的方式为我提供的指导和帮助。我会潜心思考这些问
题。
让我在此提出一个简单的疑惑：对于某个被定义的总体，可以对其任一随机training样
本做CV的validation样本（相同抽样条件下的、不同抽样条件下的）具有无穷性，大家
怎么从逻辑上解释究竟要做多少次validations才能被认为是有效的？

T*******I
发帖数: 5138

来自主题: Statistics版 - 我说老陈，咱别玩儿虚的了。你给说明一下这个简单的例子

在我看来，如果对未知总体的样本量只有20例，那么，其连续型变量的最大最小测量之
间的一个连续空间就构成了一个尺度空间，而每个个体的测量结果就构成了一个样本空
间。如果将这２０人的身高和体重描绘在一个二维空间里，为什么我们不能说这个包括
２０个样本点在内的二维空间就是这个样本构成的一个样本空间？这是一个令非数学背
景的我感到困惑的地方。
样本是统计学里最重要的核心概念。一个样本就是我们能够获得的对外部未知世界的经
验事实，是我们因此而可以获得有限认识的基础。离开了这个基础，We can do
nothing. 但我们又不能将认识仅仅停留在这个直观的样本之上，因为它仅仅是一个随
机得到的子集。由此，我们形成了样本的代表性的概念。没有什么magic的数学理论可
以解决样本与其总体间的联系的确定性问题。这个就是一个认识上的信心问题。
要想使得一个样本对总体具有代表性，抽样时就要满足随机和足量的法则。终极地说，
真正做到这两点实际上都极其的困难，因为总体具有无限性且一般来说未知，因而“随
机”和“足量”都是很难被较好地定义的。
以上算是对问题（１）的不成熟的回答。
至于问题（２），我觉得那个抽样... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天