由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
_kaleege版 - 方粉们看看逻辑和数学吧:弱质疑和忽悠能“串”成强证据链吗
相关主题
PSU访问学者破破的桥:韩寒代笔探讨:强质疑、弱质疑、和忽悠男人女人择偶如同做选择题 (转载)
艾未未采访网络评论员文字整理稿(一)《忽悠的原理和技巧》之一 —— 模糊标准 原作者:断桥
文革究竟是谁的错? (转载)学术一下,你们觉得这个周克华是不是可疑啊
送方粉:弱质疑和忽悠能“串”成强证据链吗?并浅析阴谋论得以奏效的数学基础。四个人集体自杀很可疑,很可能是老大先毒死3个小的
遭逮捕指控间谍又撤诉 华裔科学家:美国确实是民主国家(转帖)【加点醋】将军们喜欢什么类型的国妞?四个选项超级劲爆! (转载)
韩寒代笔探讨:强质疑、弱质疑、和忽悠 zz【加点醋】将军们喜欢什么类型的国妞?四个选项超级劲爆!
让我们来欣赏一下方舟子的“推理”我可爱的娘呦~~~~~
开始说是五毒所的现在说美帝投毒的都是先入为主这里牛人多,请问performance engineer到底什么地位,和developer比呢
相关话题的讨论汇总
话题: 疑点话题: 代笔话题: 质疑话题: 韩寒话题: 可疑
1 (共1页)
k*****e
发帖数: 22013
1
【 以下文字转载自 WaterWorld 讨论区 】
发信人: riczxc (riczxc), 信区: WaterWorld
标 题: 送方粉:弱质疑和忽悠能“串”成强证据链吗?并浅析阴谋论得以奏效的数学基础。
发信站: BBS 未名空间站 (Mon Feb 6 10:45:35 2012, 美东)
原作者:被打飞
地址:http://blog.sina.com.cn/s/blog_56fc0caa0100zryz.html
弱质疑和忽悠能“串”成强证据链吗?并浅析阴谋论得以奏效的数学基础。
@被打飞
方韩争方兴未艾,但真正有水平的发言不多。昨天我的老朋友 @破破的桥 的文章《韩
寒代笔探讨:强质疑、弱质疑、和忽悠》则毫无疑问的算一篇(我感觉是最好的一篇)。
http://blog.sina.com.cn/s/blog_56fc0caa0100zp8d.html
概括来说,这篇文章把“质疑”分为三种,强质疑(找到发生概率仅为0.1%或更低的事
件,下称强疑点),弱质疑(找到发生概率20%的事件,下称弱疑点),忽悠(拿发生
概率50%甚至更高的事件当疑点)。他指出,目前质疑派并未提出强质疑,有的只是弱
质疑和忽悠。
这篇文章写的非常之好,观察一下“质疑派”的反应,似乎也承认或默认目前没有发现
强疑点。不过,我看来可惜的一点是,破桥文章并没有讲清弱疑点为什么“弱”的关键
因素。
果然,很快不少人提出,弱疑点能够串起来增强质疑力,形成力度等同于强疑点的“证
据链”。其中,@虚逐子的反驳文章《只见树木不见森林》是典型。这篇文章甚至用数
学手段示范了如何将忽悠级别的“疑点”组合成强证据链的。
一应用到数学,就有一个好处:正误标准一清二楚,用对了就是对了,不对就是不对,
非黑即白,不存在中间状态。我们下面就来检查一下此文中数学的应用。
@虚逐子 原文如下:
http://blog.sina.com.cn/s/blog_809332ae01011o5v.html
“我们来看看证据链是如何显著增强孤立“忽悠”的可靠性的。有这么四个“忽悠”:
韩寒不知道《三重门》名字的来源;《求医》描述了一个他没出生年代的医院场景;病
情描述和疥疮不符;视频访谈谈到赛车和女人时可以谈得眉飞色舞,但是谈到文学,特
别是谈到以他的名义出版的那些作品时,他就一问三不知。假设韩寒没有代笔,这四个
质疑是独立的,每一个几率是50%,50%的四次方=6.25%,这已经是很强的证据。并且形
成了一个完整的指向韩文代笔的证据链,其可能性93%以上。如果进一步增加独立的或
者弱相关的证据,这种可能性会更多,也许会达到能够接受的可能性。”
他这段写的有点不清不楚,甚至还存在基本概念上的混淆。不过未必人人都受过严格的
概率学训练,不强求。我先帮助他把意思说的明确和严格一些。
@虚逐子的意思是,假定从韩寒作品里找到ABCD四个疑点,如果韩寒真的没人代笔,每
个疑点出现的可能性仅为50%,且相互独立。那么韩寒没代笔情况下该四个疑点同时出
现的概率为50%的四次方,即6.25%,这是个较小的数字,反过来似乎说明了韩寒没代笔
的“不可能性”。在统计学上,这种的数字小于5%,则认为可以构成“无代笔”的强证
据。
(对概率不熟悉者此段可跳过当然,后面@虚逐子网友画蛇添足的将此解释为
“其(代笔)可能性93%”以上,是个错误,反应出他不理解逆概公式。但这不是个关
键。因为统计学上,对某个假设的排除可直接根据原始p值,即这里计算得到的6.25%来
进行,并不用计算逆概。)
很可惜。这种计算是完全错误的。为什么错?为什么忽悠和弱疑点不能这样叠加成强疑
点?@破破的桥的解释是,这些弱疑点不独立(也就是说,某个出现的话,其他的更有
可能出现),因此概率上不能直接相乘。这是原因之一。但不是主要原因。因为既然弱
疑点能找到很多,不排除其中有真正独立的,几个独立的一乘下来,证明力不就指数上
升,真的形成强证据链了吗?
其实,弱疑点串不起来关键原因很简单:未考虑总样本数。一个简单的例子就能说清:
扔硬币。假定我每扔一枚硬币,如果不作弊的话,正反面概率各为50%。我扔了100次,
每次都把结果记录下来。最后正反面各约50次。然后你想来“质疑”我,采取一种方案
,偷偷把我的记录中,所有出现硬币“反面”的结果抹去,换句话说,只把“正面”的
结果拿出去给人看。然后别人会惊奇的发现,50次正面!如果没作弊,这样的概率是多
少呢?50%的五十次方,实际上就是零。因此一般人都会感觉我肯定作弊了。但是,如
果我告诉大家这五十次正面是我通过扔一百次硬币得到的,大家马上就明白:这没什么
不正常。
聪明的读者可能已经看出来了,这已经解释了@虚逐子 方法错在何处。下面我们再不厌
其烦的针对他的具体例子做些较严格的数学计算。
为展示虚竹子的错误和运算方便,我们不妨把50%这个数值再调小一点,变成10%。也就
是假定虚竹子真的找到了4个“弱疑点”,而不是什么忽悠。按照虚竹子的计算,如果
韩寒没代笔,则四个疑点同时出现的概率将是10%的四次方,也就是万分之一,这无疑
是很小的一个值,似乎更可以排除“无代笔”的假设。
但是,别忘了,这四个疑点是翻遍了韩寒的大量作品和访谈才找到的。为了描述方便起
见,假定这四个疑点是韩寒作品中出现的四句话。而韩寒作品中与代笔问题有关联的话
共有100句(这显然保守了),如果韩寒无代笔,则每一句达到此可疑程度的概率均为
10%。那么问题正确的提法应该是:如果韩寒无代笔,找到4句以上此种可疑程度的话概
率为多少?我们来计算一下。为简便起见,仍然不考虑相关性。
先用常识判断。既然每一句如此可疑的概率为10%,则100句中如此可疑的话总数应为
100×10%=10句
能挑出四句或更多的可能性极大。
再看看数值计算,具体公式这里不演示了,可利用二项分布或其正态近似。粗通统计学
的本科生都应该会算,否则相应课程考试无法及格。答案约为98%。
换句话说,因为没考虑产生疑点的“样本总量”,将98%的可能性,误算成万分之一的
可能性!
实际上,在统计学中,这叫survivial bias。也就是说,专挑可疑的,但不看这些可疑
事件是从多大样本量里挑出来的。而样本量足够大后,总能挑出来足够多,放在一起挺
吓人的。但其实什么都说明不了。
这就是“弱质疑”到底弱在哪里的真正原因。有趣的是,我认为这正是一切深文周纳的
阴谋论得以奏效的本质原因。有点可疑但不那么可疑的事情单独挑出来放在一起,对旁
观者造成很大震撼,这时候,就算别人指出还有很多事不可疑,但人类心理天然反应,
对那些不可疑的事情不大关心,但就是惦记着可疑的那些。此时,懂一点数学,就能有
效的防止被忽悠。(我这好像成了现场反驳韩寒的数学无用论?)
k*****e
发帖数: 22013
2
【 以下文字转载自 WaterWorld 讨论区 】
发信人: riczxc (riczxc), 信区: WaterWorld
标 题: 送方粉:弱质疑和忽悠能“串”成强证据链吗?并浅析阴谋论得以奏效的数学基础。
发信站: BBS 未名空间站 (Mon Feb 6 10:45:35 2012, 美东)
原作者:被打飞
地址:http://blog.sina.com.cn/s/blog_56fc0caa0100zryz.html
弱质疑和忽悠能“串”成强证据链吗?并浅析阴谋论得以奏效的数学基础。
@被打飞
方韩争方兴未艾,但真正有水平的发言不多。昨天我的老朋友 @破破的桥 的文章《韩
寒代笔探讨:强质疑、弱质疑、和忽悠》则毫无疑问的算一篇(我感觉是最好的一篇)。
http://blog.sina.com.cn/s/blog_56fc0caa0100zp8d.html
概括来说,这篇文章把“质疑”分为三种,强质疑(找到发生概率仅为0.1%或更低的事
件,下称强疑点),弱质疑(找到发生概率20%的事件,下称弱疑点),忽悠(拿发生
概率50%甚至更高的事件当疑点)。他指出,目前质疑派并未提出强质疑,有的只是弱
质疑和忽悠。
这篇文章写的非常之好,观察一下“质疑派”的反应,似乎也承认或默认目前没有发现
强疑点。不过,我看来可惜的一点是,破桥文章并没有讲清弱疑点为什么“弱”的关键
因素。
果然,很快不少人提出,弱疑点能够串起来增强质疑力,形成力度等同于强疑点的“证
据链”。其中,@虚逐子的反驳文章《只见树木不见森林》是典型。这篇文章甚至用数
学手段示范了如何将忽悠级别的“疑点”组合成强证据链的。
一应用到数学,就有一个好处:正误标准一清二楚,用对了就是对了,不对就是不对,
非黑即白,不存在中间状态。我们下面就来检查一下此文中数学的应用。
@虚逐子 原文如下:
http://blog.sina.com.cn/s/blog_809332ae01011o5v.html
“我们来看看证据链是如何显著增强孤立“忽悠”的可靠性的。有这么四个“忽悠”:
韩寒不知道《三重门》名字的来源;《求医》描述了一个他没出生年代的医院场景;病
情描述和疥疮不符;视频访谈谈到赛车和女人时可以谈得眉飞色舞,但是谈到文学,特
别是谈到以他的名义出版的那些作品时,他就一问三不知。假设韩寒没有代笔,这四个
质疑是独立的,每一个几率是50%,50%的四次方=6.25%,这已经是很强的证据。并且形
成了一个完整的指向韩文代笔的证据链,其可能性93%以上。如果进一步增加独立的或
者弱相关的证据,这种可能性会更多,也许会达到能够接受的可能性。”
他这段写的有点不清不楚,甚至还存在基本概念上的混淆。不过未必人人都受过严格的
概率学训练,不强求。我先帮助他把意思说的明确和严格一些。
@虚逐子的意思是,假定从韩寒作品里找到ABCD四个疑点,如果韩寒真的没人代笔,每
个疑点出现的可能性仅为50%,且相互独立。那么韩寒没代笔情况下该四个疑点同时出
现的概率为50%的四次方,即6.25%,这是个较小的数字,反过来似乎说明了韩寒没代笔
的“不可能性”。在统计学上,这种的数字小于5%,则认为可以构成“无代笔”的强证
据。
(对概率不熟悉者此段可跳过当然,后面@虚逐子网友画蛇添足的将此解释为
“其(代笔)可能性93%”以上,是个错误,反应出他不理解逆概公式。但这不是个关
键。因为统计学上,对某个假设的排除可直接根据原始p值,即这里计算得到的6.25%来
进行,并不用计算逆概。)
很可惜。这种计算是完全错误的。为什么错?为什么忽悠和弱疑点不能这样叠加成强疑
点?@破破的桥的解释是,这些弱疑点不独立(也就是说,某个出现的话,其他的更有
可能出现),因此概率上不能直接相乘。这是原因之一。但不是主要原因。因为既然弱
疑点能找到很多,不排除其中有真正独立的,几个独立的一乘下来,证明力不就指数上
升,真的形成强证据链了吗?
其实,弱疑点串不起来关键原因很简单:未考虑总样本数。一个简单的例子就能说清:
扔硬币。假定我每扔一枚硬币,如果不作弊的话,正反面概率各为50%。我扔了100次,
每次都把结果记录下来。最后正反面各约50次。然后你想来“质疑”我,采取一种方案
,偷偷把我的记录中,所有出现硬币“反面”的结果抹去,换句话说,只把“正面”的
结果拿出去给人看。然后别人会惊奇的发现,50次正面!如果没作弊,这样的概率是多
少呢?50%的五十次方,实际上就是零。因此一般人都会感觉我肯定作弊了。但是,如
果我告诉大家这五十次正面是我通过扔一百次硬币得到的,大家马上就明白:这没什么
不正常。
聪明的读者可能已经看出来了,这已经解释了@虚逐子 方法错在何处。下面我们再不厌
其烦的针对他的具体例子做些较严格的数学计算。
为展示虚竹子的错误和运算方便,我们不妨把50%这个数值再调小一点,变成10%。也就
是假定虚竹子真的找到了4个“弱疑点”,而不是什么忽悠。按照虚竹子的计算,如果
韩寒没代笔,则四个疑点同时出现的概率将是10%的四次方,也就是万分之一,这无疑
是很小的一个值,似乎更可以排除“无代笔”的假设。
但是,别忘了,这四个疑点是翻遍了韩寒的大量作品和访谈才找到的。为了描述方便起
见,假定这四个疑点是韩寒作品中出现的四句话。而韩寒作品中与代笔问题有关联的话
共有100句(这显然保守了),如果韩寒无代笔,则每一句达到此可疑程度的概率均为
10%。那么问题正确的提法应该是:如果韩寒无代笔,找到4句以上此种可疑程度的话概
率为多少?我们来计算一下。为简便起见,仍然不考虑相关性。
先用常识判断。既然每一句如此可疑的概率为10%,则100句中如此可疑的话总数应为
100×10%=10句
能挑出四句或更多的可能性极大。
再看看数值计算,具体公式这里不演示了,可利用二项分布或其正态近似。粗通统计学
的本科生都应该会算,否则相应课程考试无法及格。答案约为98%。
换句话说,因为没考虑产生疑点的“样本总量”,将98%的可能性,误算成万分之一的
可能性!
实际上,在统计学中,这叫survivial bias。也就是说,专挑可疑的,但不看这些可疑
事件是从多大样本量里挑出来的。而样本量足够大后,总能挑出来足够多,放在一起挺
吓人的。但其实什么都说明不了。
这就是“弱质疑”到底弱在哪里的真正原因。有趣的是,我认为这正是一切深文周纳的
阴谋论得以奏效的本质原因。有点可疑但不那么可疑的事情单独挑出来放在一起,对旁
观者造成很大震撼,这时候,就算别人指出还有很多事不可疑,但人类心理天然反应,
对那些不可疑的事情不大关心,但就是惦记着可疑的那些。此时,懂一点数学,就能有
效的防止被忽悠。(我这好像成了现场反驳韩寒的数学无用论?)
1 (共1页)
相关主题
这里牛人多,请问performance engineer到底什么地位,和developer比呢遭逮捕指控间谍又撤诉 华裔科学家:美国确实是民主国家(转帖)
男人女人择偶如同做选择题韩寒代笔探讨:强质疑、弱质疑、和忽悠 zz
【加点醋】将军们喜欢什么类型的国妞?四个选项超级劲爆! (转载)让我们来欣赏一下方舟子的“推理”
我最近认识的GG开始说是五毒所的现在说美帝投毒的都是先入为主
PSU访问学者破破的桥:韩寒代笔探讨:强质疑、弱质疑、和忽悠男人女人择偶如同做选择题 (转载)
艾未未采访网络评论员文字整理稿(一)《忽悠的原理和技巧》之一 —— 模糊标准 原作者:断桥
文革究竟是谁的错? (转载)学术一下,你们觉得这个周克华是不是可疑啊
送方粉:弱质疑和忽悠能“串”成强证据链吗?并浅析阴谋论得以奏效的数学基础。四个人集体自杀很可疑,很可能是老大先毒死3个小的
相关话题的讨论汇总
话题: 疑点话题: 代笔话题: 质疑话题: 韩寒话题: 可疑