由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Military版 - 各位针对日本地震问题吵来吵去的朋友,都该看看这篇文章 (转载)
相关主题
70%网民认为中国政府应否决谷歌的条件Google.com在中国大陆大范围无法访问 (转载)
谷姐加速抢夺谷歌搜索研发人才,图取代谷歌中国地位搜索引擎专家刘骏担任人民搜索首席科学家
搜索引擎作为针对个人电脑情报分析工具的三条公理米国网络和谐也很厉害啊
谷歌退出后,百度变得又黄又左,广告铺天盖地这个既刻搜索比古狗百度要好
太猥琐了,狗搜出世360违反Robots协议将引发行业大乱
官方推出“人民搜索”互联网引擎挑战百度即可搜索就是个洗钱的项目吧
狗日的共匪,终于要搞百度了LoL 搜狗回应输入法泄露用户信息 是微软搜索不守规
这个人民搜索是靠国家拨款还是自己赚钱?邓亚萍同学下岗了
相关话题的讨论汇总
话题: 地震话题: 庆祝话题: 日本话题: 网页话题: 搜索
进入Military版参与讨论
1 (共1页)
J*********r
发帖数: 5921
1
【 以下文字转载自 WaterWorld 讨论区 】
发信人: JackFighter (时而冷静,时而癫狂), 信区: WaterWorld
标 题: 各位针对日本地震问题吵来吵去的朋友,都该看看这篇文章
发信站: BBS 未名空间站 (Sun Mar 13 01:13:07 2011, 美东)
http://hi.baidu.com/whomi/blog/item/964e251fa01d36dca7866988.ht
从搜索技术角度解析“庆祝日本地震”问题
2011-03-13 10:07
通过“庆祝日本地震”这个关键词的搜索结果数,来判定中国民众对于日本地震的态度
,这个不科学的
手段,居然广为流传,以讹传讹的演变成一个热点话题了。我觉得这不是一个小事。作
为一个资深的
搜索从业者,有必要澄清一下此问题,以消除讹误。欢迎转发,尤其是转到微博这种正
确和讹误都传
播巨快的媒体上。
问题:庆祝日本地震,搜索结果有800多万个,这800多万的网页,都是在网民在表达“
庆祝日本地
震”这个情感倾向吗?
答案:否
比如腾讯上就有这样的新闻:日本地震遇难人数达433人 暂停所有庆祝活动。这则新闻
,也在搜索结
果之中,因为标题中就含有“日本“、”地震“和”庆祝“三个词。你可以想象,在
800多万个网页中,类
似这样的情况,而不合传讹者本意的网页,会有多少(后面会再说如何估算真实意图的
结果数)。事
实上,你只要愿意翻页到搜索结果的30多页,你就看不到所谓的”庆祝日本地震“了。
要解释上述现象,我必须简单、扼要的说明一下搜索排序原理:
1,所有包含有“庆祝”、“日本”、“地震”的网页,被搜索引擎分别用“庆祝”、
“日本”、“地震”这三
个词建立了索引关系。根据词在网页上的特征(比如位置、表现、频次等),词和网页
之间,被赋予
不同等级的相关程度。而包含庆祝、日本、地震这三个词的网页,和表达了“庆祝日本
地震”这个主题
的网页,完全是两个集合。在理想情况下,后者是前者的一个子集。前面提到的新闻”
日本地震死亡人
数达433人 已暂停所有庆祝活动“,就是一个典型个案。
2,当你发出 庆祝日本地震 这个搜索请求时,你的查询被切分成三部分:庆祝 日本
地震,提交给
搜索引擎。每一个片段,都获得一个结果集合;而三个集合做一个交集,再做排序,就
获得了初步的
搜索结果。比如环球网的这个网页也在结果集中,”日本中部地区发生4.7级地震 未引
发海啸”,标
题和正文中有”日本“和”地震“两个词,但并无”庆祝“。庆祝在哪呢?在下面的相
关新闻里:”河内庆
祝建城1000年“。一旦这个相关新闻有更新,这个”庆祝“很可能就从页面上消失了,
但它仍旧在”庆
祝日本地震“的搜索结果里。
大部分搜索引擎的原理,大致如此。只是库容大小差异,以及排序策略差异,会导致不
同搜索引擎的
搜索结果数大为不同。
问题:搜索结果数800多万个,是真的有800多万个吗?
答案:不一定
搜索引擎的搜索结果数,是一个根据样本所做的估测值。这是怎么回事呢?一个数百亿
网页的数据
库,如果做全库检索,消耗是惊人的。现在都提倡低碳。所以搜索引擎的通常做法,是
取其中的一部
分优质的网页,做全检;而其余部分,当结果数量不足或者效果不好时作为候补。而结
果数,则根据
这个优质集合进行的全库推算。
问题:我如果想知道到底有多少人真的在说”庆祝日本地震“,该怎么搜?
答案:精确的方法没有,粗略的方法有两个。
方法之一,是用双引号把关键词括起来,强制搜索引擎进行精确命中查询。"庆祝日本
地震"。这样的
查询,搜索引擎不会将关键词分拆开。其结果中都是精确包含”庆祝日本地震“这样的
片段。但这样的
方法也是粗略的,因为它也会包括”反对庆祝日本地震“这样的内容。
用这样的方法搜,初步结果有23000多个。那么我要告诉各位一个数字,我在3月10号也
搜了(所
谓”庆祝日本地震“刚在微博上开始传播的时候),结果数大概是500不到。这表明什
么呢?这个事情
被以讹传讹的发酵了;此外,还有大量的网页,其实是在反对这种表态。所以,这2万
多的网页,仔细
的筛一下,真正幸灾乐祸的,其实是少数。
方法之二,是把关键词,限定在标题中进行搜索。intitle:庆祝日本地震。这样的查询
,会将查询
范围,只限定在网页标题中。大家知道网页标题是比较能集中的概括整个页面的主题的
。但粗略之处
也显而易见,因为会把诸如”日本地震死亡人数达433人 已暂停所有庆祝活动“这样的
内容也包括进
去。
用这样的方法搜,初步结果有13000多个。我在3月10号也搜了,结果数是500不到。而
现在的1万多
结果中,有大量也是在表达反对这种幸灾乐祸的态度。
以上是从搜索技术角度,对“庆祝日本地震”话题的简单剖析。由上可见,的确有一部
分国人在对邻国
的灾难表达幸灾乐祸,但这对于数亿中国网民而言,是绝对的极少数。我们大可不必因
为极少数人,
进而质疑全体中国网民,乃至整个民族的良心。
最后还有两个问题,想表达一下个人观点:
==============================================
问题1:如何看待少数中国民众对日本灾难的幸灾乐祸态度?
==============================================
我的观点是,参差多态的社会,才是健康的、有活力的。对日本人民的苦难幸灾乐祸的
民众,也是一
种民意。如同在日本,也有右翼人士开着宣传车反华一样。这是一种微妙的制衡。你可
以说这种民意
有违基本的人道主义,但只要这种意见能在一个有序、可控、安全的范畴内被表达,那
也未尝不可。
它的存在,和众多中国民众对于友邻灾难的关切、祈祷和帮助,并非水火不容。相比于
棒杀,我更倾
向于看到他们背后的真正诉求,能通过合法、有序的渠道进行表达。
问题:意见领袖如何更好的使用好微博这种传播威力巨大无比的媒体工具?
我真诚的想请意见领袖们,仔细看看你的粉丝数,然后再仔细掂量一下自己对所传播言
论的确信程
度。那些十万、百万级粉丝的明星和意见领袖们,你们的威力超过任何一本杂志,也已
经远超普通的
报纸。你们需要对你们的言论负责。有良好的出发点,不等于一定会结出丰美的果实。
批判和质疑精
神的树立,意见领袖们应该做个表率吧。
最后,祝愿盈江同胞、日本人民早日走出灾后的痛楚,重建新的家园。
r******y
发帖数: 9892
2
你真打算跟职业挖坑的探讨这么深奥的问题么?
J*********r
发帖数: 5921
3
我这个人最大的毛病就是总打算团结同胞。

【在 r******y 的大作中提到】
: 你真打算跟职业挖坑的探讨这么深奥的问题么?
J*********r
发帖数: 5921
4
ding
1 (共1页)
进入Military版参与讨论
相关主题
邓亚萍同学下岗了太猥琐了,狗搜出世
邓亚萍谈即刻搜索:重要不是赚钱 是履行国家职责官方推出“人民搜索”互联网引擎挑战百度
用了几天Bing, 受不了了狗日的共匪,终于要搞百度了
习大大在巴西陪李彦宏打进葡萄牙语搜索市场这个人民搜索是靠国家拨款还是自己赚钱?
70%网民认为中国政府应否决谷歌的条件Google.com在中国大陆大范围无法访问 (转载)
谷姐加速抢夺谷歌搜索研发人才,图取代谷歌中国地位搜索引擎专家刘骏担任人民搜索首席科学家
搜索引擎作为针对个人电脑情报分析工具的三条公理米国网络和谐也很厉害啊
谷歌退出后,百度变得又黄又左,广告铺天盖地这个既刻搜索比古狗百度要好
相关话题的讨论汇总
话题: 地震话题: 庆祝话题: 日本话题: 网页话题: 搜索