|
|
|
|
|
|
J*********r 发帖数: 5921 | 1 http://hi.baidu.com/whomi/blog/item/964e251fa01d36dca7866988.ht
从搜索技术角度解析“庆祝日本地震”问题
2011-03-13 10:07
通过“庆祝日本地震”这个关键词的搜索结果数,来判定中国民众对于日本地震的态度
,这个不科学的
手段,居然广为流传,以讹传讹的演变成一个热点话题了。我觉得这不是一个小事。作
为一个资深的
搜索从业者,有必要澄清一下此问题,以消除讹误。欢迎转发,尤其是转到微博这种正
确和讹误都传
播巨快的媒体上。
问题:庆祝日本地震,搜索结果有800多万个,这800多万的网页,都是在网民在表达“
庆祝日本地
震”这个情感倾向吗?
答案:否
比如腾讯上就有这样的新闻:日本地震遇难人数达433人 暂停所有庆祝活动。这则新闻
,也在搜索结
果之中,因为标题中就含有“日本“、”地震“和”庆祝“三个词。你可以想象,在
800多万个网页中,类
似这样的情况,而不合传讹者本意的网页,会有多少(后面会再说如何估算真实意图的
结果数)。事
实上,你只要愿意翻页到搜索结果的30多页,你就看不到所谓的”庆祝日本地震“了。
要解释上述现象,我必须简单、扼要的说明一下搜索排序原理:
1,所有包含有“庆祝”、“日本”、“地震”的网页,被搜索引擎分别用“庆祝”、
“日本”、“地震”这三
个词建立了索引关系。根据词在网页上的特征(比如位置、表现、频次等),词和网页
之间,被赋予
不同等级的相关程度。而包含庆祝、日本、地震这三个词的网页,和表达了“庆祝日本
地震”这个主题
的网页,完全是两个集合。在理想情况下,后者是前者的一个子集。前面提到的新闻”
日本地震死亡人
数达433人 已暂停所有庆祝活动“,就是一个典型个案。
2,当你发出 庆祝日本地震 这个搜索请求时,你的查询被切分成三部分:庆祝 日本
地震,提交给
搜索引擎。每一个片段,都获得一个结果集合;而三个集合做一个交集,再做排序,就
获得了初步的
搜索结果。比如环球网的这个网页也在结果集中,”日本中部地区发生4.7级地震 未引
发海啸”,标
题和正文中有”日本“和”地震“两个词,但并无”庆祝“。庆祝在哪呢?在下面的相
关新闻里:”河内庆
祝建城1000年“。一旦这个相关新闻有更新,这个”庆祝“很可能就从页面上消失了,
但它仍旧在”庆
祝日本地震“的搜索结果里。
大部分搜索引擎的原理,大致如此。只是库容大小差异,以及排序策略差异,会导致不
同搜索引擎的
搜索结果数大为不同。
问题:搜索结果数800多万个,是真的有800多万个吗?
答案:不一定
搜索引擎的搜索结果数,是一个根据样本所做的估测值。这是怎么回事呢?一个数百亿
网页的数据
库,如果做全库检索,消耗是惊人的。现在都提倡低碳。所以搜索引擎的通常做法,是
取其中的一部
分优质的网页,做全检;而其余部分,当结果数量不足或者效果不好时作为候补。而结
果数,则根据
这个优质集合进行的全库推算。
问题:我如果想知道到底有多少人真的在说”庆祝日本地震“,该怎么搜?
答案:精确的方法没有,粗略的方法有两个。
方法之一,是用双引号把关键词括起来,强制搜索引擎进行精确命中查询。"庆祝日本
地震"。这样的
查询,搜索引擎不会将关键词分拆开。其结果中都是精确包含”庆祝日本地震“这样的
片段。但这样的
方法也是粗略的,因为它也会包括”反对庆祝日本地震“这样的内容。
用这样的方法搜,初步结果有23000多个。那么我要告诉各位一个数字,我在3月10号也
搜了(所
谓”庆祝日本地震“刚在微博上开始传播的时候),结果数大概是500不到。这表明什
么呢?这个事情
被以讹传讹的发酵了;此外,还有大量的网页,其实是在反对这种表态。所以,这2万
多的网页,仔细
的筛一下,真正幸灾乐祸的,其实是少数。
方法之二,是把关键词,限定在标题中进行搜索。intitle:庆祝日本地震。这样的查询
,会将查询
范围,只限定在网页标题中。大家知道网页标题是比较能集中的概括整个页面的主题的
。但粗略之处
也显而易见,因为会把诸如”日本地震死亡人数达433人 已暂停所有庆祝活动“这样的
内容也包括进
去。
用这样的方法搜,初步结果有13000多个。我在3月10号也搜了,结果数是500不到。而
现在的1万多
结果中,有大量也是在表达反对这种幸灾乐祸的态度。
以上是从搜索技术角度,对“庆祝日本地震”话题的简单剖析。由上可见,的确有一部
分国人在对邻国
的灾难表达幸灾乐祸,但这对于数亿中国网民而言,是绝对的极少数。我们大可不必因
为极少数人,
进而质疑全体中国网民,乃至整个民族的良心。
最后还有两个问题,想表达一下个人观点:
==============================================
问题1:如何看待少数中国民众对日本灾难的幸灾乐祸态度?
==============================================
我的观点是,参差多态的社会,才是健康的、有活力的。对日本人民的苦难幸灾乐祸的
民众,也是一
种民意。如同在日本,也有右翼人士开着宣传车反华一样。这是一种微妙的制衡。你可
以说这种民意
有违基本的人道主义,但只要这种意见能在一个有序、可控、安全的范畴内被表达,那
也未尝不可。
它的存在,和众多中国民众对于友邻灾难的关切、祈祷和帮助,并非水火不容。相比于
棒杀,我更倾
向于看到他们背后的真正诉求,能通过合法、有序的渠道进行表达。
问题:意见领袖如何更好的使用好微博这种传播威力巨大无比的媒体工具?
我真诚的想请意见领袖们,仔细看看你的粉丝数,然后再仔细掂量一下自己对所传播言
论的确信程
度。那些十万、百万级粉丝的明星和意见领袖们,你们的威力超过任何一本杂志,也已
经远超普通的
报纸。你们需要对你们的言论负责。有良好的出发点,不等于一定会结出丰美的果实。
批判和质疑精
神的树立,意见领袖们应该做个表率吧。
最后,祝愿盈江同胞、日本人民早日走出灾后的痛楚,重建新的家园。 | p*********w 发帖数: 23432 | 2 不错,说的蛮实在的
【在 J*********r 的大作中提到】 : http://hi.baidu.com/whomi/blog/item/964e251fa01d36dca7866988.ht : 从搜索技术角度解析“庆祝日本地震”问题 : 2011-03-13 10:07 : 通过“庆祝日本地震”这个关键词的搜索结果数,来判定中国民众对于日本地震的态度 : ,这个不科学的 : 手段,居然广为流传,以讹传讹的演变成一个热点话题了。我觉得这不是一个小事。作 : 为一个资深的 : 搜索从业者,有必要澄清一下此问题,以消除讹误。欢迎转发,尤其是转到微博这种正 : 确和讹误都传 : 播巨快的媒体上。
| I*********t 发帖数: 5258 | | h******i 发帖数: 42 | | J*********r 发帖数: 5921 | | r*****g 发帖数: 37 | | s*****n 发帖数: 1794 | |
|
|
|
|
|