马甲追踪是本站使用最多,误解最多和争议最大的功能。在过去的24小时中我们对这项功能的实现进行了大量优化,最坏情况下的性能大约提高了一倍以上,平均性能得益于多层缓存的应用提高更多,希望能够在满足大家需求的基础上,不对服务器造成过大负担。也由于代码上的改动,过去一天内这项服务出现了多次短暂中断的情形,请大家谅解。
我们希望在这里重申,这项功能虽然名字叫“马甲追踪”,其实并不单纯是一个找马甲的服务。其一,由于我们只有两段IP的数据可以使用,因此IP相似度高并不表示一定是马甲,也可能是与被查询用户处于同一片地理区域的人,当然也可能是使用相同代理或穿梭服务的人;其二,每个人的马甲有多有少,有的人根本没有马甲,但是我们无从判断这一点,而只能对每个人列出最相似的ID名单,对于该名单长于50的情况,我们截取前50个ID进行显示。我们没有足够的信息能够在这份名单上切上一刀,指出前面的就是马甲,后面不是。简单的方法可能是对相似分设定一个阈值,但是这行不通,由于各人使用习惯的不同,不存在这样一个普遍适用的阈值。所以这也引出了第三个误解:认为相似分高于多少就是马甲。其实这项服务中提供的相似分和小圈子查询中提供的小圈子指数都只是作为参考,其绝对值没有意义。
小圈子指数通常是一个很小的数,虽然其理论上限可以达到1,这是因为我们在计算过程中把回帖数除以总发贴数来得到这个指数。对于发帖数高,特别是与很多不同ID交互的ID,他与任何单一ID的小圈子指数都会较小;事实上,把他与所有ID的小圈子指数加起来,仍然是不超过1的。
最后,有人提议我们提供一个API来让大家访问我们的数据库,在其上构建其它的应用。如果大家对此有什么好的想法,可以在下面发表评论,或者给我们发送email指出。如果有足够的兴趣,我们会考虑增加这一项服务。
There are no comments