t*******y 发帖数: 21396 | 1 字频分析能证明个屁,你先证明一下字频分析的科学性,检出率,误码率,再来瞎转贴。
http://bbs.hoopchina.com/3175677.html
不能证明韩寒作品是韩爹代笔——rost字频软件对韩寒作品中7个词的统计
楼主已经把jjvvv朋友的发言进行了重新验证,另加上了“韩寒”后期的代表作之一
1988 我想和这个世界谈谈 的统计,并且考察范围由的,地,得三个字扩大到的,地,
得,到,道,作,做七个字。
"的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和
特点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和
重新学习后创作,这个字频仍然不变,或变化很小。——jjvvv
经过字频软件对韩寒作品的统计,终于发现了统计学上的意义(此方法,通常用来
鉴定真作为伪作,过去《红楼梦》的前二回与后一回,曾有大学进行过类似的统计):
——jjvvv
下面统计是楼主本人重新验证后的数据
《三重门》——不包括袁敏所作后记4385字
字 频次 总字数 出现频率
的 4583 147696 0.0310
地 472 147696 0.0032
得 1051 147696 0.0071
作 291 147696 0.0012
做 133 147696 0.0009
道 481 147696 0.0033
到 799 147696 0.0054
《 零下一度》
字 频次 总字数 出现频率
的 1827 52734 0.0346
地 198 52734 0.0038
得 297 52734 0.0056
作 115 52734 0.0022
做 28 52734 0.0005
道 125 52734 0.0024
到 248 52734 0.0047
1988,我想和这个世界谈谈
字 频次 总字数 出现频率
的 1151 30644 0.0386
地 144 30644 0.0047
得 113 30644 0.0037
作 30 30644 0.0010
做 41 30644 0.0013
到 156 30644 0.0051
道 184 30644 0.0060
《博文九篇》选自韩寒新浪博客2012年1月20日的九篇:
(超常文章一篇、正常文章一篇,小破文章一篇、我的2011、要自由、说民主、谈
革命、人造方舟子、孤芳请自赏)
字 频次 总字数 出现频率
的 883 19208 0.0460
地 15 19208 0.0008(涉及到赛车场地,地方等实词14个,引用的地得短语1个
,实际上作为助词使用0次)
得 82 19208 0.0043
作 76 19208 0.0040
做 33 19208 0.0017
道 36 19208 0.0019
到 92 19208 0.0048
对比组1
《儿子韩寒》
字 频次 总字数 出现频率
的 1763 44922 0.0392
地 176 44922 0.0039
得 229 44922 0.0051
作 279 44922 0.0062
做 66 44922 0.0015
道 106 44922 0.0024
到 343 44922 0.0076
对比组2:李承鹏的博客最近9篇文章和小说李可乐抗拆记
李承鹏最近的9篇博客文章 民主就是有权出演眼前戏, 民主就是有权不高兴, 民主就
是不攀亲, 病句, 坚强,有个小区,低俗小说,这是一匹马,墙里扔出一根骨头
字 频次 总字数 出现频率
的 642 19094 0.0336
地 59 19094 0.0031
得 108 19094 0.0057
作 19 19094 0.0010
做 13 19094 0.0007
道 77 19094 0.0040
到 108 19094 0.0057
李可乐抗拆记
字 频次 总字数 出现频率
的 4046 162846 0.0249
地 967 162846 0.0059(由于题目是李可乐抗拆记 和土地关系密切 所以作为土
地 地方等实词而不是语气助词的地字使用很多)
得 779 162846 0.0048
作 139 162846 0.0009
做 118 162846 0.0007
道 429 162846 0.0026
到 889 162846 0.0055
结论:
经过对jjvvv网友提供的方法进行运用可扩展,初步可以找到如下有趣的地方。
1 无论是对于李承鹏还是韩寒,确实能够看出不同于在博客上面写文章,在正式出版上
,编辑在修正以“的”字的使用为代表的小词上的作用。
2 韩寒在“的”字的使用上有越来越多的趋势。
3 总的看来 韩寒在上面这些词的使用上有接近韩爹的趋势。
4 韩寒在最近的博客文章中的小词使用比他早期的作品更加和韩爹相近。
5 jjvvv网友的结论,三重门 零下一度 和儿子韩寒的作者属于同一个人没有足够的依
据。 |
s********n 发帖数: 26222 | 2 错误的前提是把作品已经划分为韩寒所作,怎么知道他那几个代表作不是韩父代写?博
客可以真实反映韩寒用字习惯,因为这个为韩父代作的几率要小的多 |
l*****i 发帖数: 20533 | 3 额,似乎反而加强了之前的结论吧?
首先原比较数据基本正确。
其次以里程鹏为参考物,博文和小说虽然有一定差别,但是频率都在一个数量级,没有
出现明显的助词‘地’字消失这样的事。从而间接证实了hh博文和其出版的小说有很大
不同。 |
s********n 发帖数: 26222 | 4 就是,把发表作品全看做是韩父作品而不是韩寒所作,这个解释反而更合理,哦哈哈
【在 l*****i 的大作中提到】 : 额,似乎反而加强了之前的结论吧? : 首先原比较数据基本正确。 : 其次以里程鹏为参考物,博文和小说虽然有一定差别,但是频率都在一个数量级,没有 : 出现明显的助词‘地’字消失这样的事。从而间接证实了hh博文和其出版的小说有很大 : 不同。
|
s********n 发帖数: 26222 | 5 谢谢提供更有力的韩寒作品为韩父代作的证据
贴。
【在 t*******y 的大作中提到】 : 字频分析能证明个屁,你先证明一下字频分析的科学性,检出率,误码率,再来瞎转贴。 : http://bbs.hoopchina.com/3175677.html : 不能证明韩寒作品是韩爹代笔——rost字频软件对韩寒作品中7个词的统计 : 楼主已经把jjvvv朋友的发言进行了重新验证,另加上了“韩寒”后期的代表作之一 : 1988 我想和这个世界谈谈 的统计,并且考察范围由的,地,得三个字扩大到的,地, : 得,到,道,作,做七个字。 : "的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和 : 特点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和 : 重新学习后创作,这个字频仍然不变,或变化很小。——jjvvv : 经过字频软件对韩寒作品的统计,终于发现了统计学上的意义(此方法,通常用来
|