s********n 发帖数: 26222 | 1 有free汉字频率使用分析软件可以下载的
http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
[转贴]rost字频软件对韩寒作品中的地得的统计
3909 次点击
32 个回复
0 次转到微评
天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
"的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
新学习后创作,这个字频仍然不变,或变化很小。
经过武汉大学沈阳博士开发的rost字频软件对韩寒作品的统计(国外也有类似的软
件,如英国的wordsmith),终于发现了统计学上的意义(此方法,通常用来鉴定真作
为伪作,过去《红楼梦》的前80回与后40回,曾有大学进行过类似的统计):
《三重门》、《零下一度》、《博文九篇》,作者韩寒;《儿子韩寒》,作者韩其
均。
其中《博文九篇》选自韩寒新浪博客2012年1月19日下午6时前的九篇:
(超常文章一篇、小破文章一篇、我的2011、要自由、说民主、谈革命、问我、这
事儿都过气了、序言一篇)
《三重门》、《零下一度贰ⅰ恫┪木牌贰ⅰ抖雍纷制刀员龋
的 0.0308 0.0357 0.04900.0388
地 0.0032 0.0036 0.0008 0.0040
得 0.0071 0.0055 0.0050 0.0051
其中,《博文九篇》“的”,“地”两个字,尤其是“地”字,与其它各篇,明显
表现出统计学上的偏差,是其它各篇的4倍至5倍。说明:《三重门》、《零下一度》、
《儿子韩寒》确是一人所写,而我所选的2012年1月19日前的《博文九篇》,显然是另
一人所写。
结论:这里可以看出,如果《儿子韩寒》是韩父所写,那么《三重门》和《零下一
度》,也应是韩父所写。《博文九篇》则是韩寒所写,或他的团队代写。 |
y**o 发帖数: 8897 | 2 这个丝毫没用
昨天我分析了
立论站不住脚
【在 s********n 的大作中提到】 : 有free汉字频率使用分析软件可以下载的 : http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1 : [转贴]rost字频软件对韩寒作品中的地得的统计 : 3909 次点击 : 32 个回复 : 0 次转到微评 : 天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人 : "的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特 : 点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重 : 新学习后创作,这个字频仍然不变,或变化很小。
|
s********n 发帖数: 26222 | 3 错过了,zkss
【在 y**o 的大作中提到】 : 这个丝毫没用 : 昨天我分析了 : 立论站不住脚
|
t****v 发帖数: 9235 | 4 有人说我是老大爷
你们分析一下我的贴和老大爷的贴
为我洗清这不白之冤 |
s********n 发帖数: 26222 | 5 他的帖子满是黄图茎叶,咋分析?
【在 t****v 的大作中提到】 : 有人说我是老大爷 : 你们分析一下我的贴和老大爷的贴 : 为我洗清这不白之冤
|
t****v 发帖数: 9235 | 6 我觉得老大爷是马甲
还有真身现在混在版上
如果要真能就出来
就是为民造福 |
y**o 发帖数: 8897 | 7 就是这种东西不能用家庭成员来比较,因为语境和语言习惯太相似了.
【在 s********n 的大作中提到】 : 错过了,zkss
|
c**i 发帖数: 13113 | 8 父子写字相似不奇怪,DNA毕竟一半
有的人为了反韩寒,有点不择手段了
【在 s********n 的大作中提到】 : 有free汉字频率使用分析软件可以下载的 : http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1 : [转贴]rost字频软件对韩寒作品中的地得的统计 : 3909 次点击 : 32 个回复 : 0 次转到微评 : 天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人 : "的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特 : 点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重 : 新学习后创作,这个字频仍然不变,或变化很小。
|
s********n 发帖数: 26222 | 9 未必,父与子的所受教育,时代,人生都不一样,所以写作的痕迹字频必然不一样。
如果是同卵同性别双胞胎(同样学校受教育),那可能会一样。
如果都一样,字频分析就不可能分辨出韩父和hh来,而结果实际是分辨出来了啊。
【在 y**o 的大作中提到】 : 就是这种东西不能用家庭成员来比较,因为语境和语言习惯太相似了.
|
s********n 发帖数: 26222 | 10 靠,来点有科技含量的就是“不择手段"?韩粉都是脑残一族?
【在 c**i 的大作中提到】 : 父子写字相似不奇怪,DNA毕竟一半 : 有的人为了反韩寒,有点不择手段了
|
|
|
c**i 发帖数: 13113 | 11 拿来比较父子这种直系亲属没意思。
【在 s********n 的大作中提到】 : 靠,来点有科技含量的就是“不择手段"?韩粉都是脑残一族?
|
s********n 发帖数: 26222 | 12 扯淡,汉字使用频率不是由DNA决定的,多是受后天教育形成的。
你太文科了!
【在 c**i 的大作中提到】 : 拿来比较父子这种直系亲属没意思。
|
s**********d 发帖数: 36899 | 13 铁证如山。
写作用字,跟指纹一样,每个人有自己的特征,不同人不可能一样。
一样的也必然是同一个人。 |
s********n 发帖数: 26222 | 14 这种证据是抵赖不过去的,而且无法再更改做手脚了
【在 s**********d 的大作中提到】 : 铁证如山。 : 写作用字,跟指纹一样,每个人有自己的特征,不同人不可能一样。 : 一样的也必然是同一个人。
|
y**o 发帖数: 8897 | 15 韩寒没受过多少教育
文本学习也是用他父亲的藏书
加上家庭语言环境
基本上不可以把文体个别统计做为判定依据
语言做为能指符号,其特征是非常社会性的.
【在 s********n 的大作中提到】 : 扯淡,汉字使用频率不是由DNA决定的,多是受后天教育形成的。 : 你太文科了!
|
c**i 发帖数: 13113 | 16 我打个比方,你听不听随便,我不过是说讨论这个话题没意思。
【在 s********n 的大作中提到】 : 扯淡,汉字使用频率不是由DNA决定的,多是受后天教育形成的。 : 你太文科了!
|
h***i 发帖数: 89031 | 17 这个只要分析一下确乎属于他和他爹的文字,只药频率有区别就行了
【在 y**o 的大作中提到】 : 韩寒没受过多少教育 : 文本学习也是用他父亲的藏书 : 加上家庭语言环境 : 基本上不可以把文体个别统计做为判定依据 : 语言做为能指符号,其特征是非常社会性的.
|
p*******r 发帖数: 2204 | 18 能说出这样的话来,胸一定很大
【在 c**i 的大作中提到】 : 父子写字相似不奇怪,DNA毕竟一半 : 有的人为了反韩寒,有点不择手段了
|
y**o 发帖数: 8897 | 19 对
源文本很重要
要用爷俩儿现场写的同等字数的同类文字,至少两人分别要三个样本,进行量化特征定性后
才可以依照这个比较结果来验证其他文字.
这些文科生欠缺研究基本素质.
【在 h***i 的大作中提到】 : 这个只要分析一下确乎属于他和他爹的文字,只药频率有区别就行了
|
c**i 发帖数: 13113 | 20 嗯,赞同!
【在 y**o 的大作中提到】 : 韩寒没受过多少教育 : 文本学习也是用他父亲的藏书 : 加上家庭语言环境 : 基本上不可以把文体个别统计做为判定依据 : 语言做为能指符号,其特征是非常社会性的.
|
|
|
s********n 发帖数: 26222 | 21 韩父的作品可以确定的是《儿子韩寒》,哪些“韩寒”的作品真的是“韩寒”的,那就
不能确定了,这个是难题,我觉得可以从他的现场访谈节目可以测算出来,访谈节目应
该是真的吧。
【在 h***i 的大作中提到】 : 这个只要分析一下确乎属于他和他爹的文字,只药频率有区别就行了
|
x****o 发帖数: 29677 | 22 这个分析不靠普,应该找其他作家等等写作文章里的字来分析对比
的,地,得是频率使用最广的词,很难直接这么比 |
l******t 发帖数: 55733 | |
k**o 发帖数: 15334 | |
a****o 发帖数: 6612 | 25 你要是看过"书店",就知道父代子"寒"并不是扯。
【在 k**o 的大作中提到】 : 真tm扯淡。父子文风相似,又如何?
|
w*l 发帖数: 2550 | 26 靠,我还以为搞到什么铁证了呢。这不是闪人么。
【在 s********n 的大作中提到】 : 有free汉字频率使用分析软件可以下载的 : http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1 : [转贴]rost字频软件对韩寒作品中的地得的统计 : 3909 次点击 : 32 个回复 : 0 次转到微评 : 天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人 : "的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特 : 点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重 : 新学习后创作,这个字频仍然不变,或变化很小。
|
e**y 发帖数: 51 | 27 还是不要一看到xxx统计,科学方法就他妈的说铁证如山了。如果你不懂统计的话。因
为如果你不懂,你就说它是科学,是铁证如山,是技术含量,那这算不算迷信?一见科
学家你就湿的湿,射的射。
曾经在statistics in medicine上面看到统计数据说,基本上90%的医学文章用的统计
方法都存在大大小小的问题。或者你可以去问一个作风严谨的统计学教授,问他能不能
证明吸烟和肺癌的关系,你可能会发现一些你以前所不知道的东西。
统计只是统计,统计不能证明因果,统计还有type-i error 和 power的东东。
有的统计方法,type-i error很大,就是说有很大的机会它错报了positive。就跟你去
检查怀没怀上一样,type-i error大=你如果没怀上,但很大可能被错误的报成了你怀
上了。
那么power小就=你如果真怀上了,那很大可能你会被报成没有。
好吧,说到这里,如果你还是没懂,那你更不应该瞎嚷嚷了。那我就继续说完。
1)作者提到他的方法的type-i error和power了没?你看到了吗?如果没有,那么如果
一个方法type-i error = 0.5, power = 0.99, 你信他说你怀上了不?
2)而且,这种文本比较的统计方法,使用起来很tricky。它的结果通常取决于你评估
哪几个字。你想得到的结果,通常都可以通过选择正确的字来达到。道理很明白,1000
个字里,你总能找到那么几个字来得到你想要的结论。
3)更何况,文本数据本来的非常复杂。现在的text mining基本上只能用low level的
frequency信息,而通常必须要massive texts去counterbalance那些high-level的信息
。因为文本的信息大部分其实包含在语法等更高层次的结构里。这个算法很明显是非常
粗浅的。
3)最后,好吧,就算以上所有的都不apply 这个case,那么,你怎么就知道你的文章
的那三个字的频率就和韩寒的不一样呢?说不定这就是某一类人的群体性的语言偏好-
-比如你们都是同一个老师教出来的,你们都是80后,或者其他啥啥啥的。这个逻辑上
还是存在问题,乍就忽略不计了?
【在 s********n 的大作中提到】 : 有free汉字频率使用分析软件可以下载的 : http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1 : [转贴]rost字频软件对韩寒作品中的地得的统计 : 3909 次点击 : 32 个回复 : 0 次转到微评 : 天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人 : "的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特 : 点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重 : 新学习后创作,这个字频仍然不变,或变化很小。
|
z****c 发帖数: 602 | |
j**********k 发帖数: 296 | |
Q*****n 发帖数: 4546 | 30 我怎么看不出多大差异
的 0.0308 0.0357 0.04900.0388
地 0.0032 0.0036 0.0008 0.0040
得 0.0071 0.0055 0.0050 0.0051
【在 s********n 的大作中提到】 : 有free汉字频率使用分析软件可以下载的 : http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1 : [转贴]rost字频软件对韩寒作品中的地得的统计 : 3909 次点击 : 32 个回复 : 0 次转到微评 : 天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人 : "的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特 : 点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重 : 新学习后创作,这个字频仍然不变,或变化很小。
|
|
|
B*G 发帖数: 13438 | 31 那个统计文章的原作者因为被一帮搞语义学和搞统计的拍的太厉害,已经把原帖给删了
。他那个统计确实不严谨,最大的缺点就是只用了韩寒他爸的一篇文章,文章名字还叫
儿子韩寒,文章里面本来就引了韩寒自己不少话语和文字,他起码应该找韩寒他爸多几
篇文章来统计才对。
【在 j**********k 的大作中提到】 : 啥也不说,附图仅供参考,请自己甄别:
|
m*t 发帖数: 7490 | 32 如果你说韩寒与其父亲的文风接近到软件无法区分的程度
那你就无法解释为什么韩寒的出版物和他自己的博客可以被区分了
合理的解释还是出版物都是老子的,博客是他自己的
【在 y**o 的大作中提到】 : 韩寒没受过多少教育 : 文本学习也是用他父亲的藏书 : 加上家庭语言环境 : 基本上不可以把文体个别统计做为判定依据 : 语言做为能指符号,其特征是非常社会性的.
|
y**c 发帖数: 6307 | 33 又来一个原告走了,旁观者起哄的。
麦田走了,方舟子抱臭脚上。
分析者走了,菌斑混混继续抱着臭脚上。。。
【在 B*G 的大作中提到】 : 那个统计文章的原作者因为被一帮搞语义学和搞统计的拍的太厉害,已经把原帖给删了 : 。他那个统计确实不严谨,最大的缺点就是只用了韩寒他爸的一篇文章,文章名字还叫 : 儿子韩寒,文章里面本来就引了韩寒自己不少话语和文字,他起码应该找韩寒他爸多几 : 篇文章来统计才对。
|
l******n 发帖数: 492 | 34 为啥有的相似有的不相似?
【在 k**o 的大作中提到】 : 真tm扯淡。父子文风相似,又如何?
|
q***7 发帖数: 2011 | 35 写作语言和DNA几乎没有关系,都是后天形成的。你试试读读你的下一代或者老一代,
再看看其中差别
【在 c**i 的大作中提到】 : 父子写字相似不奇怪,DNA毕竟一半 : 有的人为了反韩寒,有点不择手段了
|
s*******n 发帖数: 10426 | 36 父子的指纹能一样吗?如果作品中存在类似指纹的东西,那就可以用来鉴定是谁写的了。
不知道这个“的,地,得”是不是这类的“写作指纹”。
【在 k**o 的大作中提到】 : 真tm扯淡。父子文风相似,又如何?
|
s********n 发帖数: 26222 | 37 是这个理
【在 m*t 的大作中提到】 : 如果你说韩寒与其父亲的文风接近到软件无法区分的程度 : 那你就无法解释为什么韩寒的出版物和他自己的博客可以被区分了 : 合理的解释还是出版物都是老子的,博客是他自己的
|