m******r 发帖数: 4351 | 1 利用这个限制词库,可以判定一个小说是否H,有多H
刚用之写了一个小程序,作用是把一个小说的所有H段落都抓出来。基本思路是每个词
给一个权重,比如"分开"的权重是2,"大腿"的权重是3,每个词单独出现,没问题,但是同
时出现的话在一个句子里面的话,相乘即2x3=6, 假定给的阈值比较低为5,那么"分开xxx
的大腿"这一句话就判定是H了;假如阈值比较高,是10的话,那么还要再找,看看这一
自然段前后句子有没有出现词库里的词汇,比如"插入",之前的结果再乘2,就变成6x2=
12,于是判定是H段落。
当然这样错判的会很多,不过和绿霸不同,绿霸是屏蔽H,错判了会挨骂;这个是抓取H
,错了没事,漏了不好。
只是,必须要小说是文字版。不过我是这么想的,文字版的小说太多,就算是文字版压
缩后也有几个G,反正有生之年肯定是看不完了,如果H情节写的精彩的话,说明作者的
文笔和想象力还可以,也许还值得一看。
还有一点,要求小说的文字要比较规范, 有很多小说,就像这个MITBBS,文字都被固定长
度了,判定段落有点累, 还有乱码和BIG5码,大五码之类,所以得用DreamEdit, Search&
Replace之类的整理一下 | d******c 发帖数: 2407 | 2 如果只是找书,不如用人肉法,看论坛里的推荐顶帖,命中率高得多。 | s*w 发帖数: 729 | 3 很多烂书这种关键词很多啊,可是你肯定不爱看
xxx
6x2=
取H
【在 m******r 的大作中提到】 : 利用这个限制词库,可以判定一个小说是否H,有多H : 刚用之写了一个小程序,作用是把一个小说的所有H段落都抓出来。基本思路是每个词 : 给一个权重,比如"分开"的权重是2,"大腿"的权重是3,每个词单独出现,没问题,但是同 : 时出现的话在一个句子里面的话,相乘即2x3=6, 假定给的阈值比较低为5,那么"分开xxx : 的大腿"这一句话就判定是H了;假如阈值比较高,是10的话,那么还要再找,看看这一 : 自然段前后句子有没有出现词库里的词汇,比如"插入",之前的结果再乘2,就变成6x2= : 12,于是判定是H段落。 : 当然这样错判的会很多,不过和绿霸不同,绿霸是屏蔽H,错判了会挨骂;这个是抓取H : ,错了没事,漏了不好。 : 只是,必须要小说是文字版。不过我是这么想的,文字版的小说太多,就算是文字版压
| m******r 发帖数: 4351 | 4 你没理解,一本烂书可能有10万字,
我这个方法扫过去,只需要看一两千字,不过百分之一的时间就能鉴定了,划算。
【在 s*w 的大作中提到】 : 很多烂书这种关键词很多啊,可是你肯定不爱看 : : xxx : 6x2= : 取H
| d*********2 发帖数: 48111 | 5 把结果list一下吧
xxx
6x2=
取H
【在 m******r 的大作中提到】 : 利用这个限制词库,可以判定一个小说是否H,有多H : 刚用之写了一个小程序,作用是把一个小说的所有H段落都抓出来。基本思路是每个词 : 给一个权重,比如"分开"的权重是2,"大腿"的权重是3,每个词单独出现,没问题,但是同 : 时出现的话在一个句子里面的话,相乘即2x3=6, 假定给的阈值比较低为5,那么"分开xxx : 的大腿"这一句话就判定是H了;假如阈值比较高,是10的话,那么还要再找,看看这一 : 自然段前后句子有没有出现词库里的词汇,比如"插入",之前的结果再乘2,就变成6x2= : 12,于是判定是H段落。 : 当然这样错判的会很多,不过和绿霸不同,绿霸是屏蔽H,错判了会挨骂;这个是抓取H : ,错了没事,漏了不好。 : 只是,必须要小说是文字版。不过我是这么想的,文字版的小说太多,就算是文字版压
| t**k 发帖数: 260 | 6 就是文本分类么,有很多现成代码吧。
xxx
6x2=
取H
【在 m******r 的大作中提到】 : 利用这个限制词库,可以判定一个小说是否H,有多H : 刚用之写了一个小程序,作用是把一个小说的所有H段落都抓出来。基本思路是每个词 : 给一个权重,比如"分开"的权重是2,"大腿"的权重是3,每个词单独出现,没问题,但是同 : 时出现的话在一个句子里面的话,相乘即2x3=6, 假定给的阈值比较低为5,那么"分开xxx : 的大腿"这一句话就判定是H了;假如阈值比较高,是10的话,那么还要再找,看看这一 : 自然段前后句子有没有出现词库里的词汇,比如"插入",之前的结果再乘2,就变成6x2= : 12,于是判定是H段落。 : 当然这样错判的会很多,不过和绿霸不同,绿霸是屏蔽H,错判了会挨骂;这个是抓取H : ,错了没事,漏了不好。 : 只是,必须要小说是文字版。不过我是这么想的,文字版的小说太多,就算是文字版压
|
|