s*****w 发帖数: 1527 | 1 【 以下文字转载自 Programming 讨论区 】
发信人: somehow (修身健体), 信区: Programming
标 题: TF-IDF能检查源程序抄袭吗?
发信站: BBS 未名空间站 (Sat Feb 23 11:22:04 2019, 美东)
我的理解它把所有的单词列出来,然后看出现的频率。
对于论文我觉得可行,大部分是真正的单词。
但源代码的问题是变量名是自己定义的,每人的变量名很可能都不一样,会形成噪音吧?
函数名也是同样的问题,如果是自己写的函数,这名字也可以是各人的都不一样。
如果区分系统的还是自己的函数?
不是很懂,请大家讲讲,谢谢! | s*****w 发帖数: 1527 | 2 【 以下文字转载自 Programming 讨论区 】
发信人: somehow (修身健体), 信区: Programming
标 题: TF-IDF能检查源程序抄袭吗?
发信站: BBS 未名空间站 (Sat Feb 23 11:22:04 2019, 美东)
我的理解它把所有的单词列出来,然后看出现的频率。
对于论文我觉得可行,大部分是真正的单词。
但源代码的问题是变量名是自己定义的,每人的变量名很可能都不一样,会形成噪音吧?
函数名也是同样的问题,如果是自己写的函数,这名字也可以是各人的都不一样。
如果区分系统的还是自己的函数?
不是很懂,请大家讲讲,谢谢! | n*****3 发帖数: 1584 | 3 possible,
but you need to build hash table to two "same variable" with different names
(on purpose).
吧?
【在 s*****w 的大作中提到】 : 【 以下文字转载自 Programming 讨论区 】 : 发信人: somehow (修身健体), 信区: Programming : 标 题: TF-IDF能检查源程序抄袭吗? : 发信站: BBS 未名空间站 (Sat Feb 23 11:22:04 2019, 美东) : 我的理解它把所有的单词列出来,然后看出现的频率。 : 对于论文我觉得可行,大部分是真正的单词。 : 但源代码的问题是变量名是自己定义的,每人的变量名很可能都不一样,会形成噪音吧? : 函数名也是同样的问题,如果是自己写的函数,这名字也可以是各人的都不一样。 : 如果区分系统的还是自己的函数? : 不是很懂,请大家讲讲,谢谢!
|
|