由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - TF-IDF能检查源程序抄袭吗? (转载)
相关主题
[Data Science Project Case] Topic Learning工欲善其事,必先正其名
请教 用Hive 算TF-IDF超级文章搜索参数及函数(zz from 水木社区)
想个读master转行做data scientist,学校二选一的问题滴答,你注册个马甲
各位说的编程,到底是啥遇到这种问题怎么办
学习spark是否需要懂scala?请问老李等前辈
python里面有没有generic的计算月底日期的函数?找人编了个小程序居然不给原程序怎么办
3D Hill 函数fitting推荐一款TA的源代码
numpy有polyfit, 有没有直接的函数返回polyfit的误差 (转载)这个金庸群侠传
相关话题的讨论汇总
话题: 函数话题: 变量名话题: tf话题: idf话题: 源程序
进入DataSciences版参与讨论
1 (共1页)
s*****w
发帖数: 1527
1
【 以下文字转载自 Programming 讨论区 】
发信人: somehow (修身健体), 信区: Programming
标 题: TF-IDF能检查源程序抄袭吗?
发信站: BBS 未名空间站 (Sat Feb 23 11:22:04 2019, 美东)
我的理解它把所有的单词列出来,然后看出现的频率。
对于论文我觉得可行,大部分是真正的单词。
但源代码的问题是变量名是自己定义的,每人的变量名很可能都不一样,会形成噪音吧?
函数名也是同样的问题,如果是自己写的函数,这名字也可以是各人的都不一样。
如果区分系统的还是自己的函数?
不是很懂,请大家讲讲,谢谢!
s*****w
发帖数: 1527
2
【 以下文字转载自 Programming 讨论区 】
发信人: somehow (修身健体), 信区: Programming
标 题: TF-IDF能检查源程序抄袭吗?
发信站: BBS 未名空间站 (Sat Feb 23 11:22:04 2019, 美东)
我的理解它把所有的单词列出来,然后看出现的频率。
对于论文我觉得可行,大部分是真正的单词。
但源代码的问题是变量名是自己定义的,每人的变量名很可能都不一样,会形成噪音吧?
函数名也是同样的问题,如果是自己写的函数,这名字也可以是各人的都不一样。
如果区分系统的还是自己的函数?
不是很懂,请大家讲讲,谢谢!
n*****3
发帖数: 1584
3
possible,
but you need to build hash table to two "same variable" with different names
(on purpose).

吧?

【在 s*****w 的大作中提到】
: 【 以下文字转载自 Programming 讨论区 】
: 发信人: somehow (修身健体), 信区: Programming
: 标 题: TF-IDF能检查源程序抄袭吗?
: 发信站: BBS 未名空间站 (Sat Feb 23 11:22:04 2019, 美东)
: 我的理解它把所有的单词列出来,然后看出现的频率。
: 对于论文我觉得可行,大部分是真正的单词。
: 但源代码的问题是变量名是自己定义的,每人的变量名很可能都不一样,会形成噪音吧?
: 函数名也是同样的问题,如果是自己写的函数,这名字也可以是各人的都不一样。
: 如果区分系统的还是自己的函数?
: 不是很懂,请大家讲讲,谢谢!

1 (共1页)
进入DataSciences版参与讨论
相关主题
传统码工也不明白阿法狗咋回事吧学习spark是否需要懂scala?
求:哪里有程序源代码下载?python里面有没有generic的计算月底日期的函数?
为什么web server自动改我的form action3D Hill 函数fitting
从8.04升到10.04后numpy有polyfit, 有没有直接的函数返回polyfit的误差 (转载)
[Data Science Project Case] Topic Learning工欲善其事,必先正其名
请教 用Hive 算TF-IDF超级文章搜索参数及函数(zz from 水木社区)
想个读master转行做data scientist,学校二选一的问题滴答,你注册个马甲
各位说的编程,到底是啥遇到这种问题怎么办
相关话题的讨论汇总
话题: 函数话题: 变量名话题: tf话题: idf话题: 源程序