y*j 发帖数: 3139 | 1 1. 这不叫convolution,这是weight sharing,它能避免overfitting
2. 它实际上是一个pyramid 的概念,在机器视觉里应用很多
传统的神经网络一是层数没有这么多,二是没有weight sharing,还有其他的一些问题
,还有当时的硬件配置比现在差太远了, 导致当时的失败。
我认为现在deep learning 最大的约束是硬件:速度,核的数目,内存都需要极大的提
高。硅基的计算机比碳基的生物也许更有优势,将来也许会超过人。
:在我看来CNN的本质在于
:一是convolution, 这个约束极大的减少了参数的数量。
:二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接
近人脑了。
:按照Hinton牛的说法,CNN的改进方向在Pooling |
|
x****u 发帖数: 44466 | 2 CNN在解决overfitting上已经远远超过人类了
人的大脑在同样情况下不可避免的要过拟合 |
|
y*j 发帖数: 3139 | 3 1. 这不叫convolution,这是weight sharing,它能避免overfitting
2. 它实际上是一个pyramid 的概念,在机器视觉里应用很多
传统的神经网络一是层数没有这么多,二是没有weight sharing,还有其他的一些问题
,还有当时的硬件配置比现在差太远了, 导致当时的失败。
我认为现在deep learning 最大的约束是硬件:速度,核的数目,内存都需要极大的提
高。硅基的计算机比碳基的生物也许更有优势,将来也许会超过人。
:在我看来CNN的本质在于
:一是convolution, 这个约束极大的减少了参数的数量。
:二是multi-layer,多个layer把一张图片从裸像素一层层抽象到高级概念,这个很接
近人脑了。
:按照Hinton牛的说法,CNN的改进方向在Pooling |
|
x****u 发帖数: 44466 | 4 CNN在解决overfitting上已经远远超过人类了
人的大脑在同样情况下不可避免的要过拟合 |
|
h*i 发帖数: 3446 | 5 这个我同意,对程序猿来说,要想成为ML算法专家,最好的办法,就是自己去实现一下
。实现一遍之后,就会有比较深的理解。
其实自己搞过就会发现,大部分发表的ML文章都是垃圾。往往不是对原有算法的提高,
而是倒退,overfit某些特别的个案。
ML其实就那么几个算法,而这些算法的直觉都是很简单的。你看见的那堆数学公式都是
算法出来之后,别人事后弄出来的。所以你学习的时候,不要去看公式,而是要试图去
理解背后的直觉。最好是找到最初的文章,那些古时候的文章往往没啥公式,但直觉讲
得很清楚。 |
|
g****t 发帖数: 31659 | 6 你没做过mnist吧?
1和7你如果全弄对了,0和9也全对了,那
几乎可以肯定overfitting了
我记得Ambitions image在yann的文章也有提及。不是啥新鲜事.
写文章这样可以。卖是不行的。
给你0加个小缺口说不定就废了
: mnist的标记是仔细做的,基本不需要考虑错误,一个数字是几取决于写
的时候
人想的
: 是几
: 神经网络搞mnist基本是不研究数据本身只微调参数和结构啊
|
|
s********k 发帖数: 6180 | 7 为什么DL每次的minibatch随机选取就可以,而不用像adaboost那样如果训练错了的下
次特征选取加更高的权重?是为了避免overfit? |
|
s********k 发帖数: 6180 | 8 即使这样,如果有针对对minibatch再选取权重,会不会提高效率?还是会overfitting? |
|
w***g 发帖数: 5958 | 9 都会。可能性你都说了,剩下就是自己去试了。这种paper很多, deep learning的也有,
但是这种事情没法指望一般性的结论。
overfitting? |
|
n******7 发帖数: 12463 | 10 我觉得grid search的粒度不用太细
不管你怎么设置,只要你是根据performance来调参数
都会有overfitting的危险
最普适的模型应该是参数尽可能少,或者少调的 |
|
w***g 发帖数: 5958 | 11 总结的很到位。我说的伤人品其实也是这个意思,凡事留点余地少点overfit。 |
|
n******r 发帖数: 4455 | 12 Drop out就是一种regularization的方式,随机断掉的方式可以让节点之间的耦合度降
低,减少overfit |
|
s********k 发帖数: 6180 | 13 按照我的理解,其实就是用stacked CNN,前面提取局部句子信息,后面的CNN layer提
取更长距离相对全局文章信息,来模拟RNN的可以处理任意长度句子。这样好处是训练
起来估计容易点,可以并行,参数少,但是感觉没有时间序列信息,还是容易overfit
啊。FB用了啥trick? |
|
发帖数: 1 | 14 Decode的时候还是一个个词出,前一个词的hidden layer会feed到后一个词里去。其实
我觉得是脱裤子放屁,老早就有人提过Dilated CNN做encoder, LSTM/GRU做decoder。
overfit |
|
s********k 发帖数: 6180 | 15 CNN的句子长度是不是可以用stacked CNN layer解决,一个个CNN layer逐渐提取越来
越长的全局信息,我觉得CNN不好办的是没有时序信息加进去,理论上是不是更容易
overfit |
|
g****t 发帖数: 31659 | 16 老数据新数据混合测一下?
我怀疑除了overfitting之外。
是不是可能这本身就是个不复杂的问题,你的线性回归方法部分
漏了什么。所以只有63% auc
线性方法结果好的,别的什么办法出来的结果往往都不错。
: 不想摊子铺的太大。 adaptive regression 我在别的项目试验过, sas
9.4 恰
好有这
: 个功能 (忘了proc name, 请自行google, 大概叫transreg ? ).
: 除了AUC, 就看4几条curve, true positive/false positive, grains
chart,
lift
: curve, precision/recall. 曲线美的像是从photoshop里加工过。
: 我一看AUC就知道这几条曲线差不了。 因为我做类似项目很长时间了,看
看AUC
心里就
: 有数了,一般85%以上性能会很好。 75%以上是大多数结果,65%以上勉强
可用
最好不
: 用。 低于65%, 比较差劲 别跟人说这是你做的, 丢人。
: 问题现在是指标太好。... 阅读全帖 |
|
n******r 发帖数: 4455 | 17 Boosting的原理就是多个模型联合,在数据量不大的情况做到很好的精度很正常
o x o
x o x
o x o
举个二元分类的简单例子,上面这几个点,线性模型相当于划一条斜线,是不可能分开的
如果只用单个模型,需要复杂的高次函数才可以
但是,如果用多个线性模型联合,只要四个45度的斜线就可以做到100%的区分
你这种情况应该是overfit了。验证的方法很简单,把你的数据分成training/test set
,然后看model在test set的performance。 |
|
m******r 发帖数: 1033 | 18 上来给大家汇报一下工作。
一开始我也以为overfit了,哪里出了错。仔细检查了代码,整个过程没什么错误。 虽
然这是个比较大的项目,很多代码copy来copy去 但是我造这个模型用的是最近12月的
数据, 真正的测试数据是更早的数据:前24个月到前12个月。 也就是我造模型的数据
在我的硬盘里,测试的数据在数据库里躺着呢。
这简直就是物理隔离啊。
今天我把测试的12个月数据每个月单独拎出来测一遍。 这样每个月只有1K~2K人群
samplesize应该算很小了,结果目测还是很好的,反正就那10个数从100%递减到0%, 按
score_rank递减,我连AUC都懒得看,因为趋势是很明显的。
于是我就这样给老板交差了。
还有一个原因是这个xgb做的模型是其中一个部分,大部分还是用回归做的。 如果所有
模型都得到这么高的AUC, 我还真发毛了。 |
|
|
发帖数: 1 | 20 刚才去看了这个比赛。对比public和private leaderboard,最后进前十名的队伍在
public leaderboard排名大都一百名以外。看来还是得相信自己cross validation的结
果,否则overfitting太坑爹。不知道理解的对不对呢。 |
|
g*******u 发帖数: 3948 | 21 看来 overfit了, 但是 在测试机上 效果还可以啊。。。这怎么办?
深度深, training error 0, 测试data 结果还不错, 只有 精度 99%。
我试试 浅点3,4 之类的 ? 但是那样test 结果就差了,精度 96%。
这怎么算? |
|
g*******u 发帖数: 3948 | 22 是啊
有尝试了下
深度 减少到3,4 的时候 精度是 98%多点吧 之前算错了
但是10的 时候 可以到 99%
之前觉得犹豫也是因为 虽然觉得可能overfit 但是 testdata上 比较好 。
不过很好的 经验了 记下了
另外 我这个问题 要做到 sensitivity 接近 100% specificity最好 95%以上
现在 sensitivity 98.5% specificity 99.2%
sensitivity 还差距很大的。
估计 调整阈值以后 sensitivity 每升一点点, specificity 就会下降很多。。 |
|
L****8 发帖数: 3938 | 23 overfit是个伪概念
数据本身如果没有啥噪声 使劲fit就行了 |
|
M********0 发帖数: 1230 | 24 各有各的优势
xgb用hist速度不比lgbm慢啊 accuracy有时候xgb更好
lgbm处理categorical更好些 当有大量high-cardinality categorical feature的时候
lgbm是首选 有cat_smooth等参数可调以防overfitting
武器库里总是多一样更好 |
|
w***g 发帖数: 5958 | 25 开始可能只能做播放器卖吧。而且硬件要求很高。4K inference,
得多个1080才能干的动。
我用GAN训练过super-resolution,效果并不很好。数据量太少也有关系。
github上那个项目我觉得是overfit。
等有空我再做做看。还有就是音效也有极大的提高空间。 |
|
f******2 发帖数: 2455 | 26 不用考虑实时interference,预先转码,cdn deliver就可以了。否则用户还要先买个
专用播放器,门槛太高,市场太小
: 开始可能只能做播放器卖吧。而且硬件要求很高。4K inference,
: 得多个1080才能干的动。
: 我用GAN训练过super-resolution,效果并不很好。数据量太少也有关系。
: github上那个项目我觉得是overfit。
: 等有空我再做做看。还有就是音效也有极大的提高空间。
|
|
c*******v 发帖数: 2599 | 27 现在一般的看法是。数据引领算法前进。这个说法在绝大多数情况下都是对的。
谁掌握数据,谁就掌握未来,我认为这点也是对的。直观的来看。没有足够的数据,
复杂模型很容易over fitting。基本上就是闭门造车。
但是也有一些例外的少数情况。你并不需要超大海量的数据。
就可以研究算法,并且不用担心overfitting。2005年前我在数学版问过一个这样的
问题,一个多元多项式和exp函数的混合,22M大小的文本文件,本质上是一个map
f(X)=Y。如何有效的求逆。我并没有什么数据。这个技术是用来画一个黑白图。
一个非线性PDE有两个参数,x,y。在x-y图上,白色的就是PDE的解的稳定区域。
根据我实践的结果,这种情况下不需要海量数据。因为PDE正着算出来的仿真结果就是
需要的数据。
总结下来。就是你没有数据,但是你有数据的generator。
而这个generator是很复杂的,值得研究。那你就可以用DL试一下。 |
|
l*******m 发帖数: 1096 | 28 和网络,和初始值都有关系。学学八卦,中医对调参很有帮助。最近我用初始化都能控
制overfitting
:Adam, sgd, momentum,...有啥讲究没?
: |
|
g****t 发帖数: 31659 | 29 还有风水.
调参数这个名字太土。
我跟别人讲,都叫做calibration。
: 和网络,和初始值都有关系。学学八卦,中医对调参很有帮助。最近我用初始化
都能控
: 制overfitting
: :Adam, sgd, momentum,...有啥讲究没?
: :
|
|
l*****g 发帖数: 304 | 30 sql就是拿来rollup summarize group一下data吖
还有就是join下table什么的 有的人喜欢拿sas写有的喜欢用sql而已 最基本的一些
query就好了
pricing就用modeling做pure premium吖lost cost吖 frequency吖 severity吖 找下
variable 希望更好的model更准确从而得到更多market share和更低的loss ratio 但
又不要overfit
marketing能做的modeling就很多了 基本上每个公司想研究的影响retention的因素吖
fault dectection吖之类的都有人在做
我只做过pricing的 别的proj也就听人讲讲介绍 |
|
g**********y 发帖数: 423 | 31 阿三做的那个chemosenisity prediction的问题:
1. training sample 数目太小,NCI60本身就不多,然后还用更严格的方法来选出
sensitive和resistant cell lines,这样很容易导致选出来的gene list overfitting
to training set.
2. cell lines 跨tissue的问题,这个很难说。 |
|
g**********y 发帖数: 423 | 32 阿三做的那个chemosenisity prediction的问题:
1. training sample 数目太小,NCI60本身就不多,然后还用更严格的方法来选出
sensitive和resistant cell lines,这样很容易导致选出来的gene list overfitting
to training set.
2. cell lines 跨tissue的问题,这个很难说。 |
|
j***r 发帖数: 316 | 33 但是我们不忽悠自己。
简单的说华尔街分BUY SIDE和SELL SIDE。BUY SIDE的意思就是说你拿自己的钱或者客户的钱出去投资,就是炒股票,证券,期货等等,然后赚了钱你分成。 SELL SIDE的意思就是说我给你提供服务,比如各种公司的盈利预测啊,美元石油的前景啊,或者是你通过我的平台能够更容易的买卖股票。SELL SIDE提供服务,赚服务费。BUY SIDE赚的是投资的真正回报。
那么首先BUY SIDE MARKETING 的时候忽悠客户可以,但是他们不会忽悠自己。比如说你是个QUANT,你做的是DESIGN(INVENT)一个TRADING的策略。这个过程和我们做实验是一回事。都是首先有一个IDEA,然后用历史数据检测这个IDEA是不是赚钱,这个过程中有时候会有一些其他的意想不到的发现,那么你可能会改变你的初衷,不管怎么样,你在这个过程中找到一些POSITIVE的信号,然后你用这些信号去作为你买卖的依据。一般是你现在实践中找一段OUT OF SAMPLE 的数据检验,如果结果好的话,那么你就可以按照这个策略去真实的市场去买卖,看能不能赚到钱。
你看这个过程的前一段和生物... 阅读全帖 |
|
j***r 发帖数: 316 | 34 多说一句啊,我只是在回答ONCOGENE的问题。没有任何对楼主不敬的意思或者影射。楼
主的文章我还是很爱看的,就像我说的,我还是很喜欢生物的。我觉得楼主写的非常有
价值,请继续。
客户的钱出去投资,就是炒股票,证券,期货等等,然后赚了钱你分成。 SELL SIDE的
意思就是说我给你提供服务,比如各种公司的盈利预测啊,美元石油的前景啊,或者是
你通过我的平台能够更容易的买卖股票。SELL SIDE提供服务,赚服务费。BUY SIDE赚
的是投资的真正回报。
说你是个QUANT,你做的是DESIGN(INVENT)一个TRADING的策略。这个过程和我们做实
验是一回事。都是首先有一个IDEA,然后用历史数据检测这个IDEA是不是赚钱,这个过
程中有时候会有一些其他的意想不到的发现,那么你可能会改变你的初衷,不管怎么样
,你在这个过程中找到一些POSITIVE的信号,然后你用这些信号去作为你买卖的依据。
一般是你现在实践中找一段OUT OF SAMPLE 的数据检验,如果结果好的话,那么你就可
以按照这个策略去真实的市场去买卖,看能不能赚到: 钱。
出来的结果不发表,也不用申请资金。能... 阅读全帖 |
|
p*****m 发帖数: 7030 | 35 不能同意你的看法 如果你的忽悠是说造假的话 那我承认生物造假可能不太容易看出来
但是 花街造假就一定很容易看出来么? 麦道夫都骗了多少年了?
如果你说的忽悠就是夸大其词 就是设想过份光明的产出 就是从金主那里弄钱出来(生
物是从NIH从国会 花街是从一切能弄钱的地方) 那花街的忽悠比生物的不知道严重多
少倍:从负面结果上说 花街的忽悠能产生经济危机 能改变一个国家的面貌;生物的了
不起就是花了点冤枉钱;从出发点来说,花街的忽悠是为了用最大的leverage挣钱,生
物的忽悠的基本出发点是科学研究本质上的不可预测性。这俩能比么?就跟置顶的新科
诺奖科普文里说的一样,人家搞试管婴儿没钱 去福特基金会搞来笔研究如何避孕的经
费,这是不是忽悠?是忽悠,但是首先人家做的是正经的严肃研究,不是为了搞出什么
计算方法来往街上圈钱;其次人家是为了造福人类,不是为了弄肥自己的钱包;最后就
算失败了,最多是浪费几万块钱,不会把整个国家拖下水。然后你要非说Edwards比花
街的投机客还忽悠 还有害 那我就真不知道说什么才好了。
客户的钱出去投资,就是炒股票,证券,期货等等,然后赚了钱你分成。 SELL ... 阅读全帖 |
|
t*******o 发帖数: 424 | 36 你说的这个似乎只能解释对现有结果的regression之类的吧,对未来的预测应该不会那
么准吧。就比如说machine learning里面,只要model的复杂度高一些,用100个随机变
量大概总能解释50个样本的结果,但是对于独立的另外一批50个样本的结果基本就是错
误率超高了。感觉就是个overfitting的问题。。。 |
|
f**********e 发帖数: 1994 | 37 他们有没有做 cross validation? 如果是你说的 overfitting
问题的话 10fold cross Val 还是 bootstrapping 应该能抓出来 |
|
f**********e 发帖数: 1994 | 38 如果没有 prior 的话,A->B 的确和 B->A 是对称的。但你只要对这个体系知道一
点点信息(打破这个对称),因果关系就会在一定程度上确立。
BN 只有在多变量,而且在模型结构有约束时才能用。如果你不加约束的话,你
会发现所有的 complete graph DAG 的 likelihood 都一样好 (overfitting)。 是的,
你得有一些 structural prior。是的,我同意时间资料很重要。BN 还有一个讨厌的
问题:隐变量。如果有一个无法观察的变量 X 在条件独立的情形下影响下面的 10
个变数,看起来就是那 10 个变数彼此纠缠。
structures
temporal orders.If you don't have any prior knowledge, no shapshot analysis
can help you, including the allmighty BN. |
|
t*******o 发帖数: 424 | 39 你说的这个似乎只能解释对现有结果的regression之类的吧,对未来的预测应该不会那
么准吧。就比如说machine learning里面,只要model的复杂度高一些,用100个随机变
量大概总能解释50个样本的结果,但是对于独立的另外一批50个样本的结果基本就是错
误率超高了。感觉就是个overfitting的问题。。。 |
|
f**********e 发帖数: 1994 | 40 他们有没有做 cross validation? 如果是你说的 overfitting
问题的话 10fold cross Val 还是 bootstrapping 应该能抓出来 |
|
f**********e 发帖数: 1994 | 41 如果没有 prior 的话,A->B 的确和 B->A 是对称的。但你只要对这个体系知道一
点点信息(打破这个对称),因果关系就会在一定程度上确立。
BN 只有在多变量,而且在模型结构有约束时才能用。如果你不加约束的话,你
会发现所有的 complete graph DAG 的 likelihood 都一样好 (overfitting)。 是的,
你得有一些 structural prior。是的,我同意时间资料很重要。BN 还有一个讨厌的
问题:隐变量。如果有一个无法观察的变量 X 在条件独立的情形下影响下面的 10
个变数,看起来就是那 10 个变数彼此纠缠。
structures
temporal orders.If you don't have any prior knowledge, no shapshot analysis
can help you, including the allmighty BN. |
|
s**********y 发帖数: 509 | 42 我来提供统计学家的rebuttal, 尽管我不是统计学家,呵呵
(1)统计模型帮你在很多变量中找到最重要的变量。 也有可能帮你找到causal的变量
(改变这些变量的值, 因变量的值也会随之改变。例如发现增加变量5的值,微管运
动加快, 但这一点争议恒大)。 不管怎么说, 早稻少的变量来描述因变量提供了这
些变量的统计意义,统计意义可以独立于生物依依并有助于对问题的理解。
(2) 统计模型可不只是fitting data. 统计理论中很重要的一部分是如何防治
overfitting. 也就是说一个好的统计模型最重要的是对将来数据的预测。微管都没了
, 怎么还有将来数据? 这一点我就不展开来说了, 有待其他统计天牛善良登场。 |
|
f**********e 发帖数: 1994 | 43 呵呵。我的普通话讲/写得很有大陆味(儿)和我老婆关系不大。我的普通话比她好。:)
这个我不想和你争,我只是想要后来的人少走点弯路,能多保有自己的一些优势,并找
到工作。目前的趋势是: IT 业,尤其是直接面向客户的行业,都开始在向 analysis/
data scientist 的大潮上靠。方法有三个:自己让 dev 的小本做点不三不四的分析,
外包给别的公司做(这种就是你说的“IT 用户”),还是自己建立一个队伍(那就不
只是用户了。)。因为这个需求上升得比较快,虽然一开始的确都是名校 machine
learning 的 CS PhD 才能入岗,但 Stanford/MIT/CMU 一年能生产几个 PhD?在被
FLG 三大黑帮刮完了还剩几个?这时我们 science background 又有点计算机基础的人
的机会就来了。(我们最新 hired 的是个 Stanford 的理论物理 PhD)
data scientist opening 的确比 SDE 少多了 -- 但是机会和工资的绝对比生物制药好
。再者,science background 的人经常可以真正”懂“那些资料... 阅读全帖 |
|
f**********e 发帖数: 1994 | 44 Bezier Curve 在高噪声的信号下会不会 overfit? |
|
s******y 发帖数: 28562 | 45 你问得太高深了。。。
不过我不是很明白的是,为什么会产生overfit?
Bezier Curve里面储存的仅仅是坐标而已啊,真正要处理的数据是相对于那些
坐标的荧光数据什么的啊。 |
|
s******s 发帖数: 13035 | 46 没有必要用宗教和逻辑来反宗教,他们的理论还是比较
自洽的,总有办法圆回来。
宗教和科学最大的区别是,同样身为理论,两者都可以
解释已经发生的事情,但是科学对过去总结归纳后可以用
来预测未来。 而宗教就像一个overfit的model, 可以解释
已有事物,有了新生事物,就加一层feature来自圆其说也
可以,但是这种model没有能力从理论层面对未来进行有意
义的预测,也就是无用 |
|
u*********1 发帖数: 2518 | 47 当我们不停地追求一个为什么,我们最终将会走向神学
可笑。
你举这种例子,首先时间发展顺序就搞错了
从太阳围绕地球转,到牛顿力学,到爱因斯坦,这是一步步往前走的,前面的理论只是
真理的一部分,而后来的理论更加general,可以让我们看到自然的全貌
而你的“神学”,抱歉,已经2000年了;一直到这几百年才有科学的发展,所以是早有
了神学,然后才有科学,我们这两百年是走出神学;你们基督徒的“神学”无非是自我
意淫的artifact,和科学压根是两个思维方式,根本没有逻辑上的发展和继承。我们好
不容易走出了神学的意淫,走进了科学,您老却说未来又要走回神学?。。。当然了,
这绝对有可能,因为你们的“神学”就是不断编制谎言然后再圆谎言的,就像今天有人
说你们是overfit model;比如我们经常可以看到,科学家发现了什么东西或者有啥进
展,都要被基督徒拿过去fit他们的model,意淫的说这已经是在Bible的哪个chapter哪
句话indicate过的,最后的结论都是:圣经是万能的。真tmd的恶心不要脸。反正有什
么好东西,都要被基督徒拿过去意淫一番最后给自己脸上贴金。所以,当然我们最后... 阅读全帖 |
|
s********x 发帖数: 472 | 48 U r flattering yourself.
生物的复杂性恰好造就了很多依靠简单逻辑生存的研究者。
因为在生物学里面,实验远远落后于理论,所以就非常容易解释,但是非常难去预测。
好比你的观测数据比你的模型的参数还多,这就是overfit。
不排除有极具天赋的人在生物学上大有建树,但是一般而言,这些人在数学物理那些更
依靠头脑的领域的机会大得多。
生物更多的经验和知识积累,而非逻辑。 |
|
m**********7 发帖数: 280 | 49 我不是他的学生,你什么时候见我参与到defense有关他的rumor里面了,我对这些一点
也不care。
我回复你的帖子是因为你说结构修正犯了低级错误。在我看来不是。修结构的Jiawei
Wang只是没有别的reference的情况下,犯了一个99%的人都会有的错误,那个位置在3.
6A的分辨率下,你怎么修都行。
你说他over fit了,从统计数据上看,我没有发现任何overfit的迹象。如果您发现了
,麻烦您指出,我也好学习一下。
Jiawei Wang的学识人品,本人十分佩服,你总是说他犯了低级错误,我是十分不认同
的。国内任何做结构生物学的和晶体学的人,敢说他的水平比Jiawei Wang高的屈指可
数。我不知道你的水平比他高到哪里去了,敢说他犯了一个低级错误。 |
|
发帖数: 1 | 50 非故意的,举个例子,
比如某人做了个machine learning的classifier,用个cross validation检测,效果很
好发了一篇paper。由于对数据来源有一些不了解,过了几年之后,发现原来用的数据
,里边有duplication(这是很正常了,现在很多高通量数据一个样品都测两三次,而
对ML来说,尽可能多的搜集数据也是很重要的,如果不是特别小心,的确很有可能出现
这种情况),比如一个样品被测了3次,三次基本信号都差不多,但在cross
validation的时候,可能2次分到了training里边一次分到了testing里边,这样
testing的准确度当然很高,但实际来说这是个overfitting的model,classifier的表
现根本没原文那么好?这种情况算不算造假?需要撤稿吗?随着发文章带来的一系列
benefit,比如PhD degree和绿卡等,是否要被取消? |
|