第6页 - 关于overfit的讨论汇总 - 话题女王

全部话题 - 话题: overfit

y*j
发帖数: 3139

1. 这不叫convolution，这是weight sharing，它能避免overfitting
2. 它实际上是一个pyramid 的概念，在机器视觉里应用很多
传统的神经网络一是层数没有这么多，二是没有weight sharing，还有其他的一些问题
，还有当时的硬件配置比现在差太远了，导致当时的失败。
我认为现在deep learning 最大的约束是硬件：速度，核的数目，内存都需要极大的提
高。硅基的计算机比碳基的生物也许更有优势，将来也许会超过人。

：在我看来CNN的本质在于
：一是convolution, 这个约束极大的减少了参数的数量。
：二是multi-layer，多个layer把一张图片从裸像素一层层抽象到高级概念，这个很接
近人脑了。
：按照Hinton牛的说法，CNN的改进方向在Pooling

x****u
发帖数: 44466

来自主题: Programming版 - 神经网络研究的致命伤

CNN在解决overfitting上已经远远超过人类了
人的大脑在同样情况下不可避免的要过拟合

y*j
发帖数: 3139

来自主题: Programming版 - 神经网络研究的致命伤

x****u
发帖数: 44466

来自主题: Programming版 - 神经网络研究的致命伤

CNN在解决overfitting上已经远远超过人类了
人的大脑在同样情况下不可避免的要过拟合

h*i
发帖数: 3446

来自主题: Programming版 - ML 需不需要搞懂那些数学

这个我同意，对程序猿来说，要想成为ML算法专家，最好的办法，就是自己去实现一下
。实现一遍之后，就会有比较深的理解。
其实自己搞过就会发现，大部分发表的ML文章都是垃圾。往往不是对原有算法的提高，
而是倒退，overfit某些特别的个案。
ML其实就那么几个算法，而这些算法的直觉都是很简单的。你看见的那堆数学公式都是
算法出来之后，别人事后弄出来的。所以你学习的时候，不要去看公式，而是要试图去
理解背后的直觉。最好是找到最初的文章，那些古时候的文章往往没啥公式，但直觉讲
得很清楚。

g****t
发帖数: 31659

来自主题: Programming版 - 机器学习能发现拓扑不变量，对称群之类的关系么

你没做过mnist吧？
1和7你如果全弄对了，0和9也全对了，那
几乎可以肯定overfitting了
我记得Ambitions image在yann的文章也有提及。不是啥新鲜事.
写文章这样可以。卖是不行的。
给你0加个小缺口说不定就废了

: mnist的标记是仔细做的，基本不需要考虑错误，一个数字是几取决于写
的时候
人想的

: 是几

: 神经网络搞mnist基本是不研究数据本身只微调参数和结构啊

s********k
发帖数: 6180

来自主题: Programming版 - DL一个基础问题：

为什么DL每次的minibatch随机选取就可以，而不用像adaboost那样如果训练错了的下
次特征选取加更高的权重？是为了避免overfit？

s********k
发帖数: 6180

来自主题: Programming版 - DL一个基础问题：

即使这样，如果有针对对minibatch再选取权重，会不会提高效率？还是会overfitting？

w***g
发帖数: 5958

来自主题: Programming版 - DL一个基础问题：

都会。可能性你都说了，剩下就是自己去试了。这种paper很多, deep learning的也有，
但是这种事情没法指望一般性的结论。

overfitting？

n******7
发帖数: 12463

来自主题: Programming版 - R语言，小笔记本，如何调参?

我觉得grid search的粒度不用太细
不管你怎么设置，只要你是根据performance来调参数
都会有overfitting的危险
最普适的模型应该是参数尽可能少，或者少调的

w***g
发帖数: 5958

来自主题: Programming版 - R语言，小笔记本，如何调参?

总结的很到位。我说的伤人品其实也是这个意思，凡事留点余地少点overfit。

n******r
发帖数: 4455

来自主题: Programming版 - xiaoju 老师进来一下

Drop out就是一种regularization的方式，随机断掉的方式可以让节点之间的耦合度降
低，减少overfit

s********k
发帖数: 6180

来自主题: Programming版 - Facebook的用CNN作翻译怎么性能超过RNN的

按照我的理解，其实就是用stacked CNN，前面提取局部句子信息，后面的CNN layer提
取更长距离相对全局文章信息，来模拟RNN的可以处理任意长度句子。这样好处是训练
起来估计容易点，可以并行，参数少，但是感觉没有时间序列信息，还是容易overfit
啊。FB用了啥trick？

发帖数: 1

来自主题: Programming版 - Facebook的用CNN作翻译怎么性能超过RNN的

Decode的时候还是一个个词出，前一个词的hidden layer会feed到后一个词里去。其实
我觉得是脱裤子放屁，老早就有人提过Dilated CNN做encoder, LSTM/GRU做decoder。

overfit

s********k
发帖数: 6180

来自主题: Programming版 - Facebook的用CNN作翻译怎么性能超过RNN的

CNN的句子长度是不是可以用stacked CNN layer解决，一个个CNN layer逐渐提取越来
越长的全局信息，我觉得CNN不好办的是没有时序信息加进去，理论上是不是更容易
overfit

g****t
发帖数: 31659

来自主题: Programming版 - 单变量xgboost模型好的吓人，求解

老数据新数据混合测一下？
我怀疑除了overfitting之外。
是不是可能这本身就是个不复杂的问题，你的线性回归方法部分
漏了什么。所以只有63% auc
线性方法结果好的，别的什么办法出来的结果往往都不错。

: 不想摊子铺的太大。 adaptive regression 我在别的项目试验过， sas
9.4 恰
好有这

: 个功能 (忘了proc name, 请自行google，大概叫transreg ? ).

: 除了AUC, 就看4几条curve, true positive/false positive, grains
chart,
lift

: curve, precision/recall. 曲线美的像是从photoshop里加工过。

: 我一看AUC就知道这几条曲线差不了。因为我做类似项目很长时间了，看
看AUC
心里就

: 有数了，一般85%以上性能会很好。 75%以上是大多数结果，65%以上勉强
可用
最好不

: 用。低于65%, 比较差劲别跟人说这是你做的, 丢人。

: 问题现在是指标太好。... 阅读全帖

n******r
发帖数: 4455

来自主题: Programming版 - 单变量xgboost模型好的吓人，求解

Boosting的原理就是多个模型联合，在数据量不大的情况做到很好的精度很正常
o x o
x o x
o x o
举个二元分类的简单例子，上面这几个点，线性模型相当于划一条斜线，是不可能分开的
如果只用单个模型，需要复杂的高次函数才可以
但是，如果用多个线性模型联合，只要四个45度的斜线就可以做到100%的区分
你这种情况应该是overfit了。验证的方法很简单，把你的数据分成training/test set
，然后看model在test set的performance。

m******r
发帖数: 1033

来自主题: Programming版 - 单变量xgboost模型好的吓人，求解

上来给大家汇报一下工作。
一开始我也以为overfit了，哪里出了错。仔细检查了代码，整个过程没什么错误。虽
然这是个比较大的项目，很多代码copy来copy去但是我造这个模型用的是最近12月的
数据，真正的测试数据是更早的数据：前24个月到前12个月。也就是我造模型的数据
在我的硬盘里，测试的数据在数据库里躺着呢。
这简直就是物理隔离啊。
今天我把测试的12个月数据每个月单独拎出来测一遍。这样每个月只有1K~2K人群
samplesize应该算很小了，结果目测还是很好的，反正就那10个数从100%递减到0%, 按
score_rank递减，我连AUC都懒得看，因为趋势是很明显的。
于是我就这样给老板交差了。
还有一个原因是这个xgb做的模型是其中一个部分，大部分还是用回归做的。如果所有
模型都得到这么高的AUC, 我还真发毛了。

p****o
发帖数: 1340

来自主题: Programming版 - 单变量xgboost模型好的吓人，求解

:) 这是一个典型overfit的例子。

发帖数: 1

来自主题: Programming版 - 廖方舟李哲金奖！ (转载)

刚才去看了这个比赛。对比public和private leaderboard，最后进前十名的队伍在
public leaderboard排名大都一百名以外。看来还是得相信自己cross validation的结
果，否则overfitting太坑爹。不知道理解的对不对呢。

g*******u
发帖数: 3948

来自主题: Programming版 - 求教 xgboost train error 非常小，咋回事

看来 overfit了，但是在测试机上效果还可以啊。。。这怎么办？
深度深， training error 0，测试data 结果还不错，只有精度 99%。
我试试浅点3，4 之类的？但是那样test 结果就差了，精度 96%。
这怎么算？

g*******u
发帖数: 3948

来自主题: Programming版 - 求教 xgboost train error 非常小，咋回事

是啊
有尝试了下
深度减少到3，4 的时候精度是 98%多点吧之前算错了
但是10的时候可以到 99%
之前觉得犹豫也是因为虽然觉得可能overfit 但是 testdata上比较好。
不过很好的经验了记下了
另外我这个问题要做到 sensitivity 接近 100% specificity最好 95%以上
现在 sensitivity 98.5% specificity 99.2%
sensitivity 还差距很大的。
估计调整阈值以后 sensitivity 每升一点点， specificity 就会下降很多。。

L****8
发帖数: 3938

来自主题: Programming版 - 求教 xgboost train error 非常小，咋回事

overfit是个伪概念
数据本身如果没有啥噪声使劲fit就行了

M********0
发帖数: 1230

来自主题: Programming版 - 彻底抛弃xgboost 找新欢lightlgm没毛病吧？

各有各的优势
xgb用hist速度不比lgbm慢啊 accuracy有时候xgb更好
lgbm处理categorical更好些当有大量high-cardinality categorical feature的时候
lgbm是首选有cat_smooth等参数可调以防overfitting
武器库里总是多一样更好

w***g
发帖数: 5958

来自主题: Programming版 - GAN是不是DL里面最活跃的领域？

开始可能只能做播放器卖吧。而且硬件要求很高。4K inference，
得多个1080才能干的动。
我用GAN训练过super-resolution，效果并不很好。数据量太少也有关系。
github上那个项目我觉得是overfit。
等有空我再做做看。还有就是音效也有极大的提高空间。

f******2
发帖数: 2455

来自主题: Programming版 - GAN是不是DL里面最活跃的领域？

不用考虑实时interference，预先转码，cdn deliver就可以了。否则用户还要先买个
专用播放器，门槛太高，市场太小

: 开始可能只能做播放器卖吧。而且硬件要求很高。4K inference，

: 得多个1080才能干的动。

: 我用GAN训练过super-resolution，效果并不很好。数据量太少也有关系。

: github上那个项目我觉得是overfit。

: 等有空我再做做看。还有就是音效也有极大的提高空间。

c*******v
发帖数: 2599

来自主题: Programming版 - PDE 是个好方向

现在一般的看法是。数据引领算法前进。这个说法在绝大多数情况下都是对的。
谁掌握数据，谁就掌握未来，我认为这点也是对的。直观的来看。没有足够的数据，
复杂模型很容易over fitting。基本上就是闭门造车。
但是也有一些例外的少数情况。你并不需要超大海量的数据。
就可以研究算法，并且不用担心overfitting。2005年前我在数学版问过一个这样的
问题，一个多元多项式和exp函数的混合，22M大小的文本文件，本质上是一个map
f（X）=Y。如何有效的求逆。我并没有什么数据。这个技术是用来画一个黑白图。
一个非线性PDE有两个参数，x，y。在x－y图上，白色的就是PDE的解的稳定区域。
根据我实践的结果，这种情况下不需要海量数据。因为PDE正着算出来的仿真结果就是
需要的数据。
总结下来。就是你没有数据，但是你有数据的generator。
而这个generator是很复杂的，值得研究。那你就可以用DL试一下。

l*******m
发帖数: 1096

来自主题: Programming版 - Tf里面怎么选optimizer?

和网络，和初始值都有关系。学学八卦，中医对调参很有帮助。最近我用初始化都能控
制overfitting

：Adam, sgd, momentum,...有啥讲究没?
：

g****t
发帖数: 31659

来自主题: Programming版 - Tf里面怎么选optimizer?

还有风水.
调参数这个名字太土。
我跟别人讲，都叫做calibration。

: 和网络，和初始值都有关系。学学八卦，中医对调参很有帮助。最近我用初始化
都能控

: 制overfitting

: ：Adam, sgd, momentum,...有啥讲究没?

: ：

l*****g
发帖数: 304

来自主题: Actuary版 - 包子请问保险公司的technical interview该怎么准备

sql就是拿来rollup summarize group一下data吖
还有就是join下table什么的有的人喜欢拿sas写有的喜欢用sql而已最基本的一些
query就好了
pricing就用modeling做pure premium吖lost cost吖 frequency吖 severity吖找下
variable 希望更好的model更准确从而得到更多market share和更低的loss ratio 但
又不要overfit
marketing能做的modeling就很多了基本上每个公司想研究的影响retention的因素吖
fault dectection吖之类的都有人在做
我只做过pricing的别的proj也就听人讲讲介绍

g**********y
发帖数: 423

来自主题: Biology版 - Duke"唐峻"原形毕露

阿三做的那个chemosenisity prediction的问题：
1. training sample 数目太小，NCI60本身就不多，然后还用更严格的方法来选出
sensitive和resistant cell lines，这样很容易导致选出来的gene list overfitting
to training set.
2. cell lines 跨tissue的问题，这个很难说。

g**********y
发帖数: 423

来自主题: Biology版 - Duke"唐峻"原形毕露

j***r
发帖数: 316

来自主题: Biology版 - 我的博后以及K99经历

但是我们不忽悠自己。
简单的说华尔街分BUY SIDE和SELL SIDE。BUY SIDE的意思就是说你拿自己的钱或者客户的钱出去投资，就是炒股票，证券，期货等等，然后赚了钱你分成。 SELL SIDE的意思就是说我给你提供服务，比如各种公司的盈利预测啊，美元石油的前景啊，或者是你通过我的平台能够更容易的买卖股票。SELL SIDE提供服务，赚服务费。BUY SIDE赚的是投资的真正回报。
那么首先BUY SIDE MARKETING 的时候忽悠客户可以，但是他们不会忽悠自己。比如说你是个QUANT，你做的是DESIGN（INVENT）一个TRADING的策略。这个过程和我们做实验是一回事。都是首先有一个IDEA，然后用历史数据检测这个IDEA是不是赚钱，这个过程中有时候会有一些其他的意想不到的发现，那么你可能会改变你的初衷，不管怎么样，你在这个过程中找到一些POSITIVE的信号，然后你用这些信号去作为你买卖的依据。一般是你现在实践中找一段OUT OF SAMPLE 的数据检验，如果结果好的话，那么你就可以按照这个策略去真实的市场去买卖，看能不能赚到钱。
你看这个过程的前一段和生物... 阅读全帖

j***r
发帖数: 316

来自主题: Biology版 - 我的博后以及K99经历

多说一句啊，我只是在回答ONCOGENE的问题。没有任何对楼主不敬的意思或者影射。楼
主的文章我还是很爱看的，就像我说的，我还是很喜欢生物的。我觉得楼主写的非常有
价值，请继续。

客户的钱出去投资，就是炒股票，证券，期货等等，然后赚了钱你分成。 SELL SIDE的
意思就是说我给你提供服务，比如各种公司的盈利预测啊，美元石油的前景啊，或者是
你通过我的平台能够更容易的买卖股票。SELL SIDE提供服务，赚服务费。BUY SIDE赚
的是投资的真正回报。
说你是个QUANT，你做的是DESIGN（INVENT）一个TRADING的策略。这个过程和我们做实
验是一回事。都是首先有一个IDEA，然后用历史数据检测这个IDEA是不是赚钱，这个过
程中有时候会有一些其他的意想不到的发现，那么你可能会改变你的初衷，不管怎么样
，你在这个过程中找到一些POSITIVE的信号，然后你用这些信号去作为你买卖的依据。
一般是你现在实践中找一段OUT OF SAMPLE 的数据检验，如果结果好的话，那么你就可
以按照这个策略去真实的市场去买卖，看能不能赚到: 钱。
出来的结果不发表，也不用申请资金。能... 阅读全帖

p*****m
发帖数: 7030

来自主题: Biology版 - 我的博后以及K99经历

不能同意你的看法如果你的忽悠是说造假的话那我承认生物造假可能不太容易看出来
但是花街造假就一定很容易看出来么？麦道夫都骗了多少年了？
如果你说的忽悠就是夸大其词就是设想过份光明的产出就是从金主那里弄钱出来（生
物是从NIH从国会花街是从一切能弄钱的地方）那花街的忽悠比生物的不知道严重多
少倍：从负面结果上说花街的忽悠能产生经济危机能改变一个国家的面貌；生物的了
不起就是花了点冤枉钱；从出发点来说，花街的忽悠是为了用最大的leverage挣钱，生
物的忽悠的基本出发点是科学研究本质上的不可预测性。这俩能比么？就跟置顶的新科
诺奖科普文里说的一样，人家搞试管婴儿没钱去福特基金会搞来笔研究如何避孕的经
费，这是不是忽悠？是忽悠，但是首先人家做的是正经的严肃研究，不是为了搞出什么
计算方法来往街上圈钱；其次人家是为了造福人类，不是为了弄肥自己的钱包；最后就
算失败了，最多是浪费几万块钱，不会把整个国家拖下水。然后你要非说Edwards比花
街的投机客还忽悠还有害那我就真不知道说什么才好了。

客户的钱出去投资，就是炒股票，证券，期货等等，然后赚了钱你分成。 SELL ... 阅读全帖

t*******o
发帖数: 424

来自主题: Biology版 - 胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌

你说的这个似乎只能解释对现有结果的regression之类的吧，对未来的预测应该不会那
么准吧。就比如说machine learning里面，只要model的复杂度高一些，用100个随机变
量大概总能解释50个样本的结果，但是对于独立的另外一批50个样本的结果基本就是错
误率超高了。感觉就是个overfitting的问题。。。

f**********e
发帖数: 1994

来自主题: Biology版 - 胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌

他们有没有做 cross validation? 如果是你说的 overfitting
问题的话 10fold cross Val 还是 bootstrapping 应该能抓出来

f**********e
发帖数: 1994

来自主题: Biology版 - 胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌

如果没有 prior 的话，A->B 的确和 B->A 是对称的。但你只要对这个体系知道一
点点信息（打破这个对称），因果关系就会在一定程度上确立。
BN 只有在多变量，而且在模型结构有约束时才能用。如果你不加约束的话，你
会发现所有的 complete graph DAG 的 likelihood 都一样好（overfitting)。是的，
你得有一些 structural prior。是的，我同意时间资料很重要。BN 还有一个讨厌的
问题：隐变量。如果有一个无法观察的变量 X 在条件独立的情形下影响下面的 10
个变数，看起来就是那 10 个变数彼此纠缠。

structures
temporal orders.If you don't have any prior knowledge, no shapshot analysis
can help you, including the allmighty BN.

t*******o
发帖数: 424

来自主题: Biology版 - 胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌

f**********e
发帖数: 1994

来自主题: Biology版 - 胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌

他们有没有做 cross validation? 如果是你说的 overfitting
问题的话 10fold cross Val 还是 bootstrapping 应该能抓出来

f**********e
发帖数: 1994

来自主题: Biology版 - 胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌

s**********y
发帖数: 509

来自主题: Biology版 - 我也来讲讲我眼中数学家对生物现象的理解

我来提供统计学家的rebuttal，尽管我不是统计学家，呵呵
（1）统计模型帮你在很多变量中找到最重要的变量。也有可能帮你找到causal的变量
（改变这些变量的值，因变量的值也会随之改变。例如发现增加变量5的值，微管运
动加快，但这一点争议恒大）。不管怎么说，早稻少的变量来描述因变量提供了这
些变量的统计意义，统计意义可以独立于生物依依并有助于对问题的理解。
（2) 统计模型可不只是fitting data. 统计理论中很重要的一部分是如何防治
overfitting. 也就是说一个好的统计模型最重要的是对将来数据的预测。微管都没了
，怎么还有将来数据？这一点我就不展开来说了，有待其他统计天牛善良登场。

f**********e
发帖数: 1994

来自主题: Biology版 - 现在的核心问题是没有什么上手快，学费少，钱又多，又稳定，又体面，又不是青春饭的行业了

呵呵。我的普通话讲/写得很有大陆味（儿）和我老婆关系不大。我的普通话比她好。:)
这个我不想和你争，我只是想要后来的人少走点弯路，能多保有自己的一些优势，并找
到工作。目前的趋势是: IT 业，尤其是直接面向客户的行业，都开始在向 analysis/
data scientist 的大潮上靠。方法有三个：自己让 dev 的小本做点不三不四的分析，
外包给别的公司做（这种就是你说的“IT 用户”），还是自己建立一个队伍（那就不
只是用户了。）。因为这个需求上升得比较快，虽然一开始的确都是名校 machine
learning 的 CS PhD 才能入岗，但 Stanford/MIT/CMU 一年能生产几个 PhD？在被
FLG 三大黑帮刮完了还剩几个？这时我们 science background 又有点计算机基础的人
的机会就来了。（我们最新 hired 的是个 Stanford 的理论物理 PhD)
data scientist opening 的确比 SDE 少多了 -- 但是机会和工资的绝对比生物制药好
。再者，science background 的人经常可以真正”懂“那些资料... 阅读全帖

f**********e
发帖数: 1994

来自主题: Biology版 - 有人做superresolution microscopy吗？前景怎么样？

Bezier Curve 在高噪声的信号下会不会 overfit？

s******y
发帖数: 28562

来自主题: Biology版 - 有人做superresolution microscopy吗？前景怎么样？

你问得太高深了。。。
不过我不是很明白的是，为什么会产生overfit?
Bezier Curve里面储存的仅仅是坐标而已啊，真正要处理的数据是相对于那些
坐标的荧光数据什么的啊。

s******s
发帖数: 13035

来自主题: Biology版 - 进化论的两大致命伤！

没有必要用宗教和逻辑来反宗教，他们的理论还是比较
自洽的，总有办法圆回来。
宗教和科学最大的区别是，同样身为理论，两者都可以
解释已经发生的事情，但是科学对过去总结归纳后可以用
来预测未来。而宗教就像一个overfit的model, 可以解释
已有事物，有了新生事物，就加一层feature来自圆其说也
可以，但是这种model没有能力从理论层面对未来进行有意
义的预测，也就是无用

u*********1
发帖数: 2518

来自主题: Biology版 - 关于科学跟神学

当我们不停地追求一个为什么，我们最终将会走向神学
可笑。
你举这种例子，首先时间发展顺序就搞错了
从太阳围绕地球转，到牛顿力学，到爱因斯坦，这是一步步往前走的，前面的理论只是
真理的一部分，而后来的理论更加general，可以让我们看到自然的全貌
而你的“神学”，抱歉，已经2000年了；一直到这几百年才有科学的发展，所以是早有
了神学，然后才有科学，我们这两百年是走出神学；你们基督徒的“神学”无非是自我
意淫的artifact，和科学压根是两个思维方式，根本没有逻辑上的发展和继承。我们好
不容易走出了神学的意淫，走进了科学，您老却说未来又要走回神学？。。。当然了，
这绝对有可能，因为你们的“神学”就是不断编制谎言然后再圆谎言的，就像今天有人
说你们是overfit model；比如我们经常可以看到，科学家发现了什么东西或者有啥进
展，都要被基督徒拿过去fit他们的model，意淫的说这已经是在Bible的哪个chapter哪
句话indicate过的，最后的结论都是：圣经是万能的。真tmd的恶心不要脸。反正有什
么好东西，都要被基督徒拿过去意淫一番最后给自己脸上贴金。所以，当然我们最后... 阅读全帖

s********x
发帖数: 472

来自主题: Biology版 - 我也说生物和数理化的差别

U r flattering yourself.
生物的复杂性恰好造就了很多依靠简单逻辑生存的研究者。
因为在生物学里面，实验远远落后于理论，所以就非常容易解释，但是非常难去预测。
好比你的观测数据比你的模型的参数还多，这就是overfit。
不排除有极具天赋的人在生物学上大有建树，但是一般而言，这些人在数学物理那些更
依靠头脑的领域的机会大得多。
生物更多的经验和知识积累，而非逻辑。

m**********7
发帖数: 280

来自主题: Biology版 - Yigong山大还有一位高徒

我不是他的学生，你什么时候见我参与到defense有关他的rumor里面了，我对这些一点
也不care。
我回复你的帖子是因为你说结构修正犯了低级错误。在我看来不是。修结构的Jiawei
Wang只是没有别的reference的情况下，犯了一个99%的人都会有的错误，那个位置在3.
6A的分辨率下，你怎么修都行。
你说他over fit了，从统计数据上看，我没有发现任何overfit的迹象。如果您发现了
，麻烦您指出，我也好学习一下。
Jiawei Wang的学识人品，本人十分佩服，你总是说他犯了低级错误，我是十分不认同
的。国内任何做结构生物学的和晶体学的人，敢说他的水平比Jiawei Wang高的屈指可
数。我不知道你的水平比他高到哪里去了，敢说他犯了一个低级错误。

发帖数: 1

来自主题: Biology版 - 非故意的错误结果是否需要撤稿？

非故意的，举个例子，
比如某人做了个machine learning的classifier，用个cross validation检测，效果很
好发了一篇paper。由于对数据来源有一些不了解，过了几年之后，发现原来用的数据
，里边有duplication（这是很正常了，现在很多高通量数据一个样品都测两三次，而
对ML来说，尽可能多的搜集数据也是很重要的，如果不是特别小心，的确很有可能出现
这种情况），比如一个样品被测了3次，三次基本信号都差不多，但在cross
validation的时候，可能2次分到了training里边一次分到了testing里边，这样
testing的准确度当然很高，但实际来说这是个overfitting的model，classifier的表
现根本没原文那么好？这种情况算不算造假？需要撤稿吗？随着发文章带来的一系列
benefit，比如PhD degree和绿卡等，是否要被取消？

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天