f****r 发帖数: 1140 | |
A*******s 发帖数: 3942 | 2 刚才说错了,应该是test error开始变大的就是overfit了。
【在 f****r 的大作中提到】 : 什么情况下overfit? : 然后怎么解决啊?
|
f****r 发帖数: 1140 | 3 你刚才说啥了?没看到回帖啊?
【在 A*******s 的大作中提到】 : 刚才说错了,应该是test error开始变大的就是overfit了。
|
A*******s 发帖数: 3942 | 4 呵呵,说错的你就没必要知道了。
基本上,model越复杂,train error就越少,但是test error 会成U型,比对应最低点
更复杂的model就是overfit了。
对于logistic,有些goodness of fit statistics本来就有penalty to overfit, 比如
说AIC。
【在 f****r 的大作中提到】 : 你刚才说啥了?没看到回帖啊?
|
x*******i 发帖数: 1791 | 5 logistic 为啥会overfit呢?
不太理解。 |
T*******I 发帖数: 5138 | 6 Hi, A大侠,
我一直没搞懂AIC或BIC是个什么东西。它们在统计建模中有何作用?其决定模型的
逻辑基础是什么?我问过SAS的Support Center,专家们说,当你用一个全样本空间建
单一的一个logistic模型时,尽管SAS系统也输出AIC的结果,但这个AIC没有任何意义
,即使在变量选择性的基础上(例如逐步回归)建立模型时,模型的确定也不是由最小
的AIC决定的,而是由进入或剔除变量的临界概率值决定的。因此,这个回答搞得我晕
头转向。既然如此,AIC在logistic回归分析中究竟起什么作用?望你能够一个比较有
说服力的解释。多谢了。
顺便请教你的回答中的几个术语的含义:什么是train error? 什么是test error?
如何理解model的overfit as well as the penalty to overfit? 如果一个model被判
定overfit,如何确定针对overfit的penalty的随机测量?多谢!
【在 A*******s 的大作中提到】 : 呵呵,说错的你就没必要知道了。 : 基本上,model越复杂,train error就越少,但是test error 会成U型,比对应最低点 : 更复杂的model就是overfit了。 : 对于logistic,有些goodness of fit statistics本来就有penalty to overfit, 比如 : 说AIC。
|
x*******i 发帖数: 1791 | 7 AIC =
-2loglikelihood+2k
model selection可以基于不同方法。如: -2loglikelihood,LS, 等等。 |
A*******s 发帖数: 3942 | 8 致T大师,
不要叫我大侠,折寿啊。
AIC,BIC都是goodness of fit statistics,就是衡量几个model哪个fit得更好呗。我
觉得sas专家的意思是,sas的AUTOMATIC model selection只能stepwise/forward/
backward。Goodness of fit stat肯定不能作为AUTOMATIC model selection的标准,
因为你得比较2^n个模型才行。但如果你只有几个模型可以比较,而且是用人脑而不是
用电脑做选择,为啥不能用AIC呢?
train error就是对于training data而言,test error就是对于test data而言。你看
楼上给出来的AIC公式就知道penalty是怎么样的了。我不大了解有啥普遍的方法是衡量
overfit的,看AIC的公式好像这个penalty也是拍脑袋想出来的:). 我平时一般用cross
validation来避免overfit。
error?
【在 T*******I 的大作中提到】 : Hi, A大侠, : 我一直没搞懂AIC或BIC是个什么东西。它们在统计建模中有何作用?其决定模型的 : 逻辑基础是什么?我问过SAS的Support Center,专家们说,当你用一个全样本空间建 : 单一的一个logistic模型时,尽管SAS系统也输出AIC的结果,但这个AIC没有任何意义 : ,即使在变量选择性的基础上(例如逐步回归)建立模型时,模型的确定也不是由最小 : 的AIC决定的,而是由进入或剔除变量的临界概率值决定的。因此,这个回答搞得我晕 : 头转向。既然如此,AIC在logistic回归分析中究竟起什么作用?望你能够一个比较有 : 说服力的解释。多谢了。 : 顺便请教你的回答中的几个术语的含义:什么是train error? 什么是test error? : 如何理解model的overfit as well as the penalty to overfit? 如果一个model被判
|
A*******s 发帖数: 3942 | 9 只要predictor够多,就肯定overfit吧。
【在 x*******i 的大作中提到】 : logistic 为啥会overfit呢? : 不太理解。
|