由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - logistic, overfit了怎么办?
相关主题
电话面试完了,肯定没戏,大家帮我看看题目,就算学习吧请问:R-square 可以用来评估GLM model得好坏吗
抓狂!为啥选出来的predictor都这么差有人用SAS么 或者统计大拿帮忙看一个低级问题 (转载)
为啥做了segmentation后模型fit更差?喜欢用AIC或BIC进行模型比较的,可以看一下
logistic regression结果释疑,解读请教SAS高手关于lasso...
用什么参数来评估Non-linear Regression Model?one question about variable selection in SAS
问个logistic model的面试问题紧急求助一个LOGISTIC REGRESSION 问题.
到底ROC能不能用来比较不同modelLogistic model中 ROC曲线里面AUC 值太低怎么办?
怎样比较hierarchical modelSAS reg results are different for language SAS... :(
相关话题的讨论汇总
话题: overfit话题: aic话题: logistic话题: error话题: model
进入Statistics版参与讨论
1 (共1页)
f****r
发帖数: 1140
1
什么情况下overfit?
然后怎么解决啊?
A*******s
发帖数: 3942
2
刚才说错了,应该是test error开始变大的就是overfit了。

【在 f****r 的大作中提到】
: 什么情况下overfit?
: 然后怎么解决啊?

f****r
发帖数: 1140
3
你刚才说啥了?没看到回帖啊?

【在 A*******s 的大作中提到】
: 刚才说错了,应该是test error开始变大的就是overfit了。
A*******s
发帖数: 3942
4
呵呵,说错的你就没必要知道了。
基本上,model越复杂,train error就越少,但是test error 会成U型,比对应最低点
更复杂的model就是overfit了。
对于logistic,有些goodness of fit statistics本来就有penalty to overfit, 比如
说AIC。

【在 f****r 的大作中提到】
: 你刚才说啥了?没看到回帖啊?
x*******i
发帖数: 1791
5
logistic 为啥会overfit呢?
不太理解。
T*******I
发帖数: 5138
6
Hi, A大侠,
我一直没搞懂AIC或BIC是个什么东西。它们在统计建模中有何作用?其决定模型的
逻辑基础是什么?我问过SAS的Support Center,专家们说,当你用一个全样本空间建
单一的一个logistic模型时,尽管SAS系统也输出AIC的结果,但这个AIC没有任何意义
,即使在变量选择性的基础上(例如逐步回归)建立模型时,模型的确定也不是由最小
的AIC决定的,而是由进入或剔除变量的临界概率值决定的。因此,这个回答搞得我晕
头转向。既然如此,AIC在logistic回归分析中究竟起什么作用?望你能够一个比较有
说服力的解释。多谢了。
顺便请教你的回答中的几个术语的含义:什么是train error? 什么是test error?
如何理解model的overfit as well as the penalty to overfit? 如果一个model被判
定overfit,如何确定针对overfit的penalty的随机测量?多谢!

【在 A*******s 的大作中提到】
: 呵呵,说错的你就没必要知道了。
: 基本上,model越复杂,train error就越少,但是test error 会成U型,比对应最低点
: 更复杂的model就是overfit了。
: 对于logistic,有些goodness of fit statistics本来就有penalty to overfit, 比如
: 说AIC。

x*******i
发帖数: 1791
7
AIC =
-2loglikelihood+2k
model selection可以基于不同方法。如: -2loglikelihood,LS, 等等。
A*******s
发帖数: 3942
8
致T大师,
不要叫我大侠,折寿啊。
AIC,BIC都是goodness of fit statistics,就是衡量几个model哪个fit得更好呗。我
觉得sas专家的意思是,sas的AUTOMATIC model selection只能stepwise/forward/
backward。Goodness of fit stat肯定不能作为AUTOMATIC model selection的标准,
因为你得比较2^n个模型才行。但如果你只有几个模型可以比较,而且是用人脑而不是
用电脑做选择,为啥不能用AIC呢?
train error就是对于training data而言,test error就是对于test data而言。你看
楼上给出来的AIC公式就知道penalty是怎么样的了。我不大了解有啥普遍的方法是衡量
overfit的,看AIC的公式好像这个penalty也是拍脑袋想出来的:). 我平时一般用cross
validation来避免overfit。

error?

【在 T*******I 的大作中提到】
: Hi, A大侠,
: 我一直没搞懂AIC或BIC是个什么东西。它们在统计建模中有何作用?其决定模型的
: 逻辑基础是什么?我问过SAS的Support Center,专家们说,当你用一个全样本空间建
: 单一的一个logistic模型时,尽管SAS系统也输出AIC的结果,但这个AIC没有任何意义
: ,即使在变量选择性的基础上(例如逐步回归)建立模型时,模型的确定也不是由最小
: 的AIC决定的,而是由进入或剔除变量的临界概率值决定的。因此,这个回答搞得我晕
: 头转向。既然如此,AIC在logistic回归分析中究竟起什么作用?望你能够一个比较有
: 说服力的解释。多谢了。
: 顺便请教你的回答中的几个术语的含义:什么是train error? 什么是test error?
: 如何理解model的overfit as well as the penalty to overfit? 如果一个model被判

A*******s
发帖数: 3942
9
只要predictor够多,就肯定overfit吧。

【在 x*******i 的大作中提到】
: logistic 为啥会overfit呢?
: 不太理解。

1 (共1页)
进入Statistics版参与讨论
相关主题
SAS reg results are different for language SAS... :(用什么参数来评估Non-linear Regression Model?
ridge regression 都有哪些assumption需要check问个logistic model的面试问题
大家来看看这marketing intern是要懂什么的到底ROC能不能用来比较不同model
R里面哪个function/package做stepwise regression好?怎样比较hierarchical model
电话面试完了,肯定没戏,大家帮我看看题目,就算学习吧请问:R-square 可以用来评估GLM model得好坏吗
抓狂!为啥选出来的predictor都这么差有人用SAS么 或者统计大拿帮忙看一个低级问题 (转载)
为啥做了segmentation后模型fit更差?喜欢用AIC或BIC进行模型比较的,可以看一下
logistic regression结果释疑,解读请教SAS高手关于lasso...
相关话题的讨论汇总
话题: overfit话题: aic话题: logistic话题: error话题: model