logistic, overfit了怎么办？ - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - logistic, overfit了怎么办？

相关主题
● 电话面试完了，肯定没戏，大家帮我看看题目，就算学习吧	● 请问：R-square 可以用来评估GLM model得好坏吗
● 抓狂！为啥选出来的predictor都这么差	● 有人用SAS么或者统计大拿帮忙看一个低级问题 (转载)
● 为啥做了segmentation后模型fit更差？	● 喜欢用AIC或BIC进行模型比较的，可以看一下
● logistic regression结果释疑，解读	● 请教SAS高手关于lasso...
● 用什么参数来评估Non-linear Regression Model?	● one question about variable selection in SAS
● 问个logistic model的面试问题	● 紧急求助一个LOGISTIC REGRESSION 问题.
● 到底ROC能不能用来比较不同model	● Logistic model中 ROC曲线里面AUC 值太低怎么办？
● 怎样比较hierarchical model	● SAS reg results are different for language SAS... :(

相关话题的讨论汇总
话题: overfit话题: aic话题: logistic话题: error话题: model

进入Statistics版参与讨论

1

(共1页)

f****r 发帖数: 1140	1 什么情况下overfit? 然后怎么解决啊？
A*******s 发帖数: 3942	2 刚才说错了，应该是test error开始变大的就是overfit了。【在 f****r 的大作中提到】 : 什么情况下overfit? : 然后怎么解决啊？
f****r 发帖数: 1140	3 你刚才说啥了？没看到回帖啊？【在 A*******s 的大作中提到】 : 刚才说错了，应该是test error开始变大的就是overfit了。
A*******s 发帖数: 3942	4 呵呵，说错的你就没必要知道了。基本上，model越复杂，train error就越少，但是test error 会成U型，比对应最低点更复杂的model就是overfit了。对于logistic，有些goodness of fit statistics本来就有penalty to overfit, 比如说AIC。【在 f****r 的大作中提到】 : 你刚才说啥了？没看到回帖啊？
x*******i 发帖数: 1791	5 logistic 为啥会overfit呢？不太理解。
T*******I 发帖数: 5138	6 Hi, A大侠，我一直没搞懂AIC或BIC是个什么东西。它们在统计建模中有何作用？其决定模型的逻辑基础是什么？我问过SAS的Support Center，专家们说，当你用一个全样本空间建单一的一个logistic模型时，尽管SAS系统也输出AIC的结果，但这个AIC没有任何意义，即使在变量选择性的基础上（例如逐步回归）建立模型时，模型的确定也不是由最小的AIC决定的，而是由进入或剔除变量的临界概率值决定的。因此，这个回答搞得我晕头转向。既然如此，AIC在logistic回归分析中究竟起什么作用？望你能够一个比较有说服力的解释。多谢了。顺便请教你的回答中的几个术语的含义：什么是train error? 什么是test error? 如何理解model的overfit as well as the penalty to overfit? 如果一个model被判定overfit,如何确定针对overfit的penalty的随机测量？多谢！【在 A*******s 的大作中提到】 : 呵呵，说错的你就没必要知道了。 : 基本上，model越复杂，train error就越少，但是test error 会成U型，比对应最低点 : 更复杂的model就是overfit了。 : 对于logistic，有些goodness of fit statistics本来就有penalty to overfit, 比如 : 说AIC。
x*******i 发帖数: 1791	7 AIC = -2loglikelihood+2k model selection可以基于不同方法。如： -2loglikelihood，LS, 等等。
A*******s 发帖数: 3942	8 致T大师, 不要叫我大侠，折寿啊。 AIC，BIC都是goodness of fit statistics，就是衡量几个model哪个fit得更好呗。我觉得sas专家的意思是，sas的AUTOMATIC model selection只能stepwise/forward/ backward。Goodness of fit stat肯定不能作为AUTOMATIC model selection的标准，因为你得比较2^n个模型才行。但如果你只有几个模型可以比较，而且是用人脑而不是用电脑做选择，为啥不能用AIC呢？ train error就是对于training data而言，test error就是对于test data而言。你看楼上给出来的AIC公式就知道penalty是怎么样的了。我不大了解有啥普遍的方法是衡量 overfit的，看AIC的公式好像这个penalty也是拍脑袋想出来的:). 我平时一般用cross validation来避免overfit。 error? 【在 T*******I 的大作中提到】 : Hi, A大侠， : 我一直没搞懂AIC或BIC是个什么东西。它们在统计建模中有何作用？其决定模型的 : 逻辑基础是什么？我问过SAS的Support Center，专家们说，当你用一个全样本空间建 : 单一的一个logistic模型时，尽管SAS系统也输出AIC的结果，但这个AIC没有任何意义 : ，即使在变量选择性的基础上（例如逐步回归）建立模型时，模型的确定也不是由最小 : 的AIC决定的，而是由进入或剔除变量的临界概率值决定的。因此，这个回答搞得我晕 : 头转向。既然如此，AIC在logistic回归分析中究竟起什么作用？望你能够一个比较有 : 说服力的解释。多谢了。 : 顺便请教你的回答中的几个术语的含义：什么是train error? 什么是test error? : 如何理解model的overfit as well as the penalty to overfit? 如果一个model被判
A*******s 发帖数: 3942	9 只要predictor够多，就肯定overfit吧。【在 x*******i 的大作中提到】 : logistic 为啥会overfit呢？ : 不太理解。

1

(共1页)

进入Statistics版参与讨论

相关主题
● SAS reg results are different for language SAS... :(	● 用什么参数来评估Non-linear Regression Model?
● ridge regression 都有哪些assumption需要check	● 问个logistic model的面试问题
● 大家来看看这marketing intern是要懂什么的	● 到底ROC能不能用来比较不同model
● R里面哪个function/package做stepwise regression好？	● 怎样比较hierarchical model
● 电话面试完了，肯定没戏，大家帮我看看题目，就算学习吧	● 请问：R-square 可以用来评估GLM model得好坏吗
● 抓狂！为啥选出来的predictor都这么差	● 有人用SAS么或者统计大拿帮忙看一个低级问题 (转载)
● 为啥做了segmentation后模型fit更差？	● 喜欢用AIC或BIC进行模型比较的，可以看一下
● logistic regression结果释疑，解读	● 请教SAS高手关于lasso...

相关话题的讨论汇总
话题: overfit话题: aic话题: logistic话题: error话题: model

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)