请教：如何做regression model的validation？ - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 请教：如何做regression model的validation？

相关主题
● bagging 用于logistic regression because of unbalance data	● 求推荐稍微advanced且又applied的 linear regression的书
● spline regression	● regression要求做normality test么？
● 请推荐 linear regression 的书，有电子版本的么？	● 再问一个linear regression 问题
● random forest里面为什么是"可放回"的resample呢？	● hotel booking model分析
● 【求书】Regression modeling strategies: with applications to linear models, logistic regression, and sur	● regression的时候提高自由度对模式有什么好处？
● 紧急求助一个LOGISTIC REGRESSION 问题.	● 问一个关于linear regression的问题，大家不要笑我。
● 问个modeling data size的问题	● 急问：请教一个muliticollinearity的面试问题，谢谢！
● 如何做sampling	● 10个包子，请教我做一道regression的题。。

相关话题的讨论汇总
话题: regression话题: validation话题: model话题: harrell话题: equation

进入Statistics版参与讨论

1

(共1页)

f***l 发帖数: 117	1 我用对population中的一组sample集fit出一个regression equation后，现在想用另一组sample集来验证这个regression equation是否正确，或者至少评价一下这个 regression model的性能，应该怎么做呢？谢谢！
a*z 发帖数: 294	2 test MSE?
f***l 发帖数: 117	3 使用MSE等指标的一个问题是很难判断所得到的数值是太大或者太小，不像R^2这样的指标那么直观。但是如果对test set再做regression，得到的regression equation肯定和training set的有所区别，这时候应该怎么统一我也不清楚。另外关于模型性能的问题是，如果将test set的数值代入从training set中得到的 regression equation来做prediction，因为regression model实际是mean的 prediction，所以实际一一对应的预测效果要差的多，不知道这个怎么解决. 【在 a*z 的大作中提到】 : test MSE?
d********t 发帖数: 837	4 R^2 is fine. Your understanding of validation is not up-to-date with the prevailing thinking on this issue. Take a look at Section 5 of Frank Harrell 's Regression modeling strategies. You are better off combining both sets of data , and use resampling to assess the model.
f***l 发帖数: 117	5 It is very Helpful. Thank you very much! Harrell of 【在 d********t 的大作中提到】 : R^2 is fine. Your understanding of validation is not up-to-date with the : prevailing thinking on this issue. Take a look at Section 5 of Frank Harrell : 's Regression modeling strategies. You are better off combining both sets of : data , and use resampling to assess the model.
t*****2 发帖数: 94	6 Part of the project I am currently working is similar to this problem. What I did is 10 fold cross validation and bagging method. At the end, we just averaged the predicted values as the final results, which turns out pretty good. I don't know what other methods statisticians apply to this problem.
T*******I 发帖数: 5138	7 你所谓的traning sample和test sample是两个非常不确切的定义，也就是说，这两个定义的对象和定义的内涵是可以互换的。所以，谁可以validate谁就是一个问题了。简单地说，你的问题可以被归结为两个样本所代表的总体回归模型的差异性检验。这应该不是很难的问题。【在 f***l 的大作中提到】 : 使用MSE等指标的一个问题是很难判断所得到的数值是太大或者太小，不像R^2这样的指 : 标那么直观。 : 但是如果对test set再做regression，得到的regression equation肯定和training : set的有所区别，这时候应该怎么统一我也不清楚。 : 另外关于模型性能的问题是，如果将test set的数值代入从training set中得到的 : regression equation来做prediction，因为regression model实际是mean的 : prediction，所以实际一一对应的预测效果要差的多，不知道这个怎么解决.
f***l 发帖数: 117	8 感谢诸位解答。通过几天研究，目前我对这个问题的理解归结为两类方法，请大家指正。一类如digitalcat和tony112所说，用resampling方法，比较简单的方法可以采用Frank Harrell回答一个学生提问中的建议：“To get sufficient precision if not using the bootstrap I suggest doing 100 repeats of 10-fold cross-validation and averaging results. Single data splitting has been shown to not be reliable.” 另一类方法如TNEGIETNI所说，进行回归模型的差异性检验。compare regression coefficients between 2 groups。

1

(共1页)

进入Statistics版参与讨论

相关主题
● 10个包子，请教我做一道regression的题。。	● 【求书】Regression modeling strategies: with applications to linear models, logistic regression, and sur
● 长周末了，还有人答疑么？关于CHI^2的。	● 紧急求助一个LOGISTIC REGRESSION 问题.
● 用LASSO选变量后重新fit regression有什么弊端？	● 问个modeling data size的问题
● multiequation regression question	● 如何做sampling
● bagging 用于logistic regression because of unbalance data	● 求推荐稍微advanced且又applied的 linear regression的书
● spline regression	● regression要求做normality test么？
● 请推荐 linear regression 的书，有电子版本的么？	● 再问一个linear regression 问题
● random forest里面为什么是"可放回"的resample呢？	● hotel booking model分析

相关话题的讨论汇总
话题: regression话题: validation话题: model话题: harrell话题: equation

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)