由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 请教:如何做regression model的validation?
相关主题
bagging 用于logistic regression because of unbalance data求推荐稍微advanced且又applied的 linear regression的书
spline regressionregression要求做normality test么?
请推荐 linear regression 的书,有电子版本的么?再问一个linear regression 问题
random forest里面为什么是"可放回"的resample呢?hotel booking model分析
【求书】Regression modeling strategies: with applications to linear models, logistic regression, and surregression的时候提高自由度对模式有什么好处?
紧急求助一个LOGISTIC REGRESSION 问题.问一个关于linear regression的问题,大家不要笑我。
问个modeling data size的问题急问:请教一个muliticollinearity的面试问题,谢谢!
如何做sampling10个包子,请教我做一道regression的题。。
相关话题的讨论汇总
话题: regression话题: validation话题: model话题: harrell话题: equation
进入Statistics版参与讨论
1 (共1页)
f***l
发帖数: 117
1
我用对population中的一组sample集fit出一个regression equation后,现在想用另一
组sample集来验证这个regression equation是否正确,或者至少评价一下这个
regression model的性能,应该怎么做呢?谢谢!
a*z
发帖数: 294
2
test MSE?
f***l
发帖数: 117
3
使用MSE等指标的一个问题是很难判断所得到的数值是太大或者太小,不像R^2这样的指
标那么直观。
但是如果对test set再做regression,得到的regression equation肯定和training
set的有所区别,这时候应该怎么统一我也不清楚。
另外关于模型性能的问题是,如果将test set的数值代入从training set中得到的
regression equation来做prediction,因为regression model实际是mean的
prediction,所以实际一一对应的预测效果要差的多,不知道这个怎么解决.

【在 a*z 的大作中提到】
: test MSE?
d********t
发帖数: 837
4
R^2 is fine. Your understanding of validation is not up-to-date with the
prevailing thinking on this issue. Take a look at Section 5 of Frank Harrell
's Regression modeling strategies. You are better off combining both sets of
data , and use resampling to assess the model.
f***l
发帖数: 117
5
It is very Helpful. Thank you very much!

Harrell
of

【在 d********t 的大作中提到】
: R^2 is fine. Your understanding of validation is not up-to-date with the
: prevailing thinking on this issue. Take a look at Section 5 of Frank Harrell
: 's Regression modeling strategies. You are better off combining both sets of
: data , and use resampling to assess the model.

t*****2
发帖数: 94
6
Part of the project I am currently working is similar to this problem. What
I did is 10 fold cross validation and bagging method. At the end, we just
averaged the predicted values as the final results, which turns out pretty
good. I don't know what other methods statisticians apply to this problem.
T*******I
发帖数: 5138
7
你所谓的traning sample和test sample是两个非常不确切的定义,也就是说,这两个
定义的对象和定义的内涵是可以互换的。所以,谁可以validate谁就是一个问题了。
简单地说,你的问题可以被归结为两个样本所代表的总体回归模型的差异性检验。这应
该不是很难的问题。

【在 f***l 的大作中提到】
: 使用MSE等指标的一个问题是很难判断所得到的数值是太大或者太小,不像R^2这样的指
: 标那么直观。
: 但是如果对test set再做regression,得到的regression equation肯定和training
: set的有所区别,这时候应该怎么统一我也不清楚。
: 另外关于模型性能的问题是,如果将test set的数值代入从training set中得到的
: regression equation来做prediction,因为regression model实际是mean的
: prediction,所以实际一一对应的预测效果要差的多,不知道这个怎么解决.

f***l
发帖数: 117
8
感谢诸位解答。通过几天研究,目前我对这个问题的理解归结为两类方法,请大家指正。
一类如digitalcat和tony112所说,用resampling方法,比较简单的方法可以采用Frank
Harrell回答一个学生提问中的建议:“To get sufficient precision if not using
the bootstrap I suggest doing 100 repeats of 10-fold cross-validation and
averaging results. Single data splitting has been shown to not be reliable.”
另一类方法如TNEGIETNI所说,进行回归模型的差异性检验。compare regression
coefficients between 2 groups。
1 (共1页)
进入Statistics版参与讨论
相关主题
10个包子,请教我做一道regression的题。。【求书】Regression modeling strategies: with applications to linear models, logistic regression, and sur
长周末了,还有人答疑么?关于CHI^2的。紧急求助一个LOGISTIC REGRESSION 问题.
用LASSO选变量后重新fit regression有什么弊端?问个modeling data size的问题
multiequation regression question如何做sampling
bagging 用于logistic regression because of unbalance data求推荐稍微advanced且又applied的 linear regression的书
spline regressionregression要求做normality test么?
请推荐 linear regression 的书,有电子版本的么?再问一个linear regression 问题
random forest里面为什么是"可放回"的resample呢?hotel booking model分析
相关话题的讨论汇总
话题: regression话题: validation话题: model话题: harrell话题: equation