f***l 发帖数: 117 | 1 我用对population中的一组sample集fit出一个regression equation后,现在想用另一
组sample集来验证这个regression equation是否正确,或者至少评价一下这个
regression model的性能,应该怎么做呢?谢谢! |
a*z 发帖数: 294 | |
f***l 发帖数: 117 | 3 使用MSE等指标的一个问题是很难判断所得到的数值是太大或者太小,不像R^2这样的指
标那么直观。
但是如果对test set再做regression,得到的regression equation肯定和training
set的有所区别,这时候应该怎么统一我也不清楚。
另外关于模型性能的问题是,如果将test set的数值代入从training set中得到的
regression equation来做prediction,因为regression model实际是mean的
prediction,所以实际一一对应的预测效果要差的多,不知道这个怎么解决.
【在 a*z 的大作中提到】 : test MSE?
|
d********t 发帖数: 837 | 4 R^2 is fine. Your understanding of validation is not up-to-date with the
prevailing thinking on this issue. Take a look at Section 5 of Frank Harrell
's Regression modeling strategies. You are better off combining both sets of
data , and use resampling to assess the model. |
f***l 发帖数: 117 | 5 It is very Helpful. Thank you very much!
Harrell
of
【在 d********t 的大作中提到】 : R^2 is fine. Your understanding of validation is not up-to-date with the : prevailing thinking on this issue. Take a look at Section 5 of Frank Harrell : 's Regression modeling strategies. You are better off combining both sets of : data , and use resampling to assess the model.
|
t*****2 发帖数: 94 | 6 Part of the project I am currently working is similar to this problem. What
I did is 10 fold cross validation and bagging method. At the end, we just
averaged the predicted values as the final results, which turns out pretty
good. I don't know what other methods statisticians apply to this problem. |
T*******I 发帖数: 5138 | 7 你所谓的traning sample和test sample是两个非常不确切的定义,也就是说,这两个
定义的对象和定义的内涵是可以互换的。所以,谁可以validate谁就是一个问题了。
简单地说,你的问题可以被归结为两个样本所代表的总体回归模型的差异性检验。这应
该不是很难的问题。
【在 f***l 的大作中提到】 : 使用MSE等指标的一个问题是很难判断所得到的数值是太大或者太小,不像R^2这样的指 : 标那么直观。 : 但是如果对test set再做regression,得到的regression equation肯定和training : set的有所区别,这时候应该怎么统一我也不清楚。 : 另外关于模型性能的问题是,如果将test set的数值代入从training set中得到的 : regression equation来做prediction,因为regression model实际是mean的 : prediction,所以实际一一对应的预测效果要差的多,不知道这个怎么解决.
|
f***l 发帖数: 117 | 8 感谢诸位解答。通过几天研究,目前我对这个问题的理解归结为两类方法,请大家指正。
一类如digitalcat和tony112所说,用resampling方法,比较简单的方法可以采用Frank
Harrell回答一个学生提问中的建议:“To get sufficient precision if not using
the bootstrap I suggest doing 100 repeats of 10-fold cross-validation and
averaging results. Single data splitting has been shown to not be reliable.”
另一类方法如TNEGIETNI所说,进行回归模型的差异性检验。compare regression
coefficients between 2 groups。 |