由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 用10-fold cross-validation 之后怎么挑Model?
相关主题
困惑: 用cross validationce 来评估performance的时候,还需要把原始的dataset区分为train 和test吗?Random forests on imbalanced data
weka有支持regression tree的random forest吗 (转载)An example of cross validation not working
求教分类问题中预测概率的问题报面筋求实习合租 (转载)
R 里面random forest score新的data有new level的问题我觉得neural network应用范围不大啊
random forest/xgbclassifier的feature importance大数据时代的最大挑战(一)?
一个面试题(predictive model) (转载)SE/Data scientist找工作总结[F/G/L/T/D/P/U…] (转载)
做credit risk scorecard的朋友们, 请进来, 有问题求教 (转载)kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?
现在的大数据技术的价值和功用有些被夸大了一般data scientist都是什么背景,一定要phd吗?
相关话题的讨论汇总
话题: model话题: validation话题: cross话题: error话题: random
进入DataSciences版参与讨论
1 (共1页)
t*****i
发帖数: 11
1
一个不大的数据,十几万个record, 一百个变量,用random forest作 binary
classification
因为有over-fitting, 决定用 10-fold cross-validation
做完之后,有十个 random forest Models
下一步 怎么做?
之后 是挑 validation error (on its set-aside 10th hold-out set) 最小的那个
Model吗?(需要一个final model 放进 production system)
Thanks!
T*****u
发帖数: 7103
2
kfold不是这么用的吧。。。如果你这10个model parameters有很大不同,就不是挑哪
个cherry的问题,而是你对这个model有多少信心的问题。大概可以理解成posterior
distribution。
h********3
发帖数: 2075
3
Model Selection上来说,可以就这样用。挑个总共error最小的就行了。
楼上说的是一个confidence的估计。大概的意思是,你跑10个fold,可以得到10个
testing error。那么这10个error值,构成一个distribution。如果这个distribution
的varaince很大,那么说明你这个model不够consistent,跟随机的差不多,那么就没
意义了。

【在 T*****u 的大作中提到】
: kfold不是这么用的吧。。。如果你这10个model parameters有很大不同,就不是挑哪
: 个cherry的问题,而是你对这个model有多少信心的问题。大概可以理解成posterior
: distribution。

T*****u
发帖数: 7103
4
想想也不矛盾,多谢分享。

distribution

【在 h********3 的大作中提到】
: Model Selection上来说,可以就这样用。挑个总共error最小的就行了。
: 楼上说的是一个confidence的估计。大概的意思是,你跑10个fold,可以得到10个
: testing error。那么这10个error值,构成一个distribution。如果这个distribution
: 的varaince很大,那么说明你这个model不够consistent,跟随机的差不多,那么就没
: 意义了。

c***z
发帖数: 6348
5
I could do a feature selection first
d******y
发帖数: 322
6

用cross validation 选 Random Forest感觉怪怪的
In random forests, there is no need for cross-validation or a separate test
set to get an unbiased estimate of the test set error. It is estimated
internally, during the run
http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

【在 t*****i 的大作中提到】
: 一个不大的数据,十几万个record, 一百个变量,用random forest作 binary
: classification
: 因为有over-fitting, 决定用 10-fold cross-validation
: 做完之后,有十个 random forest Models
: 下一步 怎么做?
: 之后 是挑 validation error (on its set-aside 10th hold-out set) 最小的那个
: Model吗?(需要一个final model 放进 production system)
: Thanks!

l*******s
发帖数: 1258
7
这是用来挑feature的而不是model的
b*****o
发帖数: 715
8
You don't need cross-validation for random forest. OOB is somehow similar to
CV in spirit.
I suspect you confuse training error with OOB error when you say the model
over fits. Try to compare OOB error with test error, and see whether they
are similar.

【在 t*****i 的大作中提到】
: 一个不大的数据,十几万个record, 一百个变量,用random forest作 binary
: classification
: 因为有over-fitting, 决定用 10-fold cross-validation
: 做完之后,有十个 random forest Models
: 下一步 怎么做?
: 之后 是挑 validation error (on its set-aside 10th hold-out set) 最小的那个
: Model吗?(需要一个final model 放进 production system)
: Thanks!

B*******6
发帖数: 103
9
random forest什么的ensemble method应该是不容易overfit的
h*****7
发帖数: 6781
10
nod
smart training, boosting这些趣头也都是一个原理

【在 B*******6 的大作中提到】
: random forest什么的ensemble method应该是不容易overfit的
1 (共1页)
进入DataSciences版参与讨论
相关主题
一般data scientist都是什么背景,一定要phd吗?random forest/xgbclassifier的feature importance
Colah 关于 neural network 的一篇博客一个面试题(predictive model) (转载)
look alike model 有什么学习资料吗?做credit risk scorecard的朋友们, 请进来, 有问题求教 (转载)
怎么处理categorical variable有很多个level的现在的大数据技术的价值和功用有些被夸大了
困惑: 用cross validationce 来评估performance的时候,还需要把原始的dataset区分为train 和test吗?Random forests on imbalanced data
weka有支持regression tree的random forest吗 (转载)An example of cross validation not working
求教分类问题中预测概率的问题报面筋求实习合租 (转载)
R 里面random forest score新的data有new level的问题我觉得neural network应用范围不大啊
相关话题的讨论汇总
话题: model话题: validation话题: cross话题: error话题: random