m*p 发帖数: 1331 | 1 如果用K fold CV 的话,会得到K个model,然后再实际应用中应该选哪个model呢?用
accuracy or AUC 最高的那个? |
D***r 发帖数: 7511 | 2 这个是比较主观的
一般就直接用accuracy
【在 m*p 的大作中提到】 : 如果用K fold CV 的话,会得到K个model,然后再实际应用中应该选哪个model呢?用 : accuracy or AUC 最高的那个?
|
s*w 发帖数: 729 | 3 In my understanding, k-fold cross-validation is used to estimate the general
ization error. So you do not really just pick the best one from one fold.
If you have a certain set of paraemters for your model, and an evaluation cr
iteria for your model, then k-fold c-v is able to tell you which set of para
meters got what evaluation.
since k-fold came into being from random parition into k-folds, it is better
to run multiple times of k-fold c-v and got a mean and std of your evalutat
ion results from all runs, where each run has a single number
【在 m*p 的大作中提到】 : 如果用K fold CV 的话,会得到K个model,然后再实际应用中应该选哪个model呢?用 : accuracy or AUC 最高的那个?
|
p*********e 发帖数: 303 | 4 不是每个fold选一个model/parameter,
而是选一个model在所有fold上平均最好,
最后在把这个model在所有数据上训练一遍。
【在 m*p 的大作中提到】 : 如果用K fold CV 的话,会得到K个model,然后再实际应用中应该选哪个model呢?用 : accuracy or AUC 最高的那个?
|
m*p 发帖数: 1331 | 5 thanks guys.
one way is to average K model outputs. that's easy to understand.
what do you mean by "而是选一个model在所有fold上平均最好"?
could you please explain it using linear SVM as an example? thanks!
【在 p*********e 的大作中提到】 : 不是每个fold选一个model/parameter, : 而是选一个model在所有fold上平均最好, : 最后在把这个model在所有数据上训练一遍。
|
p*********e 发帖数: 303 | 6 假设对linear svm的参数C, 要从C1到Ck中找到最好的一个值,
先把数据分成N份, 每次拿出1份测试, 剩下的N-1份训练,一共有N中不同的拿法。
对于每一种拿法, 训练对应不同参数C的linear svm,并在剩下的1份上测试, 得到
accuracy。所以对于每个参数值, 都得到N种拿法对应的N个accuracy, 最后对应平均
accuracy最高的那个参数值作为选定的C, 再到所有N份数据上训练。
【在 m*p 的大作中提到】 : thanks guys. : one way is to average K model outputs. that's easy to understand. : what do you mean by "而是选一个model在所有fold上平均最好"? : could you please explain it using linear SVM as an example? thanks!
|
m*p 发帖数: 1331 | 7 ic. that's the grid search in libsvm...
how about for ensemble classifiers like adaboost? there is no simple
parameter like C.
Thanks!
【在 p*********e 的大作中提到】 : 假设对linear svm的参数C, 要从C1到Ck中找到最好的一个值, : 先把数据分成N份, 每次拿出1份测试, 剩下的N-1份训练,一共有N中不同的拿法。 : 对于每一种拿法, 训练对应不同参数C的linear svm,并在剩下的1份上测试, 得到 : accuracy。所以对于每个参数值, 都得到N种拿法对应的N个accuracy, 最后对应平均 : accuracy最高的那个参数值作为选定的C, 再到所有N份数据上训练。
|