s*w 发帖数: 729 | 1 这里专家多,问一下这个我找不到标准答案的问题
通常 cross-validation 被用来做 model selection (比如 classifier 里面的某个
parameter), 假码大致如下:
random parition data set into train and test
for C = 若干候选值
acc1,acc2,...acc10 = do 10-fold cross-validation on train for model(C)
meanAcc = mean(acc1,...acc10)
if meanAcc > bestAcc
bestAcc = meanAcc
bestC = C
这个做法是我在 libsvm 里看到的用法。我的问题是 acc1,..acc10 这10个数据 varia
nce 也很大啊,直接比 meanAcc 是不是没啥意义(我自己随便找两组出来的20个数,前
10个和后10个的 mean t test 没啥差别啊);有没有更好的做法? | s***5 发帖数: 2136 | 2 shuffle data set, and then random sampling. Repeat the CV experiment for 6-
10 times and take the mean of the mean accuracy of each CV. | s*w 发帖数: 729 | 3 这个是不是就是 nested CV ?
我看文献貌似说 nested CV outer loop 用来 estimate performace, inner loop 用
来调参数。所以 nested CV 没解答我的疑问啊:inner loop cv 里面挑最好的
performance 本身可能没意义啊
【在 s***5 的大作中提到】 : shuffle data set, and then random sampling. Repeat the CV experiment for 6- : 10 times and take the mean of the mean accuracy of each CV.
|
|