G***G 发帖数: 16778 | 1 random forest, Support Vector Machine, neural network
prediction and classfication
I have training set and testing set.
the accuracy for the training set is good (almost 100%)
but the accuracy for the testing set is always bad (highest is 60%)
how to improve it? |
b*****2 发帖数: 47 | 2 How did you adjust your parameters? Did you try k fold cross validation? |
c*********o 发帖数: 8367 | 3 you overfitted the train sample, that is why is not working on testing set.
there is no way to get 100%, unless you have some variables directly linked
to the target. get rid of that variable and try again.
【在 G***G 的大作中提到】 : random forest, Support Vector Machine, neural network : prediction and classfication : I have training set and testing set. : the accuracy for the training set is good (almost 100%) : but the accuracy for the testing set is always bad (highest is 60%) : how to improve it?
|
r********n 发帖数: 6979 | 4 你选的怎么都是这么容易overfit的model
试试logistic regression
或者像上面的人说的用cross validation或者bootstrapping
对了
你的模型维数高的话还要先做feature selection
【在 G***G 的大作中提到】 : random forest, Support Vector Machine, neural network : prediction and classfication : I have training set and testing set. : the accuracy for the training set is good (almost 100%) : but the accuracy for the testing set is always bad (highest is 60%) : how to improve it?
|
d*****g 发帖数: 4364 | 5 typical overfitting
you may want to add controlling item to penalize the object function
【在 G***G 的大作中提到】 : random forest, Support Vector Machine, neural network : prediction and classfication : I have training set and testing set. : the accuracy for the training set is good (almost 100%) : but the accuracy for the testing set is always bad (highest is 60%) : how to improve it?
|
T*****u 发帖数: 7103 | 6 goog 你具体点吧。可能over fitting,pseudo correlation,怎么避免还要具体什么
情况。用的canned software还是自己写的,什么数据,啥物理模型,training set 和
validation set怎么采集的,training的条件啥的。 |
G***G 发帖数: 16778 | 7 一般什么算法的预测率最高: svm, rf, or nerual network?
我用的是weka.
【在 T*****u 的大作中提到】 : goog 你具体点吧。可能over fitting,pseudo correlation,怎么避免还要具体什么 : 情况。用的canned software还是自己写的,什么数据,啥物理模型,training set 和 : validation set怎么采集的,training的条件啥的。
|
T*****u 发帖数: 7103 | 8 俺不清楚,只能说no free lunch。用weka就看看Data Mining: Practical Machine
Learning Tools and Techniques呗。
【在 G***G 的大作中提到】 : 一般什么算法的预测率最高: svm, rf, or nerual network? : 我用的是weka.
|
w*******9 发帖数: 1433 | 9 所有data mining 的努力就是克服overfitting的问题,所以Goog你的问题general到等
价于“怎么做data mining”, 不是两句话就行的。你说的这些模型都很复杂,所以基
本上不会有太大的差别,主要取决于feature creation/selection,而这只能手动的
case by case解决。 |
s****0 发帖数: 2532 | 10 这里有这么多算法专家。老天啊,我为什么不早问呢?我有海量的从猴大脑记录的神经
信号需要处理,到处找合作者而不遇。
有合作意向的话,给我投条哦 |
|
|
r********n 发帖数: 6979 | 11 weka挺好的
就用它的nominal settings大部分时候效果都不错
不过我估计你的问题维数太高了
这几个model都是出了名的容易overfit
【在 G***G 的大作中提到】 : 一般什么算法的预测率最高: svm, rf, or nerual network? : 我用的是weka.
|
r********n 发帖数: 6979 | 12 你是在Duke, JHU还是UCLA?
【在 s****0 的大作中提到】 : 这里有这么多算法专家。老天啊,我为什么不早问呢?我有海量的从猴大脑记录的神经 : 信号需要处理,到处找合作者而不遇。 : 有合作意向的话,给我投条哦
|
g****s 发帖数: 1755 | 13 lol, 真没想到在这里看到这样的话题,看来弄算法和钓鱼还是有overlap的哈! |
G***G 发帖数: 16778 | 14 请问什么是nominal settings?
【在 r********n 的大作中提到】 : weka挺好的 : 就用它的nominal settings大部分时候效果都不错 : 不过我估计你的问题维数太高了 : 这几个model都是出了名的容易overfit
|
r********n 发帖数: 6979 | 15 就是默认设置
【在 G***G 的大作中提到】 : 请问什么是nominal settings?
|
s***e 发帖数: 5242 | 16 你在学校?大方向是啥?
【在 r********n 的大作中提到】 : 就是默认设置
|
r********n 发帖数: 6979 | 17 不在学校
做machine learning的。。。
【在 s***e 的大作中提到】 : 你在学校?大方向是啥?
|