g*******u 发帖数: 3948 | 1 一堆数据训练了分类器 c1 c2 c3... 怎么融合为一个?
比如训练了一个svm的 训练了一个xgboost 训练了一个 randomforest的
最后咋融合结果呢?
最简单直接平均一下probs 输出
有没有晒微高级 并且鲁棒点的? 谢谢 |
L****8 发帖数: 3938 | 2 把三个输入 当做特征向量 再训练一个神经网络
【在 g*******u 的大作中提到】 : 一堆数据训练了分类器 c1 c2 c3... 怎么融合为一个? : 比如训练了一个svm的 训练了一个xgboost 训练了一个 randomforest的 : 最后咋融合结果呢? : 最简单直接平均一下probs 输出 : 有没有晒微高级 并且鲁棒点的? 谢谢
|
g*******u 发帖数: 3948 | 3 我也这么想的
先训练n个分类器, 然后每个分类器作为一个feature生成器对每个样本输出一个prob
的特征 连接起来 然后训练一个总的对吧?
有个问题
比如 有两个分类器c1 c2
对样本i c1的概率输出是 p1= [p_c1_0 p_c1_1]
c1的概率输出是 p2=[p_c2_0 p_c2_1]
你意思吧p1 p2 stack起来 形成一个特征向量 进行训练?
也就是[p1 p2] =[p_c1_0 p_c1_1 p_c2_0 p_c2_1]
如果这样的话 一个问题是 我有很多分类器 比如有50个 这样stack起来 特征维数会
很大啊
比如50个分类器 分类 20类别问题 连接起来 有1,000维度啊
是不是 特征维度会太大?
还是我理解的有问题?
谢谢
【在 L****8 的大作中提到】 : 把三个输入 当做特征向量 再训练一个神经网络
|
g****t 发帖数: 31659 | 4 误差大的权重小
所有的融合不能违背这个原理
误差和权重的大小用什么数学技术衡量
以及具体多大误差的分类器多少权重
这取决于你要忽悠人还是自己用 |
g****t 发帖数: 31659 | 5 再次训练你的数据够吗……
第二次训练数据比第一次少很多了吧
数据不够不会有很多问题出来
: 我也这么想的
: 先训练n个分类器, 然后每个分类器作为一个feature生成器对每个样本
输出一
个prob
: 的特征 连接起来 然后训练一个总的对吧?
: 有个问题
: 比如 有两个分类器c1 c2
: 对样本i c1的概率输出是 p1= [p_c1_0 p_c1_1]
: c1的概率输出是 p2=[p_c2_0 p_c2_1]
: 你意思吧p1 p2 stack起来 形成一个特征向量 进行训练?
: 也就是[p1 p2] =[p_c1_0 p_c1_1 p_c2_0 p_c2_1]
: 如果这样的话 一个问题是 我有很多分类器 比如有50个 这样stack起
来 特征
维数会
【在 g*******u 的大作中提到】 : 我也这么想的 : 先训练n个分类器, 然后每个分类器作为一个feature生成器对每个样本输出一个prob : 的特征 连接起来 然后训练一个总的对吧? : 有个问题 : 比如 有两个分类器c1 c2 : 对样本i c1的概率输出是 p1= [p_c1_0 p_c1_1] : c1的概率输出是 p2=[p_c2_0 p_c2_1] : 你意思吧p1 p2 stack起来 形成一个特征向量 进行训练? : 也就是[p1 p2] =[p_c1_0 p_c1_1 p_c2_0 p_c2_1] : 如果这样的话 一个问题是 我有很多分类器 比如有50个 这样stack起来 特征维数会
|
g*******u 发帖数: 3948 | 6 当然自己用了啊
感觉直接vote或者 average是不是也就差不多了
先训练 50个分类器
然后 再用同样数据 继续训练
一共就那些个数据
【在 g****t 的大作中提到】 : 误差大的权重小 : 所有的融合不能违背这个原理 : 误差和权重的大小用什么数学技术衡量 : 以及具体多大误差的分类器多少权重 : 这取决于你要忽悠人还是自己用
|
g****t 发帖数: 31659 | 7 那就误差的均方差的倒数当权值。
加权平均试试看。
: 当然自己用了啊
: 感觉直接vote或者 average是不是也就差不多了
: 先训练 50个分类器
: 然后 再用同样数据 继续训练
: 一共就那些个数据
【在 g*******u 的大作中提到】 : 当然自己用了啊 : 感觉直接vote或者 average是不是也就差不多了 : 先训练 50个分类器 : 然后 再用同样数据 继续训练 : 一共就那些个数据
|
n******g 发帖数: 2201 | 8 random forest n_tree = 100 的时候就是简单平均吧
【在 g*******u 的大作中提到】 : 当然自己用了啊 : 感觉直接vote或者 average是不是也就差不多了 : 先训练 50个分类器 : 然后 再用同样数据 继续训练 : 一共就那些个数据
|