由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 请问xgboost训练需要保持不同类别样本数尽量一致吗?
相关主题
求教 xgboost train error 非常小,咋回事Re: Zillow Prize kaggle的比赛 求问
svm/svr还是不错的大家试过 h2o吗?
单变量xgboost模型好的吓人,求解xgboost预测结果不一致怎么回事?
有没有做sentiment analysis的,求思路求集合包含,最快的算法是什么?
xgboost 训练大数据问题问大家一个C语言编程的小问题
xgboost 训练小感这个小孩真牛啊
xgboost 里面的tree到底是一整个depth=N的树,还是一个binary有没有觉得scipy很稀烂的?
彻底抛弃xgboost 找新欢lightlgm没毛病吧?搞大数据那帮人连个quick sort都写不出来
相关话题的讨论汇总
话题: xgboost话题: 类别话题: 样本数话题: 保持话题: 不同
进入Programming版参与讨论
1 (共1页)
g*******u
发帖数: 3948
1
需要保持不同类别训练样本数目 balanced吗? 还是无所谓?
thx
N*****r
发帖数: 94
2

xgboost内部有对样本的平衡
但每种样本不能太少,至少得到统计显著吧

【在 g*******u 的大作中提到】
: 需要保持不同类别训练样本数目 balanced吗? 还是无所谓?
: thx

M********0
发帖数: 1230
3
1. 调参
http://xgboost.readthedocs.io/en/latest/how_to/param_tuning.html
2. 对数据up/down-sampling进行预处理
m******r
发帖数: 1033
4
response rate 就算很低, 比如1% 我觉着做不做平衡问题不大。 你做了平衡, 虽说
可以增加一些性能, 比如敏感度。 但根客户解释起来,比较困难。 比如average
response rate 是一个百分点, 某客户得分百分之二或者千分之八, 市场部的大妈
可以马上做决定。
如果你搞平衡了,各打五十大板以后,同样的客户得分.85, 你让市场部大妈怎么做决
定呢?
1 (共1页)
进入Programming版参与讨论
相关主题
搞大数据那帮人连个quick sort都写不出来xgboost 训练大数据问题
抛砖引说说APP后端用Parse的经验xgboost 训练小感
最近在用clj干活。顺便看了看macro 倒吸一口冷气。xgboost 里面的tree到底是一整个depth=N的树,还是一个binary
最好用的html5 或者javascript 3D visualization library 哪个?谢谢彻底抛弃xgboost 找新欢lightlgm没毛病吧?
求教 xgboost train error 非常小,咋回事Re: Zillow Prize kaggle的比赛 求问
svm/svr还是不错的大家试过 h2o吗?
单变量xgboost模型好的吓人,求解xgboost预测结果不一致怎么回事?
有没有做sentiment analysis的,求思路求集合包含,最快的算法是什么?
相关话题的讨论汇总
话题: xgboost话题: 类别话题: 样本数话题: 保持话题: 不同