由买买提看人间百态

topics

全部话题 - 话题: xgb
1 (共1页)
m******r
发帖数: 1033
1
来自主题: Programming版 - xgb.dump 怎么多输出两棵树?
再过来请教大家一次。
xgb.dump不知谁用过没有 ? 就是把xgb的模型输出成一堆决策树(forest). 用xgb.
train的时候,程序提示如下:
Stopping. Best iteration:
[170] train-auc:0.844678
[171] train-auc:0.844678
[172] train-auc:0.844678
[173] train-auc:0.844678
Stopping. Best iteration:
[73] train-auc:0.844718
让人不理解的是,xgb.dump 导出来的树(是个简单的文本文件, nodes, leafs, etc)
有75棵。 难道不应该是73棵么? 一棵树对应一个iteration.
文本文件的后半部分如下, 大家帮忙看看。
booster[73]
0:[f0<0.183333] yes=1,no=2,missing=1,gain=0.218959,cover=1687.94
1:leaf=0.0465228,cover=8.03316
2:[f... 阅读全帖
z***t
发帖数: 10817
2

threadripper CPU + 2x Titan Xps 多GPU训练
CPU TO GPU正常:12GB/s,GPU TO CPU十分慢才4.xGB/s P2P GPU 才1.xGB/s
以上不构成投资建议
资本市场和应用市场有关联也有区隔 也许32core题材amd股票会有一波行情
r*****y
发帖数: 53800
3
F有xgb,xgb有更硬的后台。
m******r
发帖数: 1033
4
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
最近闭门造车,不接电话,不回电邮,不上网, 死几百咧,造了个模型,先用线性逻
辑回归,试来试去,性能不理想,AUC大概63% . 这也没什么奇怪的,并不是给你一堆
数,就能造个模型出来。 反正试来试去,就这一个变量可用,, 假定为A, AUC = 63%
然后我就用xgboost, 我的妈,AUC一下上升到95%, 96%,97%, 98%, 因为编程太弱
,我的土方法是:一个变量一个变量试, 都是manual work, 每次只跑一个变量,记录
重要结果,保存在excel里。 最终结果是:仅用A变量,AUC = 95%, 在此基础上加上一
点别的变量, AUC 很快飞涨到97%, 98%
我知道这种基于树的模型容易过度拟合, 就特意找了好几年前的老数据(真实数据)测
试。 测试的AUC性能一点都不下降, 和原来的差距小于1%. 所以不能说是过度拟合。
现在问题来了,我想来想去不明白为什么这个变量用在xgb有这么高的AUC? 不明白xgb
施了什么法术?向业务部门也很难解释,做个简单的tabulation, 能依稀看出一些
trend (这到能说明 线性回归下此变量达到AUC = 63... 阅读全帖
n******g
发帖数: 2201
5
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
你的变量大概是target 的别名 比如用每分钟速度预测时速 当然很准
[在 magliner (magliner) 的大作中提到:]
:最近闭门造车,不接电话,不回电邮,不上网, 死几百咧,造了个模型,先用线性逻
:辑回归,试来试去,性能不理想,AUC大概63% . 这也没什么奇怪的,并不是给你一堆
:数,就能造个模型出来。 反正试来试去,就这一个变量可用,, 假定为A, AUC = 63%
:然后我就用xgboost, 我的妈,AUC一下上升到95%, 96%,97%, 98%, 因为编程太弱
:,我的土方法是:一个变量一个变量试, 都是manual work, 每次只跑一个变量,记
录重要结果,保存在excel里。 最终结果是:仅用A变量,AUC = 95%, 在此基础上加上
一点别的变量, AUC 很快飞涨到97%, 98%
:我知道这种基于树的模型容易过度拟合, 就特意找了好几年前的老数据(真实数据)
测试。 测试的AUC性能一点都不下降, 和原来的差距小于1%. 所以不能说是过度拟合。
:现在问题来了,我想来想去不明白为什么这个变量用在xgb有这么高的AUC? 不明白xg... 阅读全帖
M********0
发帖数: 1230
6
各有各的优势
xgb用hist速度不比lgbm慢啊 accuracy有时候xgb更好
lgbm处理categorical更好些 当有大量high-cardinality categorical feature的时候
lgbm是首选 有cat_smooth等参数可调以防overfitting
武器库里总是多一样更好
p**h
发帖数: 124
7
试过 xgb 和 lgbm. 对网上的一些数据,两个表现差不多,也不用怎么调结果都不错。
不过用到 finance 数据,xgb 算的好很多。也有可能我没调好。
T****r
发帖数: 22092
8
发信人: xgb (学工办), 信区: VoiceofNankai
标 题: 4月10日晚我校一学生溺水身亡的有关情况
发信站: 我爱南开站 (2007年04月11日09:57:00 星期三)
张斌,男,天津人,南开大学数学科学学院2005级学生,于2007年4月10日22点10
分左右,在学校化学楼前小引河处投河,营救后送往医院抢救无效死亡。经公安机关认
定,排除他杀可能,为溺水死亡。现学校有关部门及数学学院正积极配合公安机关及学
生家属做好善后处理事宜。
党委学工部
2007-4-11
ET
发帖数: 10701
9
http://www.xgb.zju.edu.cn/~hsboy/movie/jj.htm
《MEMORY》
《MEMEORY》是浙江大学竺可桢学院一群大四学生自编自导自演的短片。从筹备到后
期制作完成,前后历时一个月。
这部短片以回忆的方式,描绘了一位即将离校的浙大学子四年本科生活中的几个片断,
反映了青春生活中的泪水与欢笑。
这部片子在学院内部公映的时候,得到同学们强烈的共鸣:
“太精彩了,比看过的其它地方拍的好N倍,今天教室的播放效果也很好的说”
“拍得太好叻!辛苦了!”
“拍得真的是很好,为之流泪不为夸张,非科班的人能拍成这样真的出乎意料,‘
赞’就一个字阿”
“It is 'A' job...”
“非常不错。。。”
“re,去晚了,一开门正好看到篇尾字幕……8过片尾和花絮 做的 很不错,音乐很
好听”
“辛苦了各位!呵呵,我们看得很开心,很感动”
“果然是不同凡响!无论是DV制作组,还是台下的观众,都让偶深深的深深的pfpf
。怎么觉得我们离学长们还是很有些差距啊~”
“今天的dv真的狠好,制作、演技、内容、构思、配乐。。。。。。”
谨以此片,献给所有即将离校的浙大学子。
z***e
发帖数: 5600
10
来自主题: Apple版 - IPAD2 完败于 galaxy 10.1 啊
建议以后Android厂商在Tablet上大字刻上
xGhz Dual-Core Tegra n, 1280x800 (xxx DPI), xGB RAM, USB/MicroSD/HDMI Out,
j*****z
发帖数: 5306
11
来自主题: Hardware版 - 到底用上那坨内存没有?有包子
用不上的,3.xGB到4.0GB这部分,除了排第五的Superspeed ramdisk Plus 11最新版可
以使用这部分,其他大部分都不行。有几个软件作者不推荐使用这部分内存,说系统容
易崩溃
kn
发帖数: 2446
12
实验室给配了台Dell OptiPlex 980.
配置:
i5-750, 4G ddr3-1333, 500G hard drive,Nvidia GT330.
然后其他乱七八糟的一对配件,这帮人糟蹋起公家的钱果然眼都不眨。刻录光驱还弄了
俩,p用都没。n合1读卡器,PCIe 1394卡一个,PCI串口卡,Display port to DVI转接
头。办公室里跑跑计算写写paper,这些东西10年也用不到一次。
下面说正题,windows 7评分,其他都正常,内存那项就只有5.9分。
今天下午安装一些大程序,然后机器就卡的不行,连msn聊天打字都一卡一卡的。
查看了任务管理器,cpu占用也就1%或者2%,内存大概用了2.xGB。不过free的为0.
大家说说看,可能是什么问题。
和系统有关系么?重新安装一个clean的windows 7是不是能好些?
m********5
发帖数: 17667
13
The most 傻X is replacing 64bit OS with 32bit counterpart...
Then complain they can only access a fraction of the XGB RAM.
I have no idea why?!
a***a
发帖数: 2493
14
来自主题: Hardware版 - Win10 1703 RTM了
数天前从微软下载的是1607版,这个1703现在官网有吗?
你贴的1703英文64位版是2.85GB,但微软1607是4.xGB,是不是压缩格式造成大小差异?
x*z
发帖数: 1010
15
来自主题: Linux版 - gnome特耗内存?
不好意思,10多年一直用xfce,最近实在忍受不了xubuntu
把xfce折腾得跟砣x一样,又懒得换os,于是装了ubuntu-desktop,
就是gnome啦,还没用unity,就ubuntu-classic,结果登录
进去1.xGB内存就没了,以前光知道它耗内存,但是也不是这
么凶吧?有没有啥办法优化?而且界面响应速度比xfce慢不
止一个量级啊。。。
L****8
发帖数: 3938
16
来自主题: Programming版 - svm/svr还是不错的
xgb.XGBRegressor(max_depth=100, n_estimators=100)
挑了很多参数 max_depth n_estimators
还是不如svr
w***g
发帖数: 5958
17
来自主题: Programming版 - svm/svr还是不错的
max_depth从2往上调,一般不应该到10。
这个depth会自适应地长,你可能会发现max_depth=50或者100没有区别,因为
自动长可能也就长到几或者十几,max_depth没发挥作用。
如果样本少维度大,SVR还是可能有优势的。support vector破的就是overfitting,
而XGB的缺点正是overfitting。不过这都是理论。实战时发生短板吊打强项也不奇怪。
我印象中xgboost背后好像没啥像样的理论,感觉就是乱拳打死老拳师。
w***g
发帖数: 5958
18
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
单变量一条线上, 如果+分布成几撮, 中间穿插着很多-,逻辑回归这种单threshold
的模型就会完蛋。如果这个假设成立,用k-NN预测应该也会显著好于线性模型。

xgb
L****8
发帖数: 3938
19
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
我看很多医学文章 还在用线性模型 搞多变量拟合 然后算个p值 讨论一下每个变量的
贡献 很多人喜欢简单模型 容易“理解” 有 insight
这种想法在ML面前 就是渣

xgb
m******r
发帖数: 1033
20
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
有道理。 你的讲解让我想起不久前看过一段视频。 是采访著名cart发明人breimann还
是frimann讲他当年怎么发明决策树算法的故事。 他当年是stanford搞物理的, 原本
用k_nearest_neighborhood 方法解决高能粒子classification的问题, 后来有天早上
在床上想啊想啊( 我也爱赖在床上想一些自己的土算法, 很有效)忽然就从knn联想到
了决策树算法。 后来创办了CART软件,不久前被minitab收购。
现在我知道应该怎么向客户展示了: 应该类似和散点图(scatterplot)差不多的图,重
点展示一些cluster。
还有一个疑问。 xgb输出是score, 0~1, 我然后根据分数排序, 看看每个十分位(
decile),购买率是多少, 结果竟然是100%, 99% 90%, 80%, 30%, 12%, 10%, 0%,
0%, 0% (就是做lift curve 类似方法)
我再仔细研究score, 发现这些分数跳跃性很大, 有很多分数相同(up to 10th
decimal place).
怎么看怎么别扭。 我的理解是: 这... 阅读全帖
g****t
发帖数: 31659
21
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
这种情况,
可以用adaptive技术预测加号的聚集速度。
还可以预先训练出来一张表,按条件切换权重什么的。


: 单变量一条线上, 如果 分布成几撮, 中间穿插着很多-,逻辑回归这种单
threshold

: 的模型就会完蛋。如果这个假设成立,用k-NN预测应该也会显著好于线性模型。

: xgb

g****t
发帖数: 31659
22
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
这年头能卖简单模型的人水平一般都很高。


: 我看很多医学文章 还在用线性模型 搞多变量拟合 然后算个p值 讨论一
下每个
变量的

: 贡献 很多人喜欢简单模型 容易“理解” 有 insight

: 这种想法在ML面前 就是渣

: xgb

m******r
发帖数: 1033
23
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
上来给大家汇报一下工作。
一开始我也以为overfit了,哪里出了错。仔细检查了代码,整个过程没什么错误。 虽
然这是个比较大的项目,很多代码copy来copy去 但是我造这个模型用的是最近12月的
数据, 真正的测试数据是更早的数据:前24个月到前12个月。 也就是我造模型的数据
在我的硬盘里,测试的数据在数据库里躺着呢。
这简直就是物理隔离啊。
今天我把测试的12个月数据每个月单独拎出来测一遍。 这样每个月只有1K~2K人群
samplesize应该算很小了,结果目测还是很好的,反正就那10个数从100%递减到0%, 按
score_rank递减,我连AUC都懒得看,因为趋势是很明显的。
于是我就这样给老板交差了。
还有一个原因是这个xgb做的模型是其中一个部分,大部分还是用回归做的。 如果所有
模型都得到这么高的AUC, 我还真发毛了。
c******r
发帖数: 300
24
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
一个变量的模型还用啥xgboosting/ml, 你画个scatterplot smooth下不就广域完了,
stat101就可以搞定,感觉ML学多了就容易简单问题复杂化 ......

xgb
m******r
发帖数: 1033
25
来自主题: Programming版 - 刚才拍s只蚊子。
哈哈,我这是受了你的启发琢磨出来的。
今天我给老板展示了下我那个xgb的'好的吓人'的结果,他好像挺惊讶,我是一口咬定
就是这样,虽然心里不是特别有把握。 回来想想还是应该再测试一下。 打算明天能不
能再弄点更老的data, 或者把数据分的更细,sample更小,看看能出什么幺蛾子。
m******r
发帖数: 1033
26
其实还是老问题,如何处理categorical variable, 以前以为我学明白了,最近又有些
迷惑(尤其最近学R),所以上来问问。
比如美国54个州,某产品在个州均有销售。那么建模的时候,应该处理state这个变量
? 最简单的办法当然是根据经验(或者用WOE(weight_of_evidence))把一些州合在一起
。 比如纽约新泽西,弗吉尼亚DC, 或者中部几个州,密苏里,iowa, arkansas, 不过
这种方法完全依靠经验,不科学。
one_hot_encoding(就是dummy variable)我看也不科学。 54个州,不管你用one_hot
_encoding生成54个变量, 还是用哑变量生成53个变量, 软件计算的时候, 选变量还
是从54个州里面选一个州。 一个粗糙的办法,我看应该是试验所有可能分组. 比如:
54个州选一个州
54个州选两个州
...
54个州选27个州
这样一来,共有51+1275+20825...+2.9592E+14 = 1.60345E15种组合。
当然, 这是个天文数字。
一个折中方法,就是凭经验,把54个州合并成10个大州,... 阅读全帖

发帖数: 1
27
来自主题: Programming版 - 有没有做sentiment analysis的,求思路
前面说过:不要用神经网络!不要用神经网络!不要用神经网络!
CNN RNN啥的都是需要很多的feature,数据量要大,比如图片那种,全是像素,
feature都差不多,你扔到CNN里一层层BP就能把重要feature弄出来然后performance高。
但是你这个sentiment analysis,有两大原因,导致不能用NN这种暴力方法:
1. 数据量:太小,才几万句;NN在NLP领域唯一比较成功的就是各种embedding,不管
是BOW还是skip-gram,数据量都很大,你算算那些东西展开后,都是2的多少次方;这
个任务里,句子实在太少;
2. NLP里面,feature权重差别大:NLP不像图片,所有feature几乎可以看作都一样,
比如像素;就sentiment来讲,sentiment或者说opinion可能存在于词层面(pos)、短
语层面(chunking)、句子层面(syntax)、甚至段落(semantics);什么NN加
word2vec只能照顾到词层面,顶多一部分短语层面,句子和段落的信息全丢了。
按照前面括号里提到的相关方法提取出feature,然后加入上... 阅读全帖
w***g
发帖数: 5958
28
xgb就是train error很小的。你把树深度缩小点能有改进。

:features dim 大概有60
:做多类分类
w***g
发帖数: 5958
29
树深10那绝对太深了。我用xgb做了不少东西啦,树深从没超过3。
m******r
发帖数: 1033
30
xgb参数挺多的,好像5,6个都不止。
n******g
发帖数: 2201
31
魏老师威武!
哈哈问个初级问题 这model 咋储存的?如果是linear regression 那么好办 存个
weights array w1 w2 ... 就好
这种树模型是咋存到memory里的?
不好意思钱老转行 基础知识不扎实
[在 wdong (万事休) 的大作中提到:]
:树深10那绝对太深了。我用xgb做了不少东西啦,树深从没超过3。
M********0
发帖数: 1230
32

1. 任何GDBT或RF都是ensemble of trees 就是很多个决策树 RF的每个树是独立的
GDBT的则是有关联性的
每个树有自己的output 最后做一个majority vote
多少个树由n_estimator或ntree这个参数决定 这个参数可以pre-define 也可以通过
early-stopping自动选取(仅限GDBT)
每个树的深度 也就是你说的binary split层数 由max_depth参数决定 你还没有弄清
楚基本概念 建议回炉重造 读一读基本的bagging和boosting概念
2. 基于1的解释 grow the tree是指一个新的tree 因为xgb是GDBT 所以每个新的tree
都是基于之前的tree修正error的 参考boosting概念
M********0
发帖数: 1230
33
同时也看你用什么库
xgb的话就只能one-hot了 但是如果high-cardinality的话用lgbm可以直接做ordinal
encoding
nn的话也只能one-hot
w***g
发帖数: 5958
34
想起来还有一个word2vec, 用来做category很多的情况。

:同时也看你用什么库
:xgb的话就只能one-hot了 但是如果high-cardinality的话用lgbm可以直接做ordinal
l****r
发帖数: 21884
35
又一组写真,黑色的两套特别是皮草那套比较出彩,同样是卷发,阳大师弄得就挺好看的
http://ent.ifeng.com/idolnews/xgb/special/chenchusheng/
拍摄花絮视频,老陈像个任人摆布的布偶,做出各种动作,所以说这种写真出来的状态
和真实差距蛮远的,信不得,好看就多看几眼,不好看就Pass,不过是他工作的一个副
产品而已。
http://v.ifeng.com/ent/mingxing/201204/378fc160-0b3e-4198-9ac9-
访谈的视频,聊《瘾》这张专辑
http://v.ifeng.com/ent/mingxing/201204/ba8d21e8-28a4-46c9-861c-
1 (共1页)