m******r 发帖数: 1033 | 1 再过来请教大家一次。
xgb.dump不知谁用过没有 ? 就是把xgb的模型输出成一堆决策树(forest). 用xgb.
train的时候,程序提示如下:
Stopping. Best iteration:
[170] train-auc:0.844678
[171] train-auc:0.844678
[172] train-auc:0.844678
[173] train-auc:0.844678
Stopping. Best iteration:
[73] train-auc:0.844718
让人不理解的是,xgb.dump 导出来的树(是个简单的文本文件, nodes, leafs, etc)
有75棵。 难道不应该是73棵么? 一棵树对应一个iteration.
文本文件的后半部分如下, 大家帮忙看看。
booster[73]
0:[f0<0.183333] yes=1,no=2,missing=1,gain=0.218959,cover=1687.94
1:leaf=0.0465228,cover=8.03316
2:[f... 阅读全帖 |
|
z***t 发帖数: 10817 | 2
threadripper CPU + 2x Titan Xps 多GPU训练
CPU TO GPU正常:12GB/s,GPU TO CPU十分慢才4.xGB/s P2P GPU 才1.xGB/s
以上不构成投资建议
资本市场和应用市场有关联也有区隔 也许32core题材amd股票会有一波行情 |
|
|
m******r 发帖数: 1033 | 4 最近闭门造车,不接电话,不回电邮,不上网, 死几百咧,造了个模型,先用线性逻
辑回归,试来试去,性能不理想,AUC大概63% . 这也没什么奇怪的,并不是给你一堆
数,就能造个模型出来。 反正试来试去,就这一个变量可用,, 假定为A, AUC = 63%
然后我就用xgboost, 我的妈,AUC一下上升到95%, 96%,97%, 98%, 因为编程太弱
,我的土方法是:一个变量一个变量试, 都是manual work, 每次只跑一个变量,记录
重要结果,保存在excel里。 最终结果是:仅用A变量,AUC = 95%, 在此基础上加上一
点别的变量, AUC 很快飞涨到97%, 98%
我知道这种基于树的模型容易过度拟合, 就特意找了好几年前的老数据(真实数据)测
试。 测试的AUC性能一点都不下降, 和原来的差距小于1%. 所以不能说是过度拟合。
现在问题来了,我想来想去不明白为什么这个变量用在xgb有这么高的AUC? 不明白xgb
施了什么法术?向业务部门也很难解释,做个简单的tabulation, 能依稀看出一些
trend (这到能说明 线性回归下此变量达到AUC = 63... 阅读全帖 |
|
n******g 发帖数: 2201 | 5 你的变量大概是target 的别名 比如用每分钟速度预测时速 当然很准
[在 magliner (magliner) 的大作中提到:]
:最近闭门造车,不接电话,不回电邮,不上网, 死几百咧,造了个模型,先用线性逻
:辑回归,试来试去,性能不理想,AUC大概63% . 这也没什么奇怪的,并不是给你一堆
:数,就能造个模型出来。 反正试来试去,就这一个变量可用,, 假定为A, AUC = 63%
:然后我就用xgboost, 我的妈,AUC一下上升到95%, 96%,97%, 98%, 因为编程太弱
:,我的土方法是:一个变量一个变量试, 都是manual work, 每次只跑一个变量,记
录重要结果,保存在excel里。 最终结果是:仅用A变量,AUC = 95%, 在此基础上加上
一点别的变量, AUC 很快飞涨到97%, 98%
:我知道这种基于树的模型容易过度拟合, 就特意找了好几年前的老数据(真实数据)
测试。 测试的AUC性能一点都不下降, 和原来的差距小于1%. 所以不能说是过度拟合。
:现在问题来了,我想来想去不明白为什么这个变量用在xgb有这么高的AUC? 不明白xg... 阅读全帖 |
|
M********0 发帖数: 1230 | 6 各有各的优势
xgb用hist速度不比lgbm慢啊 accuracy有时候xgb更好
lgbm处理categorical更好些 当有大量high-cardinality categorical feature的时候
lgbm是首选 有cat_smooth等参数可调以防overfitting
武器库里总是多一样更好 |
|
p**h 发帖数: 124 | 7 试过 xgb 和 lgbm. 对网上的一些数据,两个表现差不多,也不用怎么调结果都不错。
不过用到 finance 数据,xgb 算的好很多。也有可能我没调好。 |
|
T****r 发帖数: 22092 | 8 发信人: xgb (学工办), 信区: VoiceofNankai
标 题: 4月10日晚我校一学生溺水身亡的有关情况
发信站: 我爱南开站 (2007年04月11日09:57:00 星期三)
张斌,男,天津人,南开大学数学科学学院2005级学生,于2007年4月10日22点10
分左右,在学校化学楼前小引河处投河,营救后送往医院抢救无效死亡。经公安机关认
定,排除他杀可能,为溺水死亡。现学校有关部门及数学学院正积极配合公安机关及学
生家属做好善后处理事宜。
党委学工部
2007-4-11 |
|
ET 发帖数: 10701 | 9 http://www.xgb.zju.edu.cn/~hsboy/movie/jj.htm
《MEMORY》
《MEMEORY》是浙江大学竺可桢学院一群大四学生自编自导自演的短片。从筹备到后
期制作完成,前后历时一个月。
这部短片以回忆的方式,描绘了一位即将离校的浙大学子四年本科生活中的几个片断,
反映了青春生活中的泪水与欢笑。
这部片子在学院内部公映的时候,得到同学们强烈的共鸣:
“太精彩了,比看过的其它地方拍的好N倍,今天教室的播放效果也很好的说”
“拍得太好叻!辛苦了!”
“拍得真的是很好,为之流泪不为夸张,非科班的人能拍成这样真的出乎意料,‘
赞’就一个字阿”
“It is 'A' job...”
“非常不错。。。”
“re,去晚了,一开门正好看到篇尾字幕……8过片尾和花絮 做的 很不错,音乐很
好听”
“辛苦了各位!呵呵,我们看得很开心,很感动”
“果然是不同凡响!无论是DV制作组,还是台下的观众,都让偶深深的深深的pfpf
。怎么觉得我们离学长们还是很有些差距啊~”
“今天的dv真的狠好,制作、演技、内容、构思、配乐。。。。。。”
谨以此片,献给所有即将离校的浙大学子。
浙 |
|
z***e 发帖数: 5600 | 10 建议以后Android厂商在Tablet上大字刻上
xGhz Dual-Core Tegra n, 1280x800 (xxx DPI), xGB RAM, USB/MicroSD/HDMI Out, |
|
j*****z 发帖数: 5306 | 11 用不上的,3.xGB到4.0GB这部分,除了排第五的Superspeed ramdisk Plus 11最新版可
以使用这部分,其他大部分都不行。有几个软件作者不推荐使用这部分内存,说系统容
易崩溃 |
|
kn 发帖数: 2446 | 12 实验室给配了台Dell OptiPlex 980.
配置:
i5-750, 4G ddr3-1333, 500G hard drive,Nvidia GT330.
然后其他乱七八糟的一对配件,这帮人糟蹋起公家的钱果然眼都不眨。刻录光驱还弄了
俩,p用都没。n合1读卡器,PCIe 1394卡一个,PCI串口卡,Display port to DVI转接
头。办公室里跑跑计算写写paper,这些东西10年也用不到一次。
下面说正题,windows 7评分,其他都正常,内存那项就只有5.9分。
今天下午安装一些大程序,然后机器就卡的不行,连msn聊天打字都一卡一卡的。
查看了任务管理器,cpu占用也就1%或者2%,内存大概用了2.xGB。不过free的为0.
大家说说看,可能是什么问题。
和系统有关系么?重新安装一个clean的windows 7是不是能好些? |
|
m********5 发帖数: 17667 | 13 The most 傻X is replacing 64bit OS with 32bit counterpart...
Then complain they can only access a fraction of the XGB RAM.
I have no idea why?! |
|
a***a 发帖数: 2493 | 14 数天前从微软下载的是1607版,这个1703现在官网有吗?
你贴的1703英文64位版是2.85GB,但微软1607是4.xGB,是不是压缩格式造成大小差异? |
|
x*z 发帖数: 1010 | 15 不好意思,10多年一直用xfce,最近实在忍受不了xubuntu
把xfce折腾得跟砣x一样,又懒得换os,于是装了ubuntu-desktop,
就是gnome啦,还没用unity,就ubuntu-classic,结果登录
进去1.xGB内存就没了,以前光知道它耗内存,但是也不是这
么凶吧?有没有啥办法优化?而且界面响应速度比xfce慢不
止一个量级啊。。。 |
|
L****8 发帖数: 3938 | 16 xgb.XGBRegressor(max_depth=100, n_estimators=100)
挑了很多参数 max_depth n_estimators
还是不如svr |
|
w***g 发帖数: 5958 | 17 max_depth从2往上调,一般不应该到10。
这个depth会自适应地长,你可能会发现max_depth=50或者100没有区别,因为
自动长可能也就长到几或者十几,max_depth没发挥作用。
如果样本少维度大,SVR还是可能有优势的。support vector破的就是overfitting,
而XGB的缺点正是overfitting。不过这都是理论。实战时发生短板吊打强项也不奇怪。
我印象中xgboost背后好像没啥像样的理论,感觉就是乱拳打死老拳师。 |
|
w***g 发帖数: 5958 | 18 单变量一条线上, 如果+分布成几撮, 中间穿插着很多-,逻辑回归这种单threshold
的模型就会完蛋。如果这个假设成立,用k-NN预测应该也会显著好于线性模型。
xgb |
|
L****8 发帖数: 3938 | 19 我看很多医学文章 还在用线性模型 搞多变量拟合 然后算个p值 讨论一下每个变量的
贡献 很多人喜欢简单模型 容易“理解” 有 insight
这种想法在ML面前 就是渣
xgb |
|
m******r 发帖数: 1033 | 20 有道理。 你的讲解让我想起不久前看过一段视频。 是采访著名cart发明人breimann还
是frimann讲他当年怎么发明决策树算法的故事。 他当年是stanford搞物理的, 原本
用k_nearest_neighborhood 方法解决高能粒子classification的问题, 后来有天早上
在床上想啊想啊( 我也爱赖在床上想一些自己的土算法, 很有效)忽然就从knn联想到
了决策树算法。 后来创办了CART软件,不久前被minitab收购。
现在我知道应该怎么向客户展示了: 应该类似和散点图(scatterplot)差不多的图,重
点展示一些cluster。
还有一个疑问。 xgb输出是score, 0~1, 我然后根据分数排序, 看看每个十分位(
decile),购买率是多少, 结果竟然是100%, 99% 90%, 80%, 30%, 12%, 10%, 0%,
0%, 0% (就是做lift curve 类似方法)
我再仔细研究score, 发现这些分数跳跃性很大, 有很多分数相同(up to 10th
decimal place).
怎么看怎么别扭。 我的理解是: 这... 阅读全帖 |
|
g****t 发帖数: 31659 | 21 这种情况,
可以用adaptive技术预测加号的聚集速度。
还可以预先训练出来一张表,按条件切换权重什么的。
: 单变量一条线上, 如果 分布成几撮, 中间穿插着很多-,逻辑回归这种单
threshold
: 的模型就会完蛋。如果这个假设成立,用k-NN预测应该也会显著好于线性模型。
: xgb
|
|
g****t 发帖数: 31659 | 22 这年头能卖简单模型的人水平一般都很高。
: 我看很多医学文章 还在用线性模型 搞多变量拟合 然后算个p值 讨论一
下每个
变量的
: 贡献 很多人喜欢简单模型 容易“理解” 有 insight
: 这种想法在ML面前 就是渣
: xgb
|
|
m******r 发帖数: 1033 | 23 上来给大家汇报一下工作。
一开始我也以为overfit了,哪里出了错。仔细检查了代码,整个过程没什么错误。 虽
然这是个比较大的项目,很多代码copy来copy去 但是我造这个模型用的是最近12月的
数据, 真正的测试数据是更早的数据:前24个月到前12个月。 也就是我造模型的数据
在我的硬盘里,测试的数据在数据库里躺着呢。
这简直就是物理隔离啊。
今天我把测试的12个月数据每个月单独拎出来测一遍。 这样每个月只有1K~2K人群
samplesize应该算很小了,结果目测还是很好的,反正就那10个数从100%递减到0%, 按
score_rank递减,我连AUC都懒得看,因为趋势是很明显的。
于是我就这样给老板交差了。
还有一个原因是这个xgb做的模型是其中一个部分,大部分还是用回归做的。 如果所有
模型都得到这么高的AUC, 我还真发毛了。 |
|
c******r 发帖数: 300 | 24 一个变量的模型还用啥xgboosting/ml, 你画个scatterplot smooth下不就广域完了,
stat101就可以搞定,感觉ML学多了就容易简单问题复杂化 ......
xgb |
|
m******r 发帖数: 1033 | 25 哈哈,我这是受了你的启发琢磨出来的。
今天我给老板展示了下我那个xgb的'好的吓人'的结果,他好像挺惊讶,我是一口咬定
就是这样,虽然心里不是特别有把握。 回来想想还是应该再测试一下。 打算明天能不
能再弄点更老的data, 或者把数据分的更细,sample更小,看看能出什么幺蛾子。 |
|
m******r 发帖数: 1033 | 26 其实还是老问题,如何处理categorical variable, 以前以为我学明白了,最近又有些
迷惑(尤其最近学R),所以上来问问。
比如美国54个州,某产品在个州均有销售。那么建模的时候,应该处理state这个变量
? 最简单的办法当然是根据经验(或者用WOE(weight_of_evidence))把一些州合在一起
。 比如纽约新泽西,弗吉尼亚DC, 或者中部几个州,密苏里,iowa, arkansas, 不过
这种方法完全依靠经验,不科学。
one_hot_encoding(就是dummy variable)我看也不科学。 54个州,不管你用one_hot
_encoding生成54个变量, 还是用哑变量生成53个变量, 软件计算的时候, 选变量还
是从54个州里面选一个州。 一个粗糙的办法,我看应该是试验所有可能分组. 比如:
54个州选一个州
54个州选两个州
...
54个州选27个州
这样一来,共有51+1275+20825...+2.9592E+14 = 1.60345E15种组合。
当然, 这是个天文数字。
一个折中方法,就是凭经验,把54个州合并成10个大州,... 阅读全帖 |
|
发帖数: 1 | 27 前面说过:不要用神经网络!不要用神经网络!不要用神经网络!
CNN RNN啥的都是需要很多的feature,数据量要大,比如图片那种,全是像素,
feature都差不多,你扔到CNN里一层层BP就能把重要feature弄出来然后performance高。
但是你这个sentiment analysis,有两大原因,导致不能用NN这种暴力方法:
1. 数据量:太小,才几万句;NN在NLP领域唯一比较成功的就是各种embedding,不管
是BOW还是skip-gram,数据量都很大,你算算那些东西展开后,都是2的多少次方;这
个任务里,句子实在太少;
2. NLP里面,feature权重差别大:NLP不像图片,所有feature几乎可以看作都一样,
比如像素;就sentiment来讲,sentiment或者说opinion可能存在于词层面(pos)、短
语层面(chunking)、句子层面(syntax)、甚至段落(semantics);什么NN加
word2vec只能照顾到词层面,顶多一部分短语层面,句子和段落的信息全丢了。
按照前面括号里提到的相关方法提取出feature,然后加入上... 阅读全帖 |
|
w***g 发帖数: 5958 | 28 xgb就是train error很小的。你把树深度缩小点能有改进。
:features dim 大概有60
:做多类分类 |
|
w***g 发帖数: 5958 | 29 树深10那绝对太深了。我用xgb做了不少东西啦,树深从没超过3。 |
|
|
n******g 发帖数: 2201 | 31 魏老师威武!
哈哈问个初级问题 这model 咋储存的?如果是linear regression 那么好办 存个
weights array w1 w2 ... 就好
这种树模型是咋存到memory里的?
不好意思钱老转行 基础知识不扎实
[在 wdong (万事休) 的大作中提到:]
:树深10那绝对太深了。我用xgb做了不少东西啦,树深从没超过3。 |
|
M********0 发帖数: 1230 | 32
1. 任何GDBT或RF都是ensemble of trees 就是很多个决策树 RF的每个树是独立的
GDBT的则是有关联性的
每个树有自己的output 最后做一个majority vote
多少个树由n_estimator或ntree这个参数决定 这个参数可以pre-define 也可以通过
early-stopping自动选取(仅限GDBT)
每个树的深度 也就是你说的binary split层数 由max_depth参数决定 你还没有弄清
楚基本概念 建议回炉重造 读一读基本的bagging和boosting概念
2. 基于1的解释 grow the tree是指一个新的tree 因为xgb是GDBT 所以每个新的tree
都是基于之前的tree修正error的 参考boosting概念 |
|
M********0 发帖数: 1230 | 33 同时也看你用什么库
xgb的话就只能one-hot了 但是如果high-cardinality的话用lgbm可以直接做ordinal
encoding
nn的话也只能one-hot |
|
w***g 发帖数: 5958 | 34 想起来还有一个word2vec, 用来做category很多的情况。
:同时也看你用什么库
:xgb的话就只能one-hot了 但是如果high-cardinality的话用lgbm可以直接做ordinal |
|
|