由买买提看人间百态

topics

全部话题 - 话题: adaboost
1 2 下页 末页 (共2页)
A*******s
发帖数: 3942
1
来自主题: Statistics版 - a question about adaboost
i'm having a problem with adaboost. I try to write my own sas codes to
implement adaboost algorithm, using LDA(linear discriminant analysis) as the
base classifier and misclassfication rate as the loss function. However i
find out the weighted misclassfication rate increases at every step, goes to
.5 very soon and ends the procedure just after a few steps, and thus of
course does not help for improving the base model at all.
I check my codes many times but cannot find out my mistakes. So is it n... 阅读全帖
z**k
发帖数: 378
2
来自主题: Statistics版 - Adaboost M1 - what's wrong with this code?
My understanding is, for Adaboost M1, the loss function mean(-y*F) is always
strictly decreasing, but this is not the case for the following code. Can
anyone help?
I m following the example of Hastie ESL-II chapter 10.1.
sorry cannot type Chinese here. Thank you very much for help.
#================R Script====================
## Data using example given in T. Hastie, ESL, chapter 10.1
dta <- matrix(rnorm(20000), 2000, 10)
pred <- apply(dta, 1, function(x) sum(x^2))
y <- (pred > qchisq(0.5, 10))... 阅读全帖
A*******s
发帖数: 3942
3
来自主题: Statistics版 - a question about adaboost
i just figure out that adaboost needs some small modifications for multiple
classification.
d*******o
发帖数: 493
4
来自主题: Statistics版 - a question about adaboost
精算兄牛啊,用sas实现了adaboost,下次再实现adabag好了。
T****n
发帖数: 2195
5
来自主题: Statistics版 - a question about adaboost
这个R实现比较容易吧,standford 和 Berkeley 那两人发了N多ADABOOSTING的文章,
没细看,好像都是用R PACKAGE。
A*******s
发帖数: 3942
6
来自主题: Statistics版 - a question about adaboost
the original version of adaboost is not difficult to be implemented in SAS.
Just need to reweight the sample and use weight statement which is available
in almost every classification or regression sas procedure. However it is
said that a weaker base classifier like tree works better than a stronger
one like logit regression or LDA. And sas/stat doesn't have trees.
g********r
发帖数: 8017
7
来自主题: Statistics版 - a question about adaboost
admire。一般adaboost就用一两层的小树,自己写个也不难。
g*********n
发帖数: 119
8
来自主题: DataSciences版 - 凑热闹转发一篇自己写的博文,轻拍
An introduction of AdaBoost/AdaCost algorithm, and a metaphor for life
(slides我就不贴这里了)
Today I gave my co-data-scientists at Kingstowne office a presentation of
the introduction of AdaCost. The feedback is surprisingly well so that I
think it might be a good idea to highlight some interesting thoughts in a
blog post to share with larger audience. The full deck of slides is attached
on the post.
The purpose of the presentation was to describe a classification algorithm,
which could be boring by n... 阅读全帖
T**********n
发帖数: 480
9
他说的就是adaboost人脸检测
viola-jones那个box filter用到了adaboost
但其实adaboost的发明人也不是vision的
要是非给Yoav Freund 和Robert Schapire发个小奖也是说得过去的
viola-jones就算了吧

Trans/
s*w
发帖数: 729
10
来自主题: CS版 - boosting 土问题
实在没人可以讨论的,冒昧的问下各位大拿
1. 最基本的 discrete adaboost, 里面的 weak learner , 我用的是 decision stump
, 这个东西不用 sample 权重的, 就是算 error 的时候用 weighted count; 发现 过
几轮 这个 weighted error 有时候会变 0, 这时候是不是说本轮的 weak classifier
对于难 sample 表现太好了,应该 stop? 这个0 weighted error 再算 alpha (本轮 w
eak learner的权重),会出一个 +inf 的值, 到底要不要加进去最终的 weighted vote?
2. 我看说也可以用 resampling according to weights, 而不是 weighted error 来训
练 weak learner; 我试验了一下,发现 sampling 出来的training data 变化很大.
哪种更好?
3. 因为 decision stump 容易, 我自己编的; 看别人有说用 radial bas... 阅读全帖
w**********y
发帖数: 1691
11
来自主题: Quant版 - 关于volatiltiy prediction
As I know, both Adaboost and SVM or kernel SVM can't do feature selection.
You can only control some (tune) parameters, like the lambda in gaussian
kernel. or number of iterations in Adaboost.
Surely, you can do dimension reduction first.
In addition, SVM and Adaboost are classification methods. They only give 0
or 1 predictions (or probability of 1), not continuous predictions.
My research is in estimations of realized volatility/integrated volatility,
based on high frequency data with microstr... 阅读全帖
w**********y
发帖数: 1691
12
来自主题: Quant版 - CS和quant的异同
忍不了来冒个泡.尼玛,data-driven != blackblox 好不好...
svm, adaboost..是黑盒? 确定么??
svm是标准的非线性变换(kernel trick)和二次优化的应用..
adaboost最开始提出的时候是因为empirical results很好,怎么都不overfit..
后来火起来还是因为理论上面找到了强大支持..adaboost 实际等价于把exponential
loss当作优化目标的additive model.这样才有了logitboost..gradientboost...
听说(?)kinect的核心算法应该是random forest.这也是标准的data driven而非黑盒..
如果非要说黑盒,AI里面的黑盒是Neutral Network, Genetic Algorithm,
Reinforcement Learning这些东西..
f**********r
发帖数: 2137
13
来自主题: Stock版 - 一个牛人的技术分析历程(ZT)
adaboost是个框架,svm+adaboost也可以
b***a
发帖数: 6422
14
AdaBoost主要是干啥的?给讲讲看吧。

AdaBoost,一下把Vision搅活了。10年前还在玩SVM的纯学术,现在SVM还有谁饭。
。抛开应用钱途,就是纯学术也满high。当然通讯现在有点沉了,一是入行的人多了,
二是新鲜感减了,没有新东西翻。就象生物,热的时候一堆顺势爬进去,回落时都凉到
岸上了。
可以饭可铁了,现在要集齐三大会议,再来几篇PAMI/IJCV,甚而SIGGRAPH/ACM Trans/
KDD也要沾点,容易么。
w***g
发帖数: 5958
15
adaboost和svm貌似在本质上是等价的吧,而且不少情况下svm算起来还快一点。
我外行人一个,大家拍好了。

AdaBoost,一下把Vision搅活了。10年前还在玩SVM的纯学术,现在SVM还有谁饭。
。抛开应用钱途,就是纯学术也满high。当然通讯现在有点沉了,一是入行的人多了,
二是新鲜感减了,没有新东西翻。就象生物,热的时候一堆顺势爬进去,回落时都凉到
岸上了。
可以饭可铁了,现在要集齐三大会议,再来几篇PAMI/IJCV,甚而SIGGRAPH/ACM Trans/
KDD也要沾点,容易么。
i******t
发帖数: 370
16

AdaBoost,一下把Vision搅活了。10年前还在玩SVM的纯学术,现在SVM还有谁饭。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~not true...
SVM is god damned hot right now, e.g. structure SVM, latent SVM,
transductive SVM. Adaboost is good. But the situation is really 30 yrs he
dong, 30 yrs he xi.
w**********y
发帖数: 1691
17
来自主题: Quant版 - quant用到data mining 多吗?
yes, I know GAM. Hastie and Tibshirani's Toy..It is a nonlinear
generalization of the GLM(GLM belongs to GAM). One of my FMRI project used GAM
combined with cubic spline.
But frankly, I didn't try that in the field of finance before. The reason is
as listed on wikipedia "GLMs may be preferable to GAMs unless GAMs improve
predictive ability substantially for the application in question."
And based on my experience to make prediction of stock movements, nonlinear
transformation of predictors seems... 阅读全帖
f*******n
发帖数: 2665
18
来自主题: Statistics版 - 问个有关boosting的问题
想用adaboost预测fraud, 但客户要求model的结果要“透明”,比如用logistic
regression做得 scorecard,每个变量(及其值)对score的贡献一目了然。adaboost
的结果有多少透明度?
c********h
发帖数: 330
19
来自主题: Statistics版 - 问个有关boosting的问题
adaboost reweight samples according to misclassification. 透明度的话,不是很
好说,它每次都会reweight一下,预测结果一般会比logistic regression或者其他
base learner好,但是这种ensemble的方法,interpretation就是很差。我觉得按照
client的要求来吧,你也可以提供adaboost的结果做参考
g*********n
发帖数: 119
20
来自主题: DataSciences版 - Random forests on imbalanced data
Try adaboost. It may give you a better result. I worked on a much more
imbalanced data set (pos. rate is about 1e-5), and adaboost performed better
than RF.
d*****n
发帖数: 44
21
来自主题: JobHunting版 - 上班被同事黑
ls+1
楼主,真正要黑你的人是会表面跟你说好好好,然后背后和老板说你的不行。那同事就
是已经试验过Random Forest,才一听说你还要测试树模型,觉得不太可能work的。毕
竟树模型里比较好的也就random forest,AdaBoost等几种。
w*******d
发帖数: 3714
22
Real-time AdaBoost?
k**o
发帖数: 3006
23
☆─────────────────────────────────────☆
boycott (haha) 于 (Thu Apr 14 14:02:11 2011, 美东) 提到:
我刚刚看到了这个用来演示一种新的物体跟踪的算法的视频,它是一个博士论文里的一
部分。Zdenek Kalal是英国萨里大学的一个捷克学生。他演示的是他的神奇的精确定位
系统,这个系统几乎可以跟踪镜头里的任何物体,只要你能看见它,并把它选中。它能
做很多神情的事情。在这个视频中,他演示了通过摄像机拍摄他的手指、把他的手指选
做目标。系统于是就能精确的跟踪他的手指的动作。更令人惊奇的是,这个系统能够通
过分析物体的运动来完善跟踪算法。你能在很短的时间里教会它跟踪你的手指、面孔或
在高速公路上狂颠的轿车。有了这套系统,我们几乎真的可以实现”Minority Report
“那样的人机界面。就像微软Xbox的Kinect那样,而这个效果更好。
Kalal有12个视频来演示他的这套算法都能做什么。只要你有一个好的摄像头,把
这个软件装到计算机上、平板电脑上或手机里,它就能精确的定位跟踪你的前额上... 阅读全帖
ie
发帖数: 1350
24
60块钱 1M的带宽,抢钱么?
我推荐comcast 的19.99 first year HSI with adaboost
或者干错就FIOS。
电视机我没法给你升级,给你升级的是节目。用apple tv,或者任何一台电脑就ok。
座机我也不管买,不过我推荐的那个盒子,你装了以后就相当于装了一个座机,只是用
的是你的google voice号码。
新妈,我洋洋数百言,你帮着吆喝两声呗,都没人给包子。
T**********n
发帖数: 480
25
来自主题: CS版 - 说说工业研究所的体会
还别说,再加一个adaboost基本就齐了
facny的玩意们想out perform这些土八路挺难的

is
l******e
发帖数: 470
26
来自主题: CS版 - 说说工业研究所的体会
adaboost叫土八路,我觉得挺fancy了
f**********r
发帖数: 2137
27
来自主题: CS版 - 说说工业研究所的体会
adaboost是一个伟大的发明
p*********w
发帖数: 606
28
adaboost阿,主流就用这个了
m****s
发帖数: 402
29
这是外行话。Vision活过来,靠的是近年的突破,进入应用阶段了。一个SIFT,一个AdaBoost,一下把Vision搅活了。10年前还在玩SVM的纯学术,现在SVM还有谁饭。
就如通讯,GSM,CDMA,TC,LDPC,SDR, CognRadio,一个接一个疯过来,不热都难。抛开应用钱途,就是纯学术也满high。当然通讯现在有点沉了,一是入行的人多了,二是新鲜感减了,没有新东西翻。就象生物,热的时候一堆顺势爬进去,回落时都凉到岸上了。
从这个意义而言,CV也是热过了,现在入行风险高。当年几篇象样点的IEEE Trans就可以饭可铁了,现在要集齐三大会议,再来几篇PAMI/IJCV,甚而SIGGRAPH/ACM Trans/KDD也要沾点,容易么。
T**********n
发帖数: 480
30
这个外行话不是俺说的,是俺前老板Larry Davis说的

AdaBoost,一下把Vision搅活了。10年前还在玩SVM的纯学术,现在SVM还有谁饭。
。抛开应用钱途,就是纯学术也满high。当然通讯现在有点沉了,一是入行的人多了,
二是新鲜感减了,没有新东西翻。就象生物,热的时候一堆顺势爬进去,回落时都凉到
岸上了。
可以饭可铁了,现在要集齐三大会议,再来几篇PAMI/IJCV,甚而SIGGRAPH/ACM Trans/
KDD也要沾点,容易么。
s***y
发帖数: 198
31
来自主题: CS版 - 牛人很神奇的简历啊
ML的派系,
周志华的集成学习,天下第一,未来的图灵,据说一个诺贝尔奖的还抄他,可见他的地
位。
SVM,万能药,对许多问题效果都很好,是ML生手的最爱。
BOOSTING。从ADABOOST到ADDITIVE MODEL,理论越来越深,在统计界有较大影响,实用
效果也很好。
PROBABILISTIC GRAPHICAL MODEL。PEARL开山,JORDAN发扬广大,HINTON也可以算,现
在是一大派,现在这一派也比较成熟了。JORDAN的GRAPHICAL MODEL书,电子版我08
年就见过,不知道大家说的是那一本。
s***y
发帖数: 198
32
来自主题: CS版 - 牛人很神奇的简历啊
ML的派系,
周志华的集成学习,天下第一,未来的图灵,据说一个诺贝尔奖的还抄他,可见他的地
位。
SVM,万能药,对许多问题效果都很好,是ML生手的最爱。
BOOSTING。从ADABOOST到ADDITIVE MODEL,理论越来越深,在统计界有较大影响,实用
效果也很好。
PROBABILISTIC GRAPHICAL MODEL。PEARL开山,JORDAN发扬广大,HINTON也可以算,现
在是一大派,现在这一派也比较成熟了。JORDAN的GRAPHICAL MODEL书,电子版我08
年就见过,不知道大家说的是那一本。
C*********e
发帖数: 587
33
You are wrong,不是说大IT公司推出了才叫可以用,商业上的实用和推广是很多因素的结合,不光是技术问题本身。我虽然不专做3D,但至少知道3D understanding上,比如3D face recognition就是可行的。
而且,我并没有质疑kinect,也不质疑kinect用了ML的技术,我的观点是这个是属于用ML技术解决CV问题,但不是ML的研究,so?
你对vision的认识也有问题,CV没有一个明确的定义(至少没有任何大牛敢说,你倒是敢自己给定义。。。。),牵涉的范围很广,并且还在继续演化中。understanding只是从偏AI的角度出发的,而很多认识相关的问题,都牵涉到AI的核心问题,不只是CV独有的。另一方面,stereo,multi-view geometry,motion analysis,tracking中的很多问题确和high level的认知没有关系。
至于说Adaboost的人脸检测,这个是人脸检测中的popular技术,so what?做这个的人绝大部分是属于用ML的技术来做CV的问题,这不属于ML的研究,都只是CV的研究,paper也都是IC... 阅读全帖
n****r
发帖数: 471
34
vision会议文章多,真正有价值的可以改了以后投PAMI啊。。。
PAMI每个毕业生总没有4,5篇吧?
我的意思是说水多了不用操心,就像钱印多了自然贬值了一样, 现在CV的毕业生每个4
,5篇三大会还确实是不好意思跟别人打招呼。以后搞不好直接无视poster了,直接比
oral。
你投了一次ICCV中了oral不代表什么,你也说了你是有限的experience,有时候跨领域
的方法容易吸引人眼球。如果你是做ML,DM的,或者是做large scale data,什么
transfer learning的,这几年中了oral那就更不足为奇了。 我也见过做ML的随手做做
CV就中oral的。
评论别的方向paper好中不好中的是你,不是我。
我没说别的方向paper好中,实际上我觉得任何方向的paper都不好中。
我尤其不会评论一个我不了解的方向。
SIGKDD, SIGIR都是牛会,我从来没说过好中啊,而且我承认这些比三大会的poster难
中。
这又怎么样呢? 是好工作在哪儿都能发光, ICCV 2011 的test-of-time paper评出来
了,大家是不是众望所归? 200... 阅读全帖
m*p
发帖数: 1331
35
ic. that's the grid search in libsvm...
how about for ensemble classifiers like adaboost? there is no simple
parameter like C.
Thanks!
B*********L
发帖数: 700
36
SQL 2008 已经有decision tree了,是不是可以通过什么方法实现,至少实现random
forest。
谁能指点一下,谢谢了。
f*******a
发帖数: 663
37
有点了解,说几句,抛砖引玉
这个问题确实是一个很普适性的问题,肯定不简单,但思路一般来说还是差不多的
1. 预处理:配准和增强
配准是一个空间归一化的过程,正如做人脸数据分析的都要把尺度归一化一样。如果对
运动状况能建模的话,可以考虑SIFT算法,公认的好用
增强是因为医学图像往往对比度和分布不均,为突出特征而做的种种手段
2. 特征提取
这个一般就是大显神通的地方。看点文献别人怎么下手吧。特征点、轮廓线、局部直方
图、滤波器、变换域等都是常见方法,具体问题具体分析。
3.分类器
一般到了这一步就是挑合适的用,哪个效果好用哪个。这些年SVM及各变种风头很盛,
效果也不错。AdaBoost这种简单还可以挑特征的做检测问题也很不错,甚至可能不要配
准。另外在分类器的训练集问题上,有些算法可以处理较高不确定性的训练样本,如
MIL和Structured SVM,这种进阶问题有余力可尝试。
n******g
发帖数: 2201
38
which one is the best traditional machine learning algorithm?
which one is more revolutionary?
w***g
发帖数: 5958
39
in terms of practical problem solving, I would say SVM is better.
In theory, the idea behind boosting, i.e. weak learner vs strong
learner, is a fundamental advancement in machine learning theory,
probably of philosophical importance. SVM itself is more technical,
but the theory that remotely backs SVM, i.e. VC theory, is even
more fundamental and more important than boosting. However,
the trivial version of SVM, i.e. linear SVM, has gained so much
attention lately that people view SVM more of... 阅读全帖
w***g
发帖数: 5958
40
算法的重要性并不完全是由背后的理论决定的, 而是由一两个
application breakthrough决定的. 比如说, Naive Bayesian
对于垃圾邮件分类, boosting对于人脸识别, 隐马尔科夫模型
对于语音识别, 等等. 历史上每个重要应用都造就了一个牛B算
法, 而不是相反. 如果没理解这一点, 而用今天对这些算法的
理解去解释它们的牛B程度, 很多事情是没法解释的.
c*****e
发帖数: 3226
41
wdong 果然牛人,奠定了编程版的权威!
w***g
发帖数: 5958
42
我是老刑的自干五而已, 应该是我同学中混得最差的.
g****t
发帖数: 31659
43
说的很好。
也聊几点个人浅见吧:
(1)
算法其实就两种,一种是用梯度的,一种是不用梯度的。
前者是微积分,后者是组合数学。理论上能说的,我觉得就是这个程度了。
所以理论是分辨不出来,或者说很难分辨什么算法好,什么算法坏的。
很多学界算法的creator,因为是理论驱动,自己都不信自己的算法有啥用。
然后被工程师tweak之后赚钱了,才红起来。这些算法的风范,style和思考方法
反而比算法本身更值得学习。
因为这些算法的成功其实是很偶然的,或者是
瞎蒙的。但是这些creator的风格和品位,那是真的。坚持好的风格或者品味,
我猜迟早会成功。
理论本身不对理论做价值判断。换句话说,理论的value,是理论之外的
课题。
(2)
以理论为基础考虑出来的算法,是不是被认可,是看:
a.人类社会流行什么实践场景。
b.人类对自然界的探索到哪一步。
例如荣格库塔解ODE,在当时是完全没人搭理,完全不被认可的。
以实践为基础的算法,是看是不是满足客户的要求。
例如开发一套做电影的系统,可以得奥斯卡科技奖。
n******g
发帖数: 2201
44
谢谢!一句顶一万句,我明白了。原来machine learning看重“管用”不;
而不是“为什么管用“。
naive Bayes 也许恰好模拟了垃圾邮件的模型?不然砸解释这个简单分类器
那么好用?
g****t
发帖数: 31659
45
算法框架有延伸性,容易学,合理,容易用。
这样就容易有人拿着你的算法到处去试验。这样价值被发现的机会
可以大很多。
这就好比理论物理的理论,如果理论本身毛病多,
做实验的人就不会搭理你。
k****i
发帖数: 101
46
所以,ML/NN的现实目标之一应该是寻求某些“大”算法解决某些“大”类实际问题,
例如CNN之于图像分类等。用极少数算法解决绝大多数问题至今仍然没有让人信服的理
论或实验基础。
王垠有段很浅显的话,尽管太绝对了,也还是有一定道理的。
"比如,你采集到一些二维数据点。你猜测它们符合一个简单的函数 y = ax3 + bx2 +
cx + d,但不知道a, b, c和d该是多少。于是你就利用所谓“机器学习”(也就是数学
统计),推断出参数a, b, c和d的值,使得采集到的数据尽可能的靠近这函数的曲线。
可是这函数是怎么来的呢?终究还是人想出来的。机器无论如何也跳不出y = ax3 +
bx2 + cx + d这个框子。如果数据不符合这个范式,还是只有靠人,才能找到更加符合
数据特性的函数。"
http://www.yinwang.org/blog-cn/2016/03/09/alpha-go
s********k
发帖数: 6180
47
来自主题: Programming版 - DL一个基础问题:
为什么DL每次的minibatch随机选取就可以,而不用像adaboost那样如果训练错了的下
次特征选取加更高的权重?是为了避免overfit?
s********k
发帖数: 6180
48
来自主题: Programming版 - DL一个基础问题:
大牛,你觉得比如adaboost那种迭代式选取feature的方法,在deep learning中适用吗
?比如我每次minibatch选了一部分上次训练错误的特征重新来训练,实际中我在一个
很小的dataset试了一下,感觉没啥差别,难道是DL抹平了这种原来学习机制的不足?

有,
W***o
发帖数: 6519
49
来自主题: Programming版 - svm/svr还是不错的
听起来有点像adaboost,把弱classifier 联合起来一起用
w**********y
发帖数: 1691
50
来自主题: Quant版 - quant用到data mining 多吗?
linear regression is part of the data mining..or maybe statistical learning
if you like..
They are useless for sell side, except the risk management.
For buyside, it really depends on the group's strategy.
But the principle is always, simple and robust methods are more popular. And
mostly, generalized linear regression with good variable selection methods
is better than random forest, neural network, Adaboost, and etc.
1 2 下页 末页 (共2页)