由买买提看人间百态

topics

全部话题 - 话题: svm
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
m****t
发帖数: 555
1
来自主题: CS版 - 牛人很神奇的简历啊

SVM只是理论上有那么一套。实践中的数据和做研究的数据差别很大。
不说其他的,垃圾邮件过滤,knn效果就比naive bayes好,都比SVM好。
d******e
发帖数: 7844
2
过去觉得SVM太数学太统计了,不适合图灵奖,所以不发也就罢了。
现在PAC这么个玩艺都拿图灵奖了,不给SVM弄一个太亏了。
d******e
发帖数: 7844
3
来自主题: CS版 - Valiant 是理论大牛
说“重头戏”是有些过头了,但你看ESL第12章,SVM独立占据了一个章节,PRML的第7
章也算是围着SVM说。
就好比Neural Network,过了几十年了,哪本书里没有再过20年,也还会在教科书里
。你找一个单独有PAC章节的教材来看看?

了。
r********3
发帖数: 2998
4
来自主题: CS版 - Valiant 是理论大牛
为啥老是有是那么崇拜Vapnik和SVM呢?
为啥我看待SVM就是一个quatric programming的优化问题?
p*********g
发帖数: 226
5
来自主题: CS版 - Valiant 是理论大牛
抛开算法复杂度不谈,在高维条件下,KNN 的 generalization performance 我不知道
会不会比 SVM 好。example 的数量 n 需要随维度 p 而上升,不知道 knn 中 n 对 p
的 dependence 是否好过 SVM。
而且在 testing 的时候,我有一个 weight vector,做一下内积,无论如何总比 knn
要快吧,不论 knn 做何indexing。

paper
N**D
发帖数: 10322
6
来自主题: CS版 - Valiant 是理论大牛
Alex 的large margin, 本质就是SVM,
kevin murphy, 是谁?
Elements of machine learning, 错误百出
PRML重点是graph model, Bayes method, 根本是和SLT对着干的,当然不会说SVM好了

了。
f*****x
发帖数: 2748
7
来自主题: CS版 - Valiant 是理论大牛
与其回答,老夫给你提两个问题。
1) svm为什么可以转化为quad programming问题?
2) svm的performance guarantee哪里来?
N**D
发帖数: 10322
8
来自主题: CS版 - Valiant 是理论大牛
svm还是很厉害的, 那个digit recognition, 那个new york 的哥们搞了20几年的ANN,
结果和SVM不相上下。
R*******V
发帖数: 57
9
来自主题: CS版 - Valiant 是理论大牛
他陷在QP里面了。
其实SVM的精髓就是那个maximum margin.
怎么解是另外一回事。他口口声声QP说明对SVM的理解还不够。
这里好几个人告诉他了。。。。。。。
B****x
发帖数: 17
10
ACM Paris Kanellakis Theory and Practice Award奖励对计算机应用有重大影响的理论
发现. http://awards.acm.org/kanellakis/
2008
Cortes, Corinna
Vapnik, Vladimir
Paris Kanellakis Theory and Practice Award
2008 – Vladimir Vapnik
Fellow of NEC Laboratories/Columbia University (2008)
Citation
For the development of Support Vector Machines, a highly effective
algorithm for classification and related machine learning problems.
Full Citation
In their 1995 paper titled "Support vector networks," Cortes and Vapnik
introduced ... 阅读全帖
w***g
发帖数: 5958
11
来自主题: CS版 - vapnik牛x的那个叫VC theory
拜托大家别拿SVM出来说事了。VC theory比PAC高一个档次我觉得是无需置疑的。PAC只
是提供了一个描述方法可靠性的语言,而VC theory直接就点中了复杂性的本质。SVM只不
过是VC theory的一个小小的应用而已。
话虽如此,Valiant这个图灵奖还是比Vapnik要合适。毕竟他在理论界还有很多贡献。我
很怀疑评奖委员会里有没有搞机器学习的人。大家需要注意的是图灵奖是ACM颁的,虽然
它旗下也有SIGART (AI),但搞的都是些非主流的东西。机器学习有它自己的组织,像AA
AI, IMLS什么的。要那些组织来颁奖的话,那就非Vapnik不可了。
要我说,ACM不管的东西严格上来说不属于CS.
f*****x
发帖数: 2748
12
vapnik并不仅仅意味着svm,他1971年和chervonkins提出的
erm以及相应的(uniform)收敛结果才是他最大的贡献。
svm不过是那个理论框架下的一个应用,包括后来的各种
版本的boosting等等都是。
l***e
发帖数: 12
13
http://www.esat.kuleuven.be/sista/members/suykens.html
比利时发考题,是那个小有名气的LS-SVM toolbox的项目领头人,做过SVM的人可能听
说过(貌似不如台湾国立大牛林智仁的libsvm用的多)。看publication蛮多的,但是
鄙人眼拙看不出质量,望有高人能指点一二,谢过。
s*w
发帖数: 729
14
来自主题: CS版 - boosting 土问题
实在没人可以讨论的,冒昧的问下各位大拿
1. 最基本的 discrete adaboost, 里面的 weak learner , 我用的是 decision stump
, 这个东西不用 sample 权重的, 就是算 error 的时候用 weighted count; 发现 过
几轮 这个 weighted error 有时候会变 0, 这时候是不是说本轮的 weak classifier
对于难 sample 表现太好了,应该 stop? 这个0 weighted error 再算 alpha (本轮 w
eak learner的权重),会出一个 +inf 的值, 到底要不要加进去最终的 weighted vote?
2. 我看说也可以用 resampling according to weights, 而不是 weighted error 来训
练 weak learner; 我试验了一下,发现 sampling 出来的training data 变化很大.
哪种更好?
3. 因为 decision stump 容易, 我自己编的; 看别人有说用 radial bas... 阅读全帖
h*****s
发帖数: 153
15
【 以下文字转载自 Statistics 讨论区 】
发信人: higness (higness), 信区: Statistics
标 题: text book for "Support Vector Machine"
发信站: BBS 未名空间站 (Sat Feb 11 07:57:21 2012, 美东)
I am trying to apply SVM to my data currently. Can anyone recommend an
introductory level SVM textbook to me...It had better focus on application
not too mathmatically extensive.
thanks in advance.
p*********e
发帖数: 303
16
假设对linear svm的参数C, 要从C1到Ck中找到最好的一个值,
先把数据分成N份, 每次拿出1份测试, 剩下的N-1份训练,一共有N中不同的拿法。
对于每一种拿法, 训练对应不同参数C的linear svm,并在剩下的1份上测试, 得到
accuracy。所以对于每个参数值, 都得到N种拿法对应的N个accuracy, 最后对应平均
accuracy最高的那个参数值作为选定的C, 再到所有N份数据上训练。
c*******f
发帖数: 85
17
10+?????这维数一点都不高啊……,SVM就行了,libSVM是一个封装的很好的工具。
其他的分类算法其实也都挺好,就是不如svm popular就是了
c*******f
发帖数: 85
18
10+?????这维数一点都不高啊……,SVM就行了,libSVM是一个封装的很好的工具。
其他的分类算法其实也都挺好,就是不如svm popular就是了
l*******m
发帖数: 1096
19
来自主题: CS版 - 一个机器学习的问题
DTW was proposed in 1960s for comparing speech signals. DTW defines a
distance between two time serieses. DTW has to be applied to sequences with
time correlation! Also, sequences with different lengths are fine for DTW.
KNN and SVM are all based on distance. As long as you have distance between
any two sequences, you should be able to use KNN and SVM.
Don't think machine learning as complicated math problems, just be intuitive
. Theoretical parts are only useful for academia and smart practicer... 阅读全帖
d******e
发帖数: 7844
20
来自主题: CS版 - CS博士选题求指教
这老师听着不靠谱... ...还盯着做SVM的现在都是Machine Learning里的边缘人了。
你老板是做随机凸优化或者分布式凸优化么?
现在也就这两个方向常拿解SVM来做实验。

machine
f*******a
发帖数: 663
21
有点了解,说几句,抛砖引玉
这个问题确实是一个很普适性的问题,肯定不简单,但思路一般来说还是差不多的
1. 预处理:配准和增强
配准是一个空间归一化的过程,正如做人脸数据分析的都要把尺度归一化一样。如果对
运动状况能建模的话,可以考虑SIFT算法,公认的好用
增强是因为医学图像往往对比度和分布不均,为突出特征而做的种种手段
2. 特征提取
这个一般就是大显神通的地方。看点文献别人怎么下手吧。特征点、轮廓线、局部直方
图、滤波器、变换域等都是常见方法,具体问题具体分析。
3.分类器
一般到了这一步就是挑合适的用,哪个效果好用哪个。这些年SVM及各变种风头很盛,
效果也不错。AdaBoost这种简单还可以挑特征的做检测问题也很不错,甚至可能不要配
准。另外在分类器的训练集问题上,有些算法可以处理较高不确定性的训练样本,如
MIL和Structured SVM,这种进阶问题有余力可尝试。
s********k
发帖数: 6180
22
SVM之类是不是过时了。都10多年了,现在不是deep learning吃香吧,感觉一旦deep
learning大规模应用之后专业人士说SVM之流很可能被淘汰
h********3
发帖数: 2075
23
来自主题: Programming版 - 想写一个machine learning的平台
deep learning现在只适合超高dimension的数据,比如image这些。如果只是一般的分
类,svm和loglinear model足够了。而且到现在,很多人都不相信deep learning就真
的比SVM, loglinear更好。
w***g
发帖数: 5958
24
来自主题: Programming版 - CNN和template matching到底有啥区别
是template matching, 如果光从预测算法来看, 甚至还不如传统的template matching.
deep learning的template matching就是内积+threshold, 可以认为是最最最土的
template matching. 传统的template matching算法往往比这个复杂, 而且也更
robust, 比如允许一定程度上的warping. 有时候对象一抖, template就匹配不上了.
Deep learning的对应方法是redundancy, 搞好多好多templates. 这个匹配不上了,
那个或许能匹配上. 以上不是关键.
deep learning牛x的地方是能够训练这些template, 而且是:
1. 一锅子训练. (2012年以前是一层一层训练, 当时甚至认为要deep必须一层一层
训练, 现在看来是不对的.) 一锅子的好处是层与层之间是配套的. 解的是一个
全局最优化问题, 而不是一系列局部最优化问题然后拼起来.
(注意不是全剧最优解. 不管是全局问题还是局部问题, 往往都得不到最优解.
但是全局次优解... 阅读全帖
H****S
发帖数: 1359
25
ANN之前半死不活被SVM压得死死的,是因为业界还是把它简单的作为机器学习算法的一
种,没有人认识到隐含层的重要意义。所有即便那时有人使用ANN,大部分只用一个隐
含层,也有完全不用隐含层的,那就成了logistic regression了。突破口是Hinton划
时代的向所有人展示原来神经网络是可以学习feature的。2002年的那篇science文章把
一个原始features高度耦合的文档分类问题转化成了另外一个feature set,后者视觉
上就线性可分。我同意正确率显著提高也是一个里程碑,不过在SVM最风骚的那几年,
大家都在研究kernel space,神经网络如果只是单纯提高正确率,我相信不少人的第一
想法肯定会是还有更牛的kernel space可以完胜神经网络,只是还没被找到而已。

发帖数: 1
26
来自主题: Biology版 - Deep learning to study complex genetics
恩恩。SVM kernel之后也可以非线性,当然。
我觉得我的意思还是:deep learning这个非线性的degree比SVM kernel要高很多吧,
毕竟那么多layer摆在那里
K****n
发帖数: 5970
27
我反思了一下,为啥我忍不住来瞎扯。发现了规律 - 这里的人民群众说的东西都很
out dated
PCA - 已经没人用了,求特征向量求逆的东西产品里没法 scale
SVD++ 已经没人用了,factorization machine 和 field-aware factorization
machine 已经综合了所有矩阵分解类算法
还有您老说的 SVM - 已经没人用了,太 tmd 慢了,除非 linear svm,但是 linear
model 我随便选 cost function 就好了
我建议转码农就好好 coding,不要觉得自己在学校里跟教授大爷学的这些 ML 能过面试
e*********6
发帖数: 3453
28
这和数据类型没关系,各个行业都有不同的数据类型,都要根据自己的需求来重新做
model,要是没合适模型直接拿来用,就说没法做的,那deepbind和deepSea都不会出现
了。
DeepBind的这种东西,没有可以比的benchmark,因为这是开创性的革命性的,或者说
,传统的SVM之类的,效果实在太差,差到都没发表的必要的。
一流的研究是颠覆性,革命性,开创性的,很多时候的确没有什么传统的benchmark可
以比较
看这两篇paper,都是用deep learning的手段来增强实验数据的,
http://biorxiv.org/content/early/2016/05/07/052118
http://biorxiv.org/content/early/2017/03/01/112631
就是对现实需求和deep learning技术的结合,两篇都没有任何benchmark来进行对比,
因为都是开创性的,传统的SVM和Linear Regression都无法做这个事情
l***e
发帖数: 12
29
【 以下文字转载自 CS 讨论区 】
发信人: lyzle (YeatS), 信区: CS
标 题: 请教一下这个做Learning的faculty水平如何?
发信站: BBS 未名空间站 (Thu Aug 4 21:23:28 2011, 美东)
http://www.esat.kuleuven.be/sista/members/suykens.html
比利时发考题,是那个小有名气的LS-SVM toolbox的项目领头人,做过SVM的人可能听
说过(貌似不如台湾国立大牛林智仁的libsvm用的多)。看publication蛮多的,但是
鄙人眼拙看不出质量,望有高人能指点一二,谢过。
r*******y
发帖数: 290
30
来自主题: Quant版 - 百思不得其解的一道题
这个不是cluster问题,是classification问题
因为每个数据都有一个label - asterisk or not
解决的方法海了去了,MLR, PCR, PLS, SVM, NN
一般来说,如果数据是非线性的,SVM和NN比较好,或者用kernel methods

cluster
p*********w
发帖数: 606
31
昨天收到电话,德意志银行onsite挂了,仍然想找夏天的实习,不知道版上的大牛们有
没有手里有机会的。
本人计算机博士在读,预计11年毕业,想找finance IT方面的实习
背景:
1. 熟练使用c++,平时research都用这个写code,有时用python写脚本做数据处理,用
过SQL, java, matlab,现在一直在做的是大规模数据并行处理,用mpi。
2. 在国内搞过几年machine learning,了解并使用过svm等工具。
3. 目前在一个协会作fixed income分析,主要是treasury部分,协会大概管理$4.6
million。其中一半资本在treasury sector。目前正在做一个项目,用svm作回归预测
失业率。
4. 五年国内股市股票交易经验。
5. 已过cfa一级。
6. 老实说,quant方面可能比较薄弱,这也是我专注于找finance IT的原因。之前在版
上发过morgan stanley quant intern的面经,一面就挂了。
如果有大牛有机会,站内投条,留个邮箱,我会发简历。
谢谢。
m*******r
发帖数: 98
32
来自主题: Quant版 - 关于volatiltiy prediction
Sorry, I was thinking about another problem when I mentioned SVM and Boost.
SVM can be extended to continuous variables after taking care of the
boundary sensitivity. Not sure about Boost. I have modified the post.

,
w**********y
发帖数: 1691
33
来自主题: Quant版 - CS和quant的异同
忍不了来冒个泡.尼玛,data-driven != blackblox 好不好...
svm, adaboost..是黑盒? 确定么??
svm是标准的非线性变换(kernel trick)和二次优化的应用..
adaboost最开始提出的时候是因为empirical results很好,怎么都不overfit..
后来火起来还是因为理论上面找到了强大支持..adaboost 实际等价于把exponential
loss当作优化目标的additive model.这样才有了logitboost..gradientboost...
听说(?)kinect的核心算法应该是random forest.这也是标准的data driven而非黑盒..
如果非要说黑盒,AI里面的黑盒是Neutral Network, Genetic Algorithm,
Reinforcement Learning这些东西..
w**********y
发帖数: 1691
34
来自主题: Quant版 - 有人知道trexquant 吗?
不至于吧? CMU的 ML PHD不懂SVM? 这能毕业啊? 现在任何一个统计民科都知道SVM..
l******n
发帖数: 1250
35
看了这么多quant的工作,觉得machine learning是必备的。
但是关于machine learning的深度和广度,不知道哪一个更重要
CS PHD的machine learning,往往比较注重理论。他们可能几年就搞SVM,或者Neural
Network,搞出很多很多变体来。
向我们EE的PHD,也做machine learning,但是往往比较注重实践。我们是尝试不同的
学习方法,比如SVM, Neural Network,adaboost,random forest, 用在不同的领域,
比如分类,预测等等,然后比较优略。
我不知道工业界对machine learning,是注重深度多一些,还是广度?
T******r
发帖数: 265
36
非常感谢大家的热情回复。今天我试了试pls (partial least square),但是有点不明
白,希望高手指正。
我用R - pls package试的,问题是有一次
我错误的把dependant variable 加到formula的右边,就是
y ~ y + X (我有>10000 explanatory variables)
我觉得这样的话,我应该得到一个factor能100%解释dependant variable,但是pls的
并没有产生这样一个factor.我把这个和
y ~ X
的结果比较,两次产生的factor很类似。
我的感觉是 y 被 >10000 X 掩盖住了。
以前我用pca的时候,也犯过类似的错误,结果也是这样。对于pca我能"理解"。但是
pls理论上考虑了 dependant 和 independant variables的关系,不应该是这样的吧?
还有我想问一下,如果要在R 试一试 1 norm svm, 我是应该用penalizedSVM吗?
题外话,我看到的1 norm svm的应用多是在categorical variables,不知道
C*********e
发帖数: 587
37
来自主题: Statistics版 - 高维问题
non parametric kernel plus large margin idea 基本上就是SVM了
SVM中 的 regularization 就是为了更好的 generalize ability,某种程度上是对
samples过少有帮助的。这个时候可以不用non linear kernel,因为维度已经足够
高了

data
your
D******n
发帖数: 2836
38
来自主题: Statistics版 - 问一个technical question的回答方法
u were answering as these two are same kind of methods. I dont know what the
interviewer wanted to know, but these two are totally different methods,
whats his point? as ls said, if he really asked this,then just answer how
they work and show they are totally different.
Unless, his questions is compare the pros and cons of SVM and dicision tree
or what's the difference in application and performance of SVM and DT.

what
M*****t
发帖数: 85
39
来自主题: Statistics版 - 问一个technical question的回答方法
对SVM几乎没什么印象。。。临时翻了一下才知道
lz这是面试的什么类型的职位,会被问predictive modeling里的SVM?是insurance
company的统计职位吗?

what
A*******s
发帖数: 3942
40
来自主题: Statistics版 - 问一个technical question的回答方法
这就是我最郁闷的地方了。这个职位是关于BI软件的测试,我还以为看重的是
programing。结果俩面试官一上来就说,since you have adv sas certification, we
have no doubt about your programming skills. Let's talk about you data
mining experience. 晕死,我就完全没准备. 结果ANN,DT和SVM问了个遍。还问我能
不能在data step里实现SVM,我只好很老实地说我很多年没碰过quadratic
optimization了,完全想不起来细节了。
这个是有史以来打击最大的面试,让我觉得自己啥都不懂,唉...
j*******2
发帖数: 309
41
来自主题: Statistics版 - Support vector machine的优点是什么
非常感谢博士大牛。看了一点svm的资料,了解不是很深,希望先弄清它的特点。再问
一下,svm最后的
结果只和support vector有关,这是不是算法稳定的原因呢?
d******e
发帖数: 7844
42
来自主题: Statistics版 - Support vector machine的优点是什么
你可以这么说,他的Loss性质肯定要比L2 loss这种东西稳定,但和Logitic
regression差不太多。比LR应该略好一些
其实SVM的loss对于outlier也比较敏感。所以还有robust版本的Psi learning和
Tuncated Hinge Loss SVM
d******e
发帖数: 7844
43
来自主题: Statistics版 - 问个关于lasso的问题

~~~~~这个取决于你用什么Kernel,Polynomial kenerl的功能就和你这个类似,
呵呵。
~~~~~知道为什么现在SVM没有以前那么火了么?因为其他的方法一样可以通过
regularization来实现控制model complexity。至少目前来说,SVM比起Kernelized
logistic regression没有任何优势。
~~~~~不看prediction accuracy看什么?
right.
d******e
发帖数: 7844
44
来自主题: Statistics版 - 陈大师的意思我终于有点领会了
通过一些步骤来做screening一般来说主要是家跨速度,很难让性能更好,尤其是你这
种上百万个sample的情况。
你可以试试先做T-test,然后上1 norm SVM。
如果时间成本不是问题又不在乎变量选择,直接上L2 SVM也没什么大不了的,TTI的一
个以色列人有一个随机提梯度下降的solver。
如果想直接用kernel的话,还没有现成的solver,需要自己写了。

好。
h*****s
发帖数: 153
45
来自主题: Statistics版 - text book for "Support Vector Machine"
I am trying to apply SVM to my data currently. Can anyone recommend an
introductory level SVM textbook to me...It had better focus on application
not too mathmatically extensive.
thanks in advance.
h**t
发帖数: 1678
46
来自主题: Statistics版 - KSVM 提问
ksvm()的结果和svm的公式如何对应? 比如
linear svm: w*z+b= sum(alpha*y*x)*z+b
其中的alpha, y, x 都分别对应ksvm的alpha, ymatrix, xmatrix?(b is offset
, which is sure). What is the coefficient for?
谢谢!
s****i
发帖数: 197
47
请教一下各位大虾, 我现在手上有一套医院的数据s(这个数据集有34个attributes,其
中3个是categorical的) 我建了个模型(在这里简称模型A吧)做2-way classification
之后我对同一套数据建立了SVM, RandomForest 发现模型A要比后两个表现好7%(就是
prediction accuracy和sensitivity/specificity这些东西) 但是如果我把模型A用在
其他数据上 表现就会比SVM和RF低2-4个百分点 现在的问题就是解释这是为什么 请问
一下各位大虾 我应该用什么工具来检测数据s和其他数据的区别?? 该从哪个方向入手??
顺便在这里吐槽一下 半路出家的老板不要跟啊不要跟 跟了就没人管啊没人管...
A*******s
发帖数: 3942
48
If we only care predictive performance, yes I do agree SVM, or more common,
kernel method, is a better way to capture nonlinear functional form. But as
I said in "business modeling", kernel method has no interpretability and is
hence less appealing.

I am not a expert on this topic,but I think SVM could be a better choice
here,since you ........
r********n
发帖数: 6979
49
我一般情况下都比较喜欢用logistic regression
因为简单,稳定,效果一般也不错
有的时候重要的不是用什么model
重要的是要找到合适的feature
如果feature不好
用什么fancy的model也没用
工作上也试过好几个不同的数据
效果来说
lr, svm的效果都不错, svm尤其是用non-linear kernel的时候也很容易overfit
decision tree效果一般
random forest效果比lr差不多, 不过计算量稍大, 不容易解释
fuzzy logic效果一般, 也很难解释model
nn效果也不错, 不过optimization比较困难, 而且计算量也要大很多, 完全是black
box
最终发现重要的是找到合适的feature
好的feature和差的feature可能可以差30%
不同的model之间的区别可能是10%以内(after all optimization, e.g. feature
selection, imputation, pruning, CV, bootstrapping)

as
to
b*****g
发帖数: 91
50
来自主题: Statistics版 - Statistical learning 方法
学了一整个学期的各种statistical learning方法,Linear, DA, tree, svm, random
forest, boosting 等等,到现在只是掌握了各方法基本知识和如何在R中使用。认真读
了那本statistical learning 经典教材,一些方法中,比如SVM 和boosting还是有很
多细节很难理解和完全掌握,
现正在努力找工数据分析方面的工作。interview的时候,有关这些方法,他们会怎么
考我们,会问哪些问题?,
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)