由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 还是run SVM的问题
相关主题
急问有关SVM,randomforest的问题(gene expression data)该怎么分析“所用的颜色的数量”和“诊断结果”之间的关系?
svm的变量选择和shrinking选项什么关系?谁有fan jianqing的local polynomial modeling and its application 或者下载地址?
问个关于lasso的问题和国内一学医出身自学统计成材的大拿关于线模的讨论
polynomial 和linearproc GLM ; contrast : why this is QUADRATIC ?
goodness of fit for non-linear regression借人气问一下:gegenbauer polynomial这个函数怎么实现?
问一个linear regression 的弱问题。请教一个曲线拟合的问题 (转载)
how to do permutation in R?谁给点例子,到底啥时候用parallel programming能提高速度?
R package e1071的一个问题:怎么读进一个svm modelcontribution to explained variance in polynomial regressio
相关话题的讨论汇总
话题: svm话题: kernel话题: linear话题: package话题: e1071
进入Statistics版参与讨论
1 (共1页)
f*********y
发帖数: 376
1
用的是R中的e1071 package
data 包含 60 variable, 3.5 w observations
linear kernel 要 4hr, polynomial kernel 要 20+hr...
怎么提高速度呢? 非常感谢!
如果将需要把最后的model用C++实现, 进行分类, 会不会很耗时间, 若kernel不是
linear的话.
M*******g
发帖数: 41
2
建议你用Jordan 他们的办法。
http://www.cs.berkeley.edu/~jordan/fasp.html
先用kmeans()聚类压缩数据,比如得到1000个类簇;
然后在前一步kmeans()得到的1000个类簇中心上运行SVM;
最后属于同一个类簇的所有点得到相同的label,也就是各
个类簇中心的label。
我前一段时间有一个很大的数据,50多万个点,20个特征,
需要运行谱聚类(spectral clustering),结果他们的算法
五分多钟就算完了。虽然他们的算法是聚类问题,
你是分类问题但是原理应该差不多。

【在 f*********y 的大作中提到】
: 用的是R中的e1071 package
: data 包含 60 variable, 3.5 w observations
: linear kernel 要 4hr, polynomial kernel 要 20+hr...
: 怎么提高速度呢? 非常感谢!
: 如果将需要把最后的model用C++实现, 进行分类, 会不会很耗时间, 若kernel不是
: linear的话.

f*********y
发帖数: 376
3
thanks a lot! I will read it carefully at first.

【在 M*******g 的大作中提到】
: 建议你用Jordan 他们的办法。
: http://www.cs.berkeley.edu/~jordan/fasp.html
: 先用kmeans()聚类压缩数据,比如得到1000个类簇;
: 然后在前一步kmeans()得到的1000个类簇中心上运行SVM;
: 最后属于同一个类簇的所有点得到相同的label,也就是各
: 个类簇中心的label。
: 我前一段时间有一个很大的数据,50多万个点,20个特征,
: 需要运行谱聚类(spectral clustering),结果他们的算法
: 五分多钟就算完了。虽然他们的算法是聚类问题,
: 你是分类问题但是原理应该差不多。

f*********y
发帖数: 376
4
Hi, I have another thought.
Does the feature number matters much or the obs matters much?
Since I have about 60 features, I think I can sort the cofficients of
features in linear SVM, and delete some of features due to their small
coefficents. Then I can rerun SVM using other kernels..

【在 M*******g 的大作中提到】
: 建议你用Jordan 他们的办法。
: http://www.cs.berkeley.edu/~jordan/fasp.html
: 先用kmeans()聚类压缩数据,比如得到1000个类簇;
: 然后在前一步kmeans()得到的1000个类簇中心上运行SVM;
: 最后属于同一个类簇的所有点得到相同的label,也就是各
: 个类簇中心的label。
: 我前一段时间有一个很大的数据,50多万个点,20个特征,
: 需要运行谱聚类(spectral clustering),结果他们的算法
: 五分多钟就算完了。虽然他们的算法是聚类问题,
: 你是分类问题但是原理应该差不多。

M*******g
发帖数: 41
5
运行时间应该跟点数成平方关系而跟特征个数成线性关系。
所以对大数据集计算的瓶颈在点的个数上。
当然你如果能让GRAM 炬阵稀疏化也可以,
但效果不会有缩小点数来得明显。

【在 f*********y 的大作中提到】
: Hi, I have another thought.
: Does the feature number matters much or the obs matters much?
: Since I have about 60 features, I think I can sort the cofficients of
: features in linear SVM, and delete some of features due to their small
: coefficents. Then I can rerun SVM using other kernels..

L*****k
发帖数: 327
6
为什么要用R run SVM?网上各种好用的SVM package

【在 f*********y 的大作中提到】
: 用的是R中的e1071 package
: data 包含 60 variable, 3.5 w observations
: linear kernel 要 4hr, polynomial kernel 要 20+hr...
: 怎么提高速度呢? 非常感谢!
: 如果将需要把最后的model用C++实现, 进行分类, 会不会很耗时间, 若kernel不是
: linear的话.

f*********y
发帖数: 376
7
do you know any other SVM package with faster speed?
the size of problem may make any package run as slow as possible

【在 L*****k 的大作中提到】
: 为什么要用R run SVM?网上各种好用的SVM package
B******5
发帖数: 4676
8
e1071不就是那个最popular的package的接口

【在 L*****k 的大作中提到】
: 为什么要用R run SVM?网上各种好用的SVM package
1 (共1页)
进入Statistics版参与讨论
相关主题
contribution to explained variance in polynomial regressiogoodness of fit for non-linear regression
请教一个积分,大家帮忙看看能积出来么。问一个linear regression 的弱问题。
请推荐smoothing&nonparametric regression方面的参考书how to do permutation in R?
请教一个data analysis questionR package e1071的一个问题:怎么读进一个svm model
急问有关SVM,randomforest的问题(gene expression data)该怎么分析“所用的颜色的数量”和“诊断结果”之间的关系?
svm的变量选择和shrinking选项什么关系?谁有fan jianqing的local polynomial modeling and its application 或者下载地址?
问个关于lasso的问题和国内一学医出身自学统计成材的大拿关于线模的讨论
polynomial 和linearproc GLM ; contrast : why this is QUADRATIC ?
相关话题的讨论汇总
话题: svm话题: kernel话题: linear话题: package话题: e1071