还是run SVM的问题 - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 还是run SVM的问题

相关主题
● 急问有关SVM，randomforest的问题（gene expression data）	● 该怎么分析“所用的颜色的数量”和“诊断结果”之间的关系？
● svm的变量选择和shrinking选项什么关系？	● 谁有fan jianqing的local polynomial modeling and its application 或者下载地址？
● 问个关于lasso的问题	● 和国内一学医出身自学统计成材的大拿关于线模的讨论
● polynomial 和linear	● proc GLM ; contrast : why this is QUADRATIC ?
● goodness of fit for non-linear regression	● 借人气问一下：gegenbauer polynomial这个函数怎么实现？
● 问一个linear regression 的弱问题。	● 请教一个曲线拟合的问题 (转载)
● how to do permutation in R?	● 谁给点例子，到底啥时候用parallel programming能提高速度？
● R package e1071的一个问题：怎么读进一个svm model	● contribution to explained variance in polynomial regressio

相关话题的讨论汇总
话题: svm话题: kernel话题: linear话题: package话题: e1071

进入Statistics版参与讨论

1

(共1页)

f*********y 发帖数: 376	1 用的是R中的e1071 package data 包含 60 variable, 3.5 w observations linear kernel 要 4hr, polynomial kernel 要 20+hr... 怎么提高速度呢? 非常感谢! 如果将需要把最后的model用C++实现, 进行分类, 会不会很耗时间, 若kernel不是 linear的话.
M*******g 发帖数: 41	2 建议你用Jordan 他们的办法。 http://www.cs.berkeley.edu/~jordan/fasp.html 先用kmeans()聚类压缩数据，比如得到1000个类簇；然后在前一步kmeans()得到的1000个类簇中心上运行SVM；最后属于同一个类簇的所有点得到相同的label，也就是各个类簇中心的label。我前一段时间有一个很大的数据，50多万个点，20个特征，需要运行谱聚类(spectral clustering)，结果他们的算法五分多钟就算完了。虽然他们的算法是聚类问题，你是分类问题但是原理应该差不多。【在 f*********y 的大作中提到】 : 用的是R中的e1071 package : data 包含 60 variable, 3.5 w observations : linear kernel 要 4hr, polynomial kernel 要 20+hr... : 怎么提高速度呢? 非常感谢! : 如果将需要把最后的model用C++实现, 进行分类, 会不会很耗时间, 若kernel不是 : linear的话.
f*********y 发帖数: 376	3 thanks a lot! I will read it carefully at first. 【在 M*******g 的大作中提到】 : 建议你用Jordan 他们的办法。 : http://www.cs.berkeley.edu/~jordan/fasp.html : 先用kmeans()聚类压缩数据，比如得到1000个类簇； : 然后在前一步kmeans()得到的1000个类簇中心上运行SVM； : 最后属于同一个类簇的所有点得到相同的label，也就是各 : 个类簇中心的label。 : 我前一段时间有一个很大的数据，50多万个点，20个特征， : 需要运行谱聚类(spectral clustering)，结果他们的算法 : 五分多钟就算完了。虽然他们的算法是聚类问题， : 你是分类问题但是原理应该差不多。
f*********y 发帖数: 376	4 Hi, I have another thought. Does the feature number matters much or the obs matters much? Since I have about 60 features, I think I can sort the cofficients of features in linear SVM, and delete some of features due to their small coefficents. Then I can rerun SVM using other kernels.. 【在 M*******g 的大作中提到】 : 建议你用Jordan 他们的办法。 : http://www.cs.berkeley.edu/~jordan/fasp.html : 先用kmeans()聚类压缩数据，比如得到1000个类簇； : 然后在前一步kmeans()得到的1000个类簇中心上运行SVM； : 最后属于同一个类簇的所有点得到相同的label，也就是各 : 个类簇中心的label。 : 我前一段时间有一个很大的数据，50多万个点，20个特征， : 需要运行谱聚类(spectral clustering)，结果他们的算法 : 五分多钟就算完了。虽然他们的算法是聚类问题， : 你是分类问题但是原理应该差不多。
M*******g 发帖数: 41	5 运行时间应该跟点数成平方关系而跟特征个数成线性关系。所以对大数据集计算的瓶颈在点的个数上。当然你如果能让GRAM 炬阵稀疏化也可以，但效果不会有缩小点数来得明显。【在 f*********y 的大作中提到】 : Hi, I have another thought. : Does the feature number matters much or the obs matters much? : Since I have about 60 features, I think I can sort the cofficients of : features in linear SVM, and delete some of features due to their small : coefficents. Then I can rerun SVM using other kernels..
L*****k 发帖数: 327	6 为什么要用R run SVM？网上各种好用的SVM package 【在 f*********y 的大作中提到】 : 用的是R中的e1071 package : data 包含 60 variable, 3.5 w observations : linear kernel 要 4hr, polynomial kernel 要 20+hr... : 怎么提高速度呢? 非常感谢! : 如果将需要把最后的model用C++实现, 进行分类, 会不会很耗时间, 若kernel不是 : linear的话.
f*********y 发帖数: 376	7 do you know any other SVM package with faster speed? the size of problem may make any package run as slow as possible 【在 L*****k 的大作中提到】 : 为什么要用R run SVM？网上各种好用的SVM package
B******5 发帖数: 4676	8 e1071不就是那个最popular的package的接口【在 L*****k 的大作中提到】 : 为什么要用R run SVM？网上各种好用的SVM package

1

(共1页)

进入Statistics版参与讨论

相关主题
● contribution to explained variance in polynomial regressio	● goodness of fit for non-linear regression
● 请教一个积分，大家帮忙看看能积出来么。	● 问一个linear regression 的弱问题。
● 请推荐smoothing&nonparametric regression方面的参考书	● how to do permutation in R?
● 请教一个data analysis question	● R package e1071的一个问题：怎么读进一个svm model
● 急问有关SVM，randomforest的问题（gene expression data）	● 该怎么分析“所用的颜色的数量”和“诊断结果”之间的关系？
● svm的变量选择和shrinking选项什么关系？	● 谁有fan jianqing的local polynomial modeling and its application 或者下载地址？
● 问个关于lasso的问题	● 和国内一学医出身自学统计成材的大拿关于线模的讨论
● polynomial 和linear	● proc GLM ; contrast : why this is QUADRATIC ?

相关话题的讨论汇总
话题: svm话题: kernel话题: linear话题: package话题: e1071

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)