m****t 发帖数: 555 | 1
这不是什么替代品的问题。SVM理论上好像很NB,但在工业上处理实际数据还赶不上
naive bayes 和 knn,至少就我所知的在实际中spam filtering是如此,因为我就是做
这个的。
naive bayes是用的最广的,没有原因,就是最成熟,最简单,最快,最容易实现。这
一点够了。
所以理论和实践是脱节的。 |
|
m****t 发帖数: 555 | 2
SVM只是理论上有那么一套。实践中的数据和做研究的数据差别很大。
不说其他的,垃圾邮件过滤,knn效果就比naive bayes好,都比SVM好。 |
|
d******e 发帖数: 7844 | 3 你也就这点能耐了,估计你也只能用用KNN或者Naive Bayes。 |
|
d******e 发帖数: 7844 | 4 呵呵,没看出来,大侠把你的文章贴出来看看吧,看看你的影响力和SVM比如何。
KNN,Naive Bayes在你那里再NB也不是你自己的东西,做点NB的东西给大家看看,别总
一天SVM不行,SVM不行的,耍嘴皮子谁不会啊,亮亮你的真本事啊。 |
|
|
r********3 发帖数: 2998 | 6 你的意思是说,研究了几十年的数据库技术都是小trick了? 在计算机领域里面,除了
最老的OS,System那个派系外,还没其他哪个派系刚这样说database领域。
超大规模数据处理的时候,即便是linear和sub-linear都不行的。KNN是可以直接做到
log级别的。话说回来,即便同样是linear,数据访问的顺序不同,也会造成几倍的差
别。你要是了解现在计算体系结构就明白了。 |
|
r********3 发帖数: 2998 | 7 看来你不是很了解indexing技术。建议你去看看现代计算机体系结构。
p
knn |
|
r********3 发帖数: 2998 | 8 好吧,我承认,我心虚。。。
我没有说过不SVM做内积不合适。而是,你没有明白别人回帖里面说看好KNN的原因。 |
|
p*********g 发帖数: 226 | 9 kNN 的好处是显然的。
每个方法都有 advantage 和 disadvantage。我问一下 disadvantage,不代表我不承
认它的 advantage。 |
|
s********1 发帖数: 581 | 10 请问计算机vision中最常用的是哪种classifier? 为什么? 是因为误差低吗?还是运算
速度快?
SVM?
Naieve Bayes?
Linear Regression?
Tree?
KNN?
其他?
谢谢! |
|
w****n 发帖数: 266 | 11 training set优化 KNN的K值后, 预测 test set, 总是报错, 提示training 和test
not compatible, 我test set里class那项留的空白。不知哪里出问题了,谢谢 |
|
w****n 发帖数: 266 | 12 trainingset 10万sample,200个attribute
regression 的LSE 有哪些具体的算法呢? 就像 classification里的kNN, random
forest类的
feature selection呢? 跟classification的一样? |
|
w****n 发帖数: 266 | 13 trainingset 10万sample,200个attribute
regression 的LSE 有哪些具体的算法呢? 就像 classification里的kNN, random
forest类的
feature selection呢? 跟classification的一样? |
|
k**o 发帖数: 8 | 14 兄弟居然还搞实名制啊,你做得不错啊。
目前有哪些作者用了你的knn 算法作spectral clustering 啊?
速度以及内存消耗跟michael jordan 一伙人2009年提出的算法比较怎么样? |
|
l*******m 发帖数: 1096 | 15 如果数据量不大,定义个distance(seq1, seq2), 然后上kNN或SVM
比较流行的distance 是dynamic time wrapping (DTW), DTW 是 O(n××2)的有些
慢,可以简化一下加速
x2 |
|
d****i 发帖数: 4809 | 16 多谢,这个想法不错,但是问题中的sequence是N个M by 1的向量:x_1, x_2, ..., x_
N, 有时间关联,怎么定义distance呢,比如只计算相邻两个之间的distance:
dist(x_n, x_{n-1}), 好像不用DTW,直接用欧几里德距离就可以了,然后怎么用KNN呢? |
|
g*****u 发帖数: 298 | 17 给你x-y坐标轴上n个点,求每个点的K个最近邻,K为常数。比较好的算法有吗?有低于
O(n^2)的解法吗?(我觉得应该没有,但是好的算法肯定还是会快一些的。) |
|
c*****t 发帖数: 1879 | 18 用 Delaunay triangle / Voronoi diagram 的话应该可以更快。光算
triangle / diagram 的话是 O (n log n)。
对于每个点搞定 k 个 neighbor 花的时间应该是 O (k)。因为你这个 k 是
constant,所以总共是 O (n log n) |
|
y*******g 发帖数: 6599 | 19 kd tree, quadtree之类的方法可以
ps :你做facebook的puzzle? |
|
c*****z 发帖数: 182 | 20 search for ANN if you only need approximate neighbors,
the lower bound should be NlogN, |
|
I*********g 发帖数: 93 | 21 厉害啊。一直在想这道题怎么做。
没有想到这个现成的数据结构。还是书看少了。 |
|
y******u 发帖数: 804 | 22 快速knn算法,应用价值还是很高的。
属于绝招型技术,类似矩阵乘法效率的提升 |
|
m***r 发帖数: 359 | 23 Python周报 2015-03-08
http://py.memect.com/weekly/2015-03-08/
2015-03-08 星期日,完整版 9 条
Python中的默认参数 @Python开发者
Python的Twitter情感预测工具 @路遥_机器学习
Python中的类和对象 @Python开发者
Python下的数据处理和机器学习 @爱可可-爱生活
Python下用线性SVM分类器做Twitter作者预测 @爱可可-爱生活
2015-03-07 星期六,完整版 12 条
Python下利用GetStream.io快速搭建一个实时通知系统 @Python传送门
Python中备忘功能和装饰器 @Python开发者
用Docker部署Python应用的一点建议 @Python传送门
IPython的单元Magic命令 @陈晓鸣在硅谷
SnowNLP @limodou
2015-03-06 星期五,完整版 14 条
深度讲解Python Decorators和Context Managers @Python传送门
SciPy'13上用Python做统计数据分析的Tut... 阅读全帖 |
|
m***r 发帖数: 359 | 24 机器学习周报 2015-03-08
http://ml.memect.com/weekly/2015-03-08/
2015-03-08 星期日,完整版 24 条
机器学习中距离和相似性度量方法 @陈晓鸣在硅谷
机器学习ML简史 @数盟社区
Peter Norvig解决编程问题的机器学习 @网路冷眼
欧洲人脑计划改变其治理结构 @金连文
Hopfield Neural Networks为什么没有人提了呢? @西瓜大丸子汤
2015-03-07 星期六,完整版 31 条
52nlp上HMM相关文章索引 @52nlp
TKDE: Tweet分割和在NER上的应用 @AixinSG
音乐文件聚类和可视化 @爱可可-爱生活
Jürgen Schmidhuber在Reddit上的AMA @爱可可-爱生活
学术种子网站AcademicTorrents @阳志平1949
2015-03-06 星期五,完整版 38 条
踹不倒的谷歌大狗是怎样炼成的 @杨静Lillian
DeepDive Open Datasets @爱可可-爱生活
NICAR15上的报告,总结文本可视化 @爱可可-爱生活
张雨石的《... 阅读全帖 |
|
h*i 发帖数: 3446 | 25 我正需要一个能作快速KNN的NoSQL数据库。有几个技术问题:
1. 你说这个是NoSQL,但大家一般想象中的NoSQL数据库都不是单机的,而是
distributed,这样可以横向scale,你这个也是这么打算的么?
2. 你这个技术是基于LSH的,对么?
3. 你对下面这片文章提到,简单的用K-means来实现LSH的办法怎么看?
L. Paulev ́e, H. J ́egou, and L. Amsaleg. Locality sensitive
hashing: a comparison of hash function types and querying
mechanisms. PR Letters, 2010
和这个比起来,你的技术有什么优势? |
|
w***g 发帖数: 5958 | 26 目前这个不是基于LSH的,而是用的KGraph。LSH和KGraph各有优缺。KGraph精度较高,
但是难以用精度换速度。LSH可以做得超快,但是精度较低。我已经找到一个愿意实现L
SH的同学了。计划把LSH也加进去,然后把索引做成可配置。我自己也研究过LSH,LSHK
IT就是我写的,有一些现成的LSH代码可以用,实现上应该没啥问题。刚才还收到
另一个对集群感兴趣的,不知道是不是你。K-NN搜索计算量太大,用集群来提高吞吐
量还可以,如果数据量大到要用机群来提高单个查询的速度,那吞吐量势必会非常低,
并由此导致各种稳定性问题。除非你每个查询能卖一笔钱,不然成本太大,可能会得不
尝失。
你那篇paper我认为很经典。L2 distance的话kmeans就是比以前那些基于random proje
ction的LSH要强(也就等于在很大程度上否认了之前LSH相关的研究)。这就是随机算法
和基于训练的算法的本质差异。
我这里有个Benchmark你可以看眼。KGraph比kmeans还快。KGraph目前没有开源,当初
想卖钱的,所以代码也按不开源的方式写了,为此还有一些速度上的损失。如... 阅读全帖 |
|
W***o 发帖数: 6519 | 27 even including kNN? that does not sound right |
|
|
g****t 发帖数: 31659 | 29 手写体识别数字那个题,你找个命中率高的论文复制一遍
99%不就前20了。再不然你仔细调一下knn参数,弄个99%.
我做项目,第一个办法就是找别人的方法抄一遍。
Kaggle那么多题,找找文献抄一抄,起码混个熟练
: 瞧你们说的刷个kaggle就跟玩儿似的。
: 谁有两把刷子刷个前20看看 ?
|
|
m******r 发帖数: 1033 | 30 有道理。 你的讲解让我想起不久前看过一段视频。 是采访著名cart发明人breimann还
是frimann讲他当年怎么发明决策树算法的故事。 他当年是stanford搞物理的, 原本
用k_nearest_neighborhood 方法解决高能粒子classification的问题, 后来有天早上
在床上想啊想啊( 我也爱赖在床上想一些自己的土算法, 很有效)忽然就从knn联想到
了决策树算法。 后来创办了CART软件,不久前被minitab收购。
现在我知道应该怎么向客户展示了: 应该类似和散点图(scatterplot)差不多的图,重
点展示一些cluster。
还有一个疑问。 xgb输出是score, 0~1, 我然后根据分数排序, 看看每个十分位(
decile),购买率是多少, 结果竟然是100%, 99% 90%, 80%, 30%, 12%, 10%, 0%,
0%, 0% (就是做lift curve 类似方法)
我再仔细研究score, 发现这些分数跳跃性很大, 有很多分数相同(up to 10th
decimal place).
怎么看怎么别扭。 我的理解是: 这... 阅读全帖 |
|
s******s 发帖数: 13035 | 31 经常有这个需要,比如做population stratefication或者其他molecular profiling的
时候,
1. 有10000个点,每个点有x, y ,可以在2D plot上显示出来。
2. 有或者没有一些已知classification的点,比如1000个点,知道population的分类,
可以通过不同的颜色在2D plot上显示
需要可以通过鼠标在plot选不同的区域用人眼classify,然后最后告诉我每个点在那个
cluster.
我知道有些R/python可视化package应该可以实现这个,不过有没有具体的sample code。
如果有现成的工具或者网站那就更好了。
另外,就population stratefication来说,有没有啥根据smartpca好的classifier?
我试了
一下knn, 对1kg的选择还行,对我的population assignment看起来有很多不对的地方。
感觉上可能手动更加准一点,也在看看tsne等其他方法,大家有推荐方法么? |
|
g*********3 发帖数: 177 | 32 你的问题是:有10k个data points,需要做cluster analysis?feature只有x&y?
你的数据是label-free的?KNN数据量太大了之后运行很慢。而且bio不比其他的数据,
如果知道来自三个ethnic group,你的k就限定了,不能随便制定K值。 |
|
S******y 发帖数: 1123 | 33 I am wondering whether R can do K-nearest neighborhood algorithm?
An example in R would be greatly appreciated! |
|
|
|
s**c 发帖数: 1247 | 36 既然小k和大k能取得一样的效果
小k肯定计算时间少 |
|
|
D******n 发帖数: 2836 | 38 leave one out seems linient to me |
|
g********r 发帖数: 8017 | 39 如果CV表现一样,还有什么其他鉴定overfitting的办法? |
|
|
|
d******e 发帖数: 7844 | 42 用单独的validation set会好一些。不过性能未必会好。 |
|
|
h***i 发帖数: 3844 | 44 这么一说,那aic,bic之类的都不考虑了。
那就考虑structure risk minimization 之类的了 |
|
g********r 发帖数: 8017 | 45 没有那么严重吧? 只要地形复杂程度没有因为减少20%数据变化太多. |
|
|
h***i 发帖数: 3844 | 47 几千维能直接做KNN么,虽然维数不算太夸张,但是感觉非参在这种dimensi
on上也不靠谱啊 |
|
d******e 发帖数: 7844 | 48 本来就是一个不靠铺的baseline,要不然能显出其他方法NB么,哈哈 |
|
h***i 发帖数: 3844 | 49 反正把classification看成regression,干脆加个penalty,搞Lasso, Scad之类的做
还可以同时做variable selection |
|
S******y 发帖数: 1123 | 50 ... and KNN, naive bayes ... and of course, generalized linear models... |
|