第3页 - 关于knn的讨论汇总 - 话题女王

m****t
发帖数: 555

这不是什么替代品的问题。SVM理论上好像很NB，但在工业上处理实际数据还赶不上
naive bayes 和 knn，至少就我所知的在实际中spam filtering是如此，因为我就是做
这个的。
naive bayes是用的最广的，没有原因，就是最成熟，最简单，最快，最容易实现。这
一点够了。
所以理论和实践是脱节的。

m****t
发帖数: 555

来自主题: CS版 - 牛人很神奇的简历啊

SVM只是理论上有那么一套。实践中的数据和做研究的数据差别很大。
不说其他的，垃圾邮件过滤，knn效果就比naive bayes好，都比SVM好。

d******e
发帖数: 7844

来自主题: CS版 - 牛人很神奇的简历啊

你也就这点能耐了，估计你也只能用用KNN或者Naive Bayes。

d******e
发帖数: 7844

来自主题: CS版 - 牛人很神奇的简历啊

呵呵，没看出来，大侠把你的文章贴出来看看吧，看看你的影响力和SVM比如何。
KNN,Naive Bayes在你那里再NB也不是你自己的东西，做点NB的东西给大家看看，别总
一天SVM不行，SVM不行的，耍嘴皮子谁不会啊，亮亮你的真本事啊。

p*********g
发帖数: 226

来自主题: CS版 - Valiant 是理论大牛

现在在高维情况下knn发展地怎么样了？

r********3
发帖数: 2998

来自主题: CS版 - Valiant 是理论大牛

你的意思是说，研究了几十年的数据库技术都是小trick了？在计算机领域里面，除了
最老的OS，System那个派系外，还没其他哪个派系刚这样说database领域。
超大规模数据处理的时候，即便是linear和sub-linear都不行的。KNN是可以直接做到
log级别的。话说回来，即便同样是linear，数据访问的顺序不同，也会造成几倍的差
别。你要是了解现在计算体系结构就明白了。

r********3
发帖数: 2998

来自主题: CS版 - Valiant 是理论大牛

看来你不是很了解indexing技术。建议你去看看现代计算机体系结构。

p
knn

r********3
发帖数: 2998

来自主题: CS版 - Valiant 是理论大牛

好吧，我承认，我心虚。。。
我没有说过不SVM做内积不合适。而是，你没有明白别人回帖里面说看好KNN的原因。

p*********g
发帖数: 226

来自主题: CS版 - Valiant 是理论大牛

kNN 的好处是显然的。
每个方法都有 advantage 和 disadvantage。我问一下 disadvantage，不代表我不承
认它的 advantage。

s********1
发帖数: 581

来自主题: CS版 - 计算机vision中最常用的是哪种classifier?

请问计算机vision中最常用的是哪种classifier? 为什么？是因为误差低吗？还是运算
速度快？
SVM?
Naieve Bayes?
Linear Regression?
Tree?
KNN?
其他？
谢谢！

w****n
发帖数: 266

来自主题: CS版 - weka新手使用问题

training set优化 KNN的K值后，预测 test set，总是报错，提示training 和test
not compatible，我test set里class那项留的空白。不知哪里出问题了，谢谢

w****n
发帖数: 266

来自主题: CS版 - regression analysis

trainingset 10万sample，200个attribute
regression 的LSE 有哪些具体的算法呢？就像 classification里的kNN, random
forest类的
feature selection呢？跟classification的一样？

w****n
发帖数: 266

来自主题: CS版 - regression analysis

trainingset 10万sample，200个attribute
regression 的LSE 有哪些具体的算法呢？就像 classification里的kNN, random
forest类的
feature selection呢？跟classification的一样？

k**o
发帖数: 8

来自主题: CS版 - 这里有熟悉 spectral clustering 的吗？

兄弟居然还搞实名制啊，你做得不错啊。
目前有哪些作者用了你的knn 算法作spectral clustering 啊？
速度以及内存消耗跟michael jordan 一伙人2009年提出的算法比较怎么样？

l*******m
发帖数: 1096

来自主题: CS版 - 一个机器学习的问题

如果数据量不大，定义个distance(seq1, seq2), 然后上kNN或SVM
比较流行的distance 是dynamic time wrapping （DTW）， DTW 是 O(n××2)的有些
慢，可以简化一下加速

x2

d****i
发帖数: 4809

来自主题: CS版 - 一个机器学习的问题

多谢，这个想法不错，但是问题中的sequence是N个M by 1的向量：x_1, x_2, ..., x_
N, 有时间关联，怎么定义distance呢，比如只计算相邻两个之间的distance：
dist(x_n, x_{n-1}), 好像不用DTW，直接用欧几里德距离就可以了，然后怎么用KNN呢？

g*****u
发帖数: 298

来自主题: Programming版 - 问一个算法题，可能比较老了，KNN

给你x-y坐标轴上n个点，求每个点的K个最近邻，K为常数。比较好的算法有吗？有低于
O(n^2)的解法吗？（我觉得应该没有，但是好的算法肯定还是会快一些的。）

c*****t
发帖数: 1879

来自主题: Programming版 - 问一个算法题，可能比较老了，KNN

用 Delaunay triangle / Voronoi diagram 的话应该可以更快。光算
triangle / diagram 的话是 O (n log n)。
对于每个点搞定 k 个 neighbor 花的时间应该是 O (k)。因为你这个 k 是
constant，所以总共是 O (n log n)

y*******g
发帖数: 6599

来自主题: Programming版 - 问一个算法题，可能比较老了，KNN

kd tree, quadtree之类的方法可以
ps :你做facebook的puzzle?

c*****z
发帖数: 182

来自主题: Programming版 - 问一个算法题，可能比较老了，KNN

search for ANN if you only need approximate neighbors,
the lower bound should be NlogN,

I*********g
发帖数: 93

来自主题: Programming版 - 问一个算法题，可能比较老了，KNN

厉害啊。一直在想这道题怎么做。
没有想到这个现成的数据结构。还是书看少了。

y******u
发帖数: 804

来自主题: Programming版 - 有经验的来讲讲开源/闭源都怎么赚钱吧

快速knn算法，应用价值还是很高的。
属于绝招型技术，类似矩阵乘法效率的提升

m***r
发帖数: 359

来自主题: Programming版 - 好东西传送门周报汇总 2015-03-08

Python周报 2015-03-08
http://py.memect.com/weekly/2015-03-08/
2015-03-08 星期日，完整版 9 条
Python中的默认参数 @Python开发者
Python的Twitter情感预测工具 @路遥_机器学习
Python中的类和对象 @Python开发者
Python下的数据处理和机器学习 @爱可可-爱生活
Python下用线性SVM分类器做Twitter作者预测 @爱可可-爱生活
2015-03-07 星期六，完整版 12 条
Python下利用GetStream.io快速搭建一个实时通知系统 @Python传送门
Python中备忘功能和装饰器 @Python开发者
用Docker部署Python应用的一点建议 @Python传送门
IPython的单元Magic命令 @陈晓鸣在硅谷
SnowNLP @limodou
2015-03-06 星期五，完整版 14 条
深度讲解Python Decorators和Context Managers @Python传送门
SciPy'13上用Python做统计数据分析的Tut... 阅读全帖

m***r
发帖数: 359

来自主题: Programming版 - 好东西传送门周报汇总 2015-03-08

机器学习周报 2015-03-08
http://ml.memect.com/weekly/2015-03-08/
2015-03-08 星期日，完整版 24 条
机器学习中距离和相似性度量方法 @陈晓鸣在硅谷
机器学习ML简史 @数盟社区
Peter Norvig解决编程问题的机器学习 @网路冷眼
欧洲人脑计划改变其治理结构 @金连文
Hopfield Neural Networks为什么没有人提了呢？ @西瓜大丸子汤
2015-03-07 星期六，完整版 31 条
52nlp上HMM相关文章索引 @52nlp
TKDE： Tweet分割和在NER上的应用 @AixinSG
音乐文件聚类和可视化 @爱可可-爱生活
Jürgen Schmidhuber在Reddit上的AMA @爱可可-爱生活
学术种子网站AcademicTorrents @阳志平1949
2015-03-06 星期五，完整版 38 条
踹不倒的谷歌大狗是怎样炼成的 @杨静Lillian
DeepDive Open Datasets @爱可可-爱生活
NICAR15上的报告，总结文本可视化 @爱可可-爱生活
张雨石的《... 阅读全帖

h*i
发帖数: 3446

来自主题: Programming版 - 再晒个我的开源NoSQL项目

我正需要一个能作快速KNN的NoSQL数据库。有几个技术问题：
1. 你说这个是NoSQL,但大家一般想象中的NoSQL数据库都不是单机的，而是
distributed，这样可以横向scale，你这个也是这么打算的么？
2. 你这个技术是基于LSH的，对么？
3. 你对下面这片文章提到，简单的用K-means来实现LSH的办法怎么看？
L. Paulev ́e, H. J ́egou, and L. Amsaleg. Locality sensitive
hashing: a comparison of hash function types and querying
mechanisms. PR Letters, 2010
和这个比起来，你的技术有什么优势？

w***g
发帖数: 5958

来自主题: Programming版 - 再晒个我的开源NoSQL项目

目前这个不是基于LSH的，而是用的KGraph。LSH和KGraph各有优缺。KGraph精度较高，
但是难以用精度换速度。LSH可以做得超快，但是精度较低。我已经找到一个愿意实现L
SH的同学了。计划把LSH也加进去，然后把索引做成可配置。我自己也研究过LSH，LSHK
IT就是我写的，有一些现成的LSH代码可以用，实现上应该没啥问题。刚才还收到
另一个对集群感兴趣的，不知道是不是你。K-NN搜索计算量太大，用集群来提高吞吐
量还可以，如果数据量大到要用机群来提高单个查询的速度，那吞吐量势必会非常低，
并由此导致各种稳定性问题。除非你每个查询能卖一笔钱，不然成本太大，可能会得不
尝失。
你那篇paper我认为很经典。L2 distance的话kmeans就是比以前那些基于random proje
ction的LSH要强（也就等于在很大程度上否认了之前LSH相关的研究）。这就是随机算法
和基于训练的算法的本质差异。
我这里有个Benchmark你可以看眼。KGraph比kmeans还快。KGraph目前没有开源，当初
想卖钱的，所以代码也按不开源的方式写了，为此还有一些速度上的损失。如... 阅读全帖

W***o
发帖数: 6519

来自主题: Programming版 - 最近的科技发展简直要逼死人了

even including kNN? that does not sound right

e*******o
发帖数: 4654

来自主题: Programming版 - 识别石头剪刀布的model

https://github.com/wxs/keras-mnist-tutorial/blob/master/MNIST%20in%20Keras.
ipynb
你这个比mnist 简单吧比葫芦画瓢就好了
可能中间一层就搞定了我就是找几个随便试一下不知道有没有更好的办法
我觉得knn 可能就搞定了

g****t
发帖数: 31659

来自主题: Programming版 - 求教中小公司普通码农职业发展

手写体识别数字那个题,你找个命中率高的论文复制一遍
99%不就前20了。再不然你仔细调一下knn参数，弄个99%.
我做项目，第一个办法就是找别人的方法抄一遍。
Kaggle那么多题，找找文献抄一抄，起码混个熟练

: 瞧你们说的刷个kaggle就跟玩儿似的。

: 谁有两把刷子刷个前20看看？

m******r
发帖数: 1033

来自主题: Programming版 - 单变量xgboost模型好的吓人，求解

有道理。你的讲解让我想起不久前看过一段视频。是采访著名cart发明人breimann还
是frimann讲他当年怎么发明决策树算法的故事。他当年是stanford搞物理的，原本
用k_nearest_neighborhood 方法解决高能粒子classification的问题, 后来有天早上
在床上想啊想啊( 我也爱赖在床上想一些自己的土算法，很有效)忽然就从knn联想到
了决策树算法。后来创办了CART软件，不久前被minitab收购。
现在我知道应该怎么向客户展示了：应该类似和散点图(scatterplot)差不多的图，重
点展示一些cluster。
还有一个疑问。 xgb输出是score, 0~1，我然后根据分数排序, 看看每个十分位(
decile)，购买率是多少，结果竟然是100%, 99% 90%, 80%, 30%， 12%， 10%， 0%,
0%, 0% （就是做lift curve 类似方法）
我再仔细研究score, 发现这些分数跳跃性很大，有很多分数相同(up to 10th
decimal place).
怎么看怎么别扭。我的理解是：这... 阅读全帖

s******s
发帖数: 13035

来自主题: Biology版 - 可以用鼠标在2D dot plot上自由assign区域，并且输出assignment的工具?

经常有这个需要，比如做population stratefication或者其他molecular profiling的
时候，
1. 有10000个点，每个点有x, y ，可以在2D plot上显示出来。
2. 有或者没有一些已知classification的点，比如1000个点，知道population的分类，
可以通过不同的颜色在2D plot上显示
需要可以通过鼠标在plot选不同的区域用人眼classify，然后最后告诉我每个点在那个
cluster.
我知道有些R/python可视化package应该可以实现这个，不过有没有具体的sample code。
如果有现成的工具或者网站那就更好了。
另外，就population stratefication来说，有没有啥根据smartpca好的classifier?
我试了
一下knn, 对1kg的选择还行，对我的population assignment看起来有很多不对的地方。
感觉上可能手动更加准一点，也在看看tsne等其他方法，大家有推荐方法么？

g*********3
发帖数: 177

来自主题: Biology版 - 可以用鼠标在2D dot plot上自由assign区域，并且输出assignment的工具?

你的问题是：有10k个data points，需要做cluster analysis？feature只有x&y？
你的数据是label-free的？KNN数据量太大了之后运行很慢。而且bio不比其他的数据，
如果知道来自三个ethnic group，你的k就限定了，不能随便制定K值。

S******y
发帖数: 1123

来自主题: Statistics版 - KNN in R

I am wondering whether R can do K-nearest neighborhood algorithm?
An example in R would be greatly appreciated!

h***i
发帖数: 3844

来自主题: Statistics版 - KNN in R

R 可以

S******y
发帖数: 1123

来自主题: Statistics版 - KNN in R

kknn?

s**c
发帖数: 1247

来自主题: Statistics版 - 问两个个KNN的问题

既然小k和大k能取得一样的效果
小k肯定计算时间少

d******e
发帖数: 7844

来自主题: Statistics版 - 问两个个KNN的问题

但是小K容易出现overfitting.

D******n
发帖数: 2836

来自主题: Statistics版 - 问两个个KNN的问题

leave one out seems linient to me

g********r
发帖数: 8017

来自主题: Statistics版 - 问两个个KNN的问题

如果CV表现一样,还有什么其他鉴定overfitting的办法?

d******e
发帖数: 7844

来自主题: Statistics版 - 问两个个KNN的问题

testing

h***i
发帖数: 3844

来自主题: Statistics版 - 问两个个KNN的问题

用cv就容易overfitting

d******e
发帖数: 7844

来自主题: Statistics版 - 问两个个KNN的问题

用单独的validation set会好一些。不过性能未必会好。

g********r
发帖数: 8017

来自主题: Statistics版 - 问两个个KNN的问题

用m-fold CV做吧.

h***i
发帖数: 3844

来自主题: Statistics版 - 问两个个KNN的问题

这么一说，那aic，bic之类的都不考虑了。
那就考虑structure risk minimization 之类的了

g********r
发帖数: 8017

来自主题: Statistics版 - 问两个个KNN的问题

没有那么严重吧? 只要地形复杂程度没有因为减少20%数据变化太多.

d******e
发帖数: 7844

来自主题: Statistics版 - 问两个个KNN的问题

什么数据都用，从个数维到几千维。

h***i
发帖数: 3844

来自主题: Statistics版 - 问两个个KNN的问题

几千维能直接做ＫＮＮ么，虽然维数不算太夸张，但是感觉非参在这种ｄｉｍｅｎｓｉ
ｏｎ上也不靠谱啊

d******e
发帖数: 7844

来自主题: Statistics版 - 问两个个KNN的问题

本来就是一个不靠铺的baseline，要不然能显出其他方法NB么，哈哈

h***i
发帖数: 3844

来自主题: Statistics版 - 问两个个KNN的问题

反正把classification看成regression，干脆加个penalty，搞Lasso， Scad之类的做
还可以同时做variable selection

S******y
发帖数: 1123

来自主题: Statistics版 - 面试：nonlinear regression, predictive modeling, machining learning问什么？

... and KNN, naive bayes ... and of course, generalized linear models...

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天