由买买提看人间百态

topics

全部话题 - 话题: knn
首页 上页 1 2 3 4 下页 末页 (共4页)
m****t
发帖数: 555
1
来自主题: CS版 - 牛人很神奇的简历啊

这不是什么替代品的问题。SVM理论上好像很NB,但在工业上处理实际数据还赶不上
naive bayes 和 knn,至少就我所知的在实际中spam filtering是如此,因为我就是做
这个的。
naive bayes是用的最广的,没有原因,就是最成熟,最简单,最快,最容易实现。这
一点够了。
所以理论和实践是脱节的。
m****t
发帖数: 555
2
来自主题: CS版 - 牛人很神奇的简历啊

SVM只是理论上有那么一套。实践中的数据和做研究的数据差别很大。
不说其他的,垃圾邮件过滤,knn效果就比naive bayes好,都比SVM好。
d******e
发帖数: 7844
3
来自主题: CS版 - 牛人很神奇的简历啊
你也就这点能耐了,估计你也只能用用KNN或者Naive Bayes。
d******e
发帖数: 7844
4
来自主题: CS版 - 牛人很神奇的简历啊
呵呵,没看出来,大侠把你的文章贴出来看看吧,看看你的影响力和SVM比如何。
KNN,Naive Bayes在你那里再NB也不是你自己的东西,做点NB的东西给大家看看,别总
一天SVM不行,SVM不行的,耍嘴皮子谁不会啊,亮亮你的真本事啊。
p*********g
发帖数: 226
5
来自主题: CS版 - Valiant 是理论大牛
现在在高维情况下knn发展地怎么样了?
r********3
发帖数: 2998
6
来自主题: CS版 - Valiant 是理论大牛
你的意思是说,研究了几十年的数据库技术都是小trick了? 在计算机领域里面,除了
最老的OS,System那个派系外,还没其他哪个派系刚这样说database领域。
超大规模数据处理的时候,即便是linear和sub-linear都不行的。KNN是可以直接做到
log级别的。话说回来,即便同样是linear,数据访问的顺序不同,也会造成几倍的差
别。你要是了解现在计算体系结构就明白了。
r********3
发帖数: 2998
7
来自主题: CS版 - Valiant 是理论大牛
看来你不是很了解indexing技术。建议你去看看现代计算机体系结构。

p
knn
r********3
发帖数: 2998
8
来自主题: CS版 - Valiant 是理论大牛
好吧,我承认,我心虚。。。
我没有说过不SVM做内积不合适。而是,你没有明白别人回帖里面说看好KNN的原因。
p*********g
发帖数: 226
9
来自主题: CS版 - Valiant 是理论大牛
kNN 的好处是显然的。
每个方法都有 advantage 和 disadvantage。我问一下 disadvantage,不代表我不承
认它的 advantage。
s********1
发帖数: 581
10
请问计算机vision中最常用的是哪种classifier? 为什么? 是因为误差低吗?还是运算
速度快?
SVM?
Naieve Bayes?
Linear Regression?
Tree?
KNN?
其他?
谢谢!
w****n
发帖数: 266
11
来自主题: CS版 - weka新手使用问题
training set优化 KNN的K值后, 预测 test set, 总是报错, 提示training 和test
not compatible, 我test set里class那项留的空白。不知哪里出问题了,谢谢
w****n
发帖数: 266
12
来自主题: CS版 - regression analysis
trainingset 10万sample,200个attribute
regression 的LSE 有哪些具体的算法呢? 就像 classification里的kNN, random
forest类的
feature selection呢? 跟classification的一样?
w****n
发帖数: 266
13
来自主题: CS版 - regression analysis
trainingset 10万sample,200个attribute
regression 的LSE 有哪些具体的算法呢? 就像 classification里的kNN, random
forest类的
feature selection呢? 跟classification的一样?
k**o
发帖数: 8
14
兄弟居然还搞实名制啊,你做得不错啊。
目前有哪些作者用了你的knn 算法作spectral clustering 啊?
速度以及内存消耗跟michael jordan 一伙人2009年提出的算法比较怎么样?
l*******m
发帖数: 1096
15
来自主题: CS版 - 一个机器学习的问题
如果数据量不大,定义个distance(seq1, seq2), 然后上kNN或SVM
比较流行的distance 是dynamic time wrapping (DTW), DTW 是 O(n××2)的有些
慢,可以简化一下加速

x2
d****i
发帖数: 4809
16
来自主题: CS版 - 一个机器学习的问题
多谢,这个想法不错,但是问题中的sequence是N个M by 1的向量:x_1, x_2, ..., x_
N, 有时间关联,怎么定义distance呢,比如只计算相邻两个之间的distance:
dist(x_n, x_{n-1}), 好像不用DTW,直接用欧几里德距离就可以了,然后怎么用KNN呢?
g*****u
发帖数: 298
17
来自主题: Programming版 - 问一个算法题,可能比较老了,KNN
给你x-y坐标轴上n个点,求每个点的K个最近邻,K为常数。比较好的算法有吗?有低于
O(n^2)的解法吗?(我觉得应该没有,但是好的算法肯定还是会快一些的。)
c*****t
发帖数: 1879
18
来自主题: Programming版 - 问一个算法题,可能比较老了,KNN
用 Delaunay triangle / Voronoi diagram 的话应该可以更快。光算
triangle / diagram 的话是 O (n log n)。
对于每个点搞定 k 个 neighbor 花的时间应该是 O (k)。因为你这个 k 是
constant,所以总共是 O (n log n)
y*******g
发帖数: 6599
19
来自主题: Programming版 - 问一个算法题,可能比较老了,KNN
kd tree, quadtree之类的方法可以
ps :你做facebook的puzzle?
c*****z
发帖数: 182
20
来自主题: Programming版 - 问一个算法题,可能比较老了,KNN
search for ANN if you only need approximate neighbors,
the lower bound should be NlogN,
I*********g
发帖数: 93
21
来自主题: Programming版 - 问一个算法题,可能比较老了,KNN
厉害啊。一直在想这道题怎么做。
没有想到这个现成的数据结构。还是书看少了。
y******u
发帖数: 804
22
快速knn算法,应用价值还是很高的。
属于绝招型技术,类似矩阵乘法效率的提升
m***r
发帖数: 359
23
来自主题: Programming版 - 好东西传送门周报汇总 2015-03-08
Python周报 2015-03-08
http://py.memect.com/weekly/2015-03-08/
2015-03-08 星期日,完整版 9 条
Python中的默认参数 @Python开发者
Python的Twitter情感预测工具 @路遥_机器学习
Python中的类和对象 @Python开发者
Python下的数据处理和机器学习 @爱可可-爱生活
Python下用线性SVM分类器做Twitter作者预测 @爱可可-爱生活
2015-03-07 星期六,完整版 12 条
Python下利用GetStream.io快速搭建一个实时通知系统 @Python传送门
Python中备忘功能和装饰器 @Python开发者
用Docker部署Python应用的一点建议 @Python传送门
IPython的单元Magic命令 @陈晓鸣在硅谷
SnowNLP @limodou
2015-03-06 星期五,完整版 14 条
深度讲解Python Decorators和Context Managers @Python传送门
SciPy'13上用Python做统计数据分析的Tut... 阅读全帖
m***r
发帖数: 359
24
来自主题: Programming版 - 好东西传送门周报汇总 2015-03-08
机器学习周报 2015-03-08
http://ml.memect.com/weekly/2015-03-08/
2015-03-08 星期日,完整版 24 条
机器学习中距离和相似性度量方法 @陈晓鸣在硅谷
机器学习ML简史 @数盟社区
Peter Norvig解决编程问题的机器学习 @网路冷眼
欧洲人脑计划改变其治理结构 @金连文
Hopfield Neural Networks为什么没有人提了呢? @西瓜大丸子汤
2015-03-07 星期六,完整版 31 条
52nlp上HMM相关文章索引 @52nlp
TKDE: Tweet分割和在NER上的应用 @AixinSG
音乐文件聚类和可视化 @爱可可-爱生活
Jürgen Schmidhuber在Reddit上的AMA @爱可可-爱生活
学术种子网站AcademicTorrents @阳志平1949
2015-03-06 星期五,完整版 38 条
踹不倒的谷歌大狗是怎样炼成的 @杨静Lillian
DeepDive Open Datasets @爱可可-爱生活
NICAR15上的报告,总结文本可视化 @爱可可-爱生活
张雨石的《... 阅读全帖
h*i
发帖数: 3446
25
来自主题: Programming版 - 再晒个我的开源NoSQL项目
我正需要一个能作快速KNN的NoSQL数据库。有几个技术问题:
1. 你说这个是NoSQL,但大家一般想象中的NoSQL数据库都不是单机的,而是
distributed,这样可以横向scale,你这个也是这么打算的么?
2. 你这个技术是基于LSH的,对么?
3. 你对下面这片文章提到,简单的用K-means来实现LSH的办法怎么看?
L. Paulev ́e, H. J ́egou, and L. Amsaleg. Locality sensitive
hashing: a comparison of hash function types and querying
mechanisms. PR Letters, 2010
和这个比起来,你的技术有什么优势?
w***g
发帖数: 5958
26
来自主题: Programming版 - 再晒个我的开源NoSQL项目
目前这个不是基于LSH的,而是用的KGraph。LSH和KGraph各有优缺。KGraph精度较高,
但是难以用精度换速度。LSH可以做得超快,但是精度较低。我已经找到一个愿意实现L
SH的同学了。计划把LSH也加进去,然后把索引做成可配置。我自己也研究过LSH,LSHK
IT就是我写的,有一些现成的LSH代码可以用,实现上应该没啥问题。刚才还收到
另一个对集群感兴趣的,不知道是不是你。K-NN搜索计算量太大,用集群来提高吞吐
量还可以,如果数据量大到要用机群来提高单个查询的速度,那吞吐量势必会非常低,
并由此导致各种稳定性问题。除非你每个查询能卖一笔钱,不然成本太大,可能会得不
尝失。
你那篇paper我认为很经典。L2 distance的话kmeans就是比以前那些基于random proje
ction的LSH要强(也就等于在很大程度上否认了之前LSH相关的研究)。这就是随机算法
和基于训练的算法的本质差异。
我这里有个Benchmark你可以看眼。KGraph比kmeans还快。KGraph目前没有开源,当初
想卖钱的,所以代码也按不开源的方式写了,为此还有一些速度上的损失。如... 阅读全帖
W***o
发帖数: 6519
27
来自主题: Programming版 - 最近的科技发展简直要逼死人了
even including kNN? that does not sound right
e*******o
发帖数: 4654
28
来自主题: Programming版 - 识别石头剪刀布的model
https://github.com/wxs/keras-mnist-tutorial/blob/master/MNIST%20in%20Keras.
ipynb
你这个比mnist 简单吧 比葫芦画瓢 就好了
可能中间一层就搞定了 我就是找几个随便试一下 不知道有没有更好的办法
我觉得knn 可能就搞定了
g****t
发帖数: 31659
29
来自主题: Programming版 - 求教中小公司普通码农职业发展
手写体识别数字那个题,你找个命中率高的论文复制一遍
99%不就前20了。再不然你仔细调一下knn参数,弄个99%.
我做项目,第一个办法就是找别人的方法抄一遍。
Kaggle那么多题,找找文献抄一抄,起码混个熟练


: 瞧你们说的刷个kaggle就跟玩儿似的。

: 谁有两把刷子刷个前20看看 ?

m******r
发帖数: 1033
30
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
有道理。 你的讲解让我想起不久前看过一段视频。 是采访著名cart发明人breimann还
是frimann讲他当年怎么发明决策树算法的故事。 他当年是stanford搞物理的, 原本
用k_nearest_neighborhood 方法解决高能粒子classification的问题, 后来有天早上
在床上想啊想啊( 我也爱赖在床上想一些自己的土算法, 很有效)忽然就从knn联想到
了决策树算法。 后来创办了CART软件,不久前被minitab收购。
现在我知道应该怎么向客户展示了: 应该类似和散点图(scatterplot)差不多的图,重
点展示一些cluster。
还有一个疑问。 xgb输出是score, 0~1, 我然后根据分数排序, 看看每个十分位(
decile),购买率是多少, 结果竟然是100%, 99% 90%, 80%, 30%, 12%, 10%, 0%,
0%, 0% (就是做lift curve 类似方法)
我再仔细研究score, 发现这些分数跳跃性很大, 有很多分数相同(up to 10th
decimal place).
怎么看怎么别扭。 我的理解是: 这... 阅读全帖
s******s
发帖数: 13035
31
经常有这个需要,比如做population stratefication或者其他molecular profiling的
时候,
1. 有10000个点,每个点有x, y ,可以在2D plot上显示出来。
2. 有或者没有一些已知classification的点,比如1000个点,知道population的分类,
可以通过不同的颜色在2D plot上显示
需要可以通过鼠标在plot选不同的区域用人眼classify,然后最后告诉我每个点在那个
cluster.
我知道有些R/python可视化package应该可以实现这个,不过有没有具体的sample code。
如果有现成的工具或者网站那就更好了。
另外,就population stratefication来说,有没有啥根据smartpca好的classifier?
我试了
一下knn, 对1kg的选择还行,对我的population assignment看起来有很多不对的地方。
感觉上可能手动更加准一点,也在看看tsne等其他方法,大家有推荐方法么?
g*********3
发帖数: 177
32
你的问题是:有10k个data points,需要做cluster analysis?feature只有x&y?
你的数据是label-free的?KNN数据量太大了之后运行很慢。而且bio不比其他的数据,
如果知道来自三个ethnic group,你的k就限定了,不能随便制定K值。
S******y
发帖数: 1123
33
来自主题: Statistics版 - KNN in R
I am wondering whether R can do K-nearest neighborhood algorithm?
An example in R would be greatly appreciated!
h***i
发帖数: 3844
34
来自主题: Statistics版 - KNN in R
R 可以
S******y
发帖数: 1123
35
来自主题: Statistics版 - KNN in R
kknn?
s**c
发帖数: 1247
36
来自主题: Statistics版 - 问两个个KNN的问题
既然小k和大k能取得一样的效果
小k肯定计算时间少
d******e
发帖数: 7844
37
来自主题: Statistics版 - 问两个个KNN的问题
但是小K容易出现overfitting.
D******n
发帖数: 2836
38
来自主题: Statistics版 - 问两个个KNN的问题
leave one out seems linient to me
g********r
发帖数: 8017
39
来自主题: Statistics版 - 问两个个KNN的问题
如果CV表现一样,还有什么其他鉴定overfitting的办法?
d******e
发帖数: 7844
40
来自主题: Statistics版 - 问两个个KNN的问题
testing
h***i
发帖数: 3844
41
来自主题: Statistics版 - 问两个个KNN的问题
用cv就容易overfitting
d******e
发帖数: 7844
42
来自主题: Statistics版 - 问两个个KNN的问题
用单独的validation set会好一些。不过性能未必会好。
g********r
发帖数: 8017
43
来自主题: Statistics版 - 问两个个KNN的问题
用m-fold CV做吧.
h***i
发帖数: 3844
44
来自主题: Statistics版 - 问两个个KNN的问题
这么一说,那aic,bic之类的都不考虑了。
那就考虑structure risk minimization 之类的了
g********r
发帖数: 8017
45
来自主题: Statistics版 - 问两个个KNN的问题
没有那么严重吧? 只要地形复杂程度没有因为减少20%数据变化太多.
d******e
发帖数: 7844
46
来自主题: Statistics版 - 问两个个KNN的问题
什么数据都用,从个数维到几千维。
h***i
发帖数: 3844
47
来自主题: Statistics版 - 问两个个KNN的问题
几千维能直接做KNN么,虽然维数不算太夸张,但是感觉非参在这种dimensi
on上也不靠谱啊
d******e
发帖数: 7844
48
来自主题: Statistics版 - 问两个个KNN的问题
本来就是一个不靠铺的baseline,要不然能显出其他方法NB么,哈哈
h***i
发帖数: 3844
49
来自主题: Statistics版 - 问两个个KNN的问题
反正把classification看成regression,干脆加个penalty,搞Lasso, Scad之类的做
还可以同时做variable selection
S******y
发帖数: 1123
50
... and KNN, naive bayes ... and of course, generalized linear models...
首页 上页 1 2 3 4 下页 末页 (共4页)