问两个个KNN的问题 - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 问两个个KNN的问题

相关主题
● Fraud detection model 在testing dataset 中效果很差，求原因	● How to select baseline(s) for acquisition score performance report?
● Cross-validation 怎么理解？怎么用？	● 面试问题求教(更新了啊)
● Support vector machine的优点是什么	● cross validation选择 lasso的参数
● 抓狂！为啥选出来的predictor都这么差	● training dataset validation dataset and test dataset
● logistic regression结果释疑，解读	● 请教如何用R做Cox model的k-fold cross-validation
● An interview question	● 求教一个模型/预测问题
● 报面筋求实习合租 (转载)	● 做credit risk scorecard的朋友们，请进来，有问题求教
● 新手请教logistic regression	● Early Performance Report

相关话题的讨论汇总
话题: knn话题: validation话题: training话题: 分类器话题: 最小

进入Statistics版参与讨论

(共1页)

d******e
发帖数: 7844

【以下文字转载自 CS 讨论区】
发信人: drburnie (专门爆料), 信区: CS
标题: 问两个个KNN的问题
发信站: BBS 未名空间站 (Sat Jan 9 18:37:31 2010, 美东)
使用KNN分类器做两类问题的分类。
实验步骤是分成80%作Training,20%做Testing。
然后再Training Set里用Leave one out cross validation来确定K.
参与cross validation的选取是K=1,3,5,,7... ...
然后选取cross validation error最小的K，如果同时有多个K达到最小的erorr，那么
这是选择最小的K还是最大的K？
另一个问题，有人说KNN的K不应该从1开始选，而是应该指定一个minimum，从这个
minimum开始。标准的KNN分类器有这个说法么？

B****n
发帖数: 11290

你可以random 一萬次選擇training set and test set 然後看看選擇到不同的k值的頻
率選個頻率最大的
還有 knn常常收斂到local解而不是global解所以最好用不同的initial values測試
一下讓分類的錯誤率最低

【在 d******e 的大作中提到】

: 【以下文字转载自 CS 讨论区】
: 发信人: drburnie (专门爆料), 信区: CS
: 标题: 问两个个KNN的问题
: 发信站: BBS 未名空间站 (Sat Jan 9 18:37:31 2010, 美东)
: 使用KNN分类器做两类问题的分类。
: 实验步骤是分成80%作Training,20%做Testing。
: 然后再Training Set里用Leave one out cross validation来确定K.
: 参与cross validation的选取是K=1,3,5,,7... ...
: 然后选取cross validation error最小的K，如果同时有多个K达到最小的erorr，那么
: 这是选择最小的K还是最大的K？

d******e
发帖数: 7844

是KNN，不是K-means... ...

【在 B****n 的大作中提到】

: 你可以random 一萬次選擇training set and test set 然後看看選擇到不同的k值的頻
: 率選個頻率最大的
: 還有 knn常常收斂到local解而不是global解所以最好用不同的initial values測試
: 一下讓分類的錯誤率最低

s**c
发帖数: 1247

既然小k和大k能取得一样的效果
小k肯定计算时间少

【在 d******e 的大作中提到】

d******e
发帖数: 7844

但是小K容易出现overfitting.

【在 s**c 的大作中提到】

: 既然小k和大k能取得一样的效果
: 小k肯定计算时间少

D******n
发帖数: 2836

leave one out seems linient to me

【在 d******e 的大作中提到】

g********r
发帖数: 8017

如果CV表现一样,还有什么其他鉴定overfitting的办法?

【在 d******e 的大作中提到】

: 但是小K容易出现overfitting.

d******e
发帖数: 7844

testing

【在 g********r 的大作中提到】

: 如果CV表现一样,还有什么其他鉴定overfitting的办法?

h***i
发帖数: 3844

用cv就容易overfitting

【在 d******e 的大作中提到】

: 但是小K容易出现overfitting.

d******e
发帖数: 7844

用单独的validation set会好一些。不过性能未必会好。

【在 h***i 的大作中提到】

: 用cv就容易overfitting

相关主题
● An interview question	● How to select baseline(s) for acquisition score performance report?
● 报面筋求实习合租 (转载)	● 面试问题求教(更新了啊)
● 新手请教logistic regression	● cross validation选择 lasso的参数
进入Statistics版参与讨论

g********r
发帖数: 8017

用m-fold CV做吧.

【在 d******e 的大作中提到】

: 用单独的validation set会好一些。不过性能未必会好。

d******e
发帖数: 7844

对于KNN这种分类器，n-fold cv会出现一个问题，sample density是不一样的。
比如5-fold cv,每次只有80%的样本参与训练,得到的最优参数K对于所有样本都参与训
练的情况会有所不同。

【在 g********r 的大作中提到】

: 用m-fold CV做吧.

h***i
发帖数: 3844

这么一说，那aic，bic之类的都不考虑了。
那就考虑structure risk minimization 之类的了

【在 d******e 的大作中提到】

: 对于KNN这种分类器，n-fold cv会出现一个问题，sample density是不一样的。
: 比如5-fold cv,每次只有80%的样本参与训练,得到的最优参数K对于所有样本都参与训
: 练的情况会有所不同。

g********r
发帖数: 8017

没有那么严重吧? 只要地形复杂程度没有因为减少20%数据变化太多.

【在 d******e 的大作中提到】

d******e
发帖数: 7844

当样本数量很大的时候，这么做没有问题，当样本少的时候就有麻烦了。尤其是高维数
据。
其实普通的KNN overfitting就是很严重，而我也只是拿KNN来做baseline。我导师非要
我弄一个overfitting最小的训练策略然后用这个数据来做baseline。

【在 g********r 的大作中提到】

: 没有那么严重吧? 只要地形复杂程度没有因为减少20%数据变化太多.

g********r
发帖数: 8017

好奇你在多少维上做KNN? 感觉超过三维,就算几千个点也稀疏.除非边界很简单,否则没
啥搞头.假定边界简单,那确实k大点
好.

【在 d******e 的大作中提到】

: 当样本数量很大的时候，这么做没有问题，当样本少的时候就有麻烦了。尤其是高维数
: 据。
: 其实普通的KNN overfitting就是很严重，而我也只是拿KNN来做baseline。我导师非要
: 我弄一个overfitting最小的训练策略然后用这个数据来做baseline。

d******e
发帖数: 7844

什么数据都用，从个数维到几千维。

【在 g********r 的大作中提到】

: 好奇你在多少维上做KNN? 感觉超过三维,就算几千个点也稀疏.除非边界很简单,否则没
: 啥搞头.假定边界简单,那确实k大点
: 好.

h***i
发帖数: 3844

几千维能直接做ＫＮＮ么，虽然维数不算太夸张，但是感觉非参在这种ｄｉｍｅｎｓｉ
ｏｎ上也不靠谱啊

【在 d******e 的大作中提到】

: 什么数据都用，从个数维到几千维。

d******e
发帖数: 7844

本来就是一个不靠铺的baseline，要不然能显出其他方法NB么，哈哈

【在 h***i 的大作中提到】

: 几千维能直接做ＫＮＮ么，虽然维数不算太夸张，但是感觉非参在这种ｄｉｍｅｎｓｉ
: ｏｎ上也不靠谱啊

h***i
发帖数: 3844

反正把classification看成regression，干脆加个penalty，搞Lasso， Scad之类的做
还可以同时做variable selection

【在 d******e 的大作中提到】

: 本来就是一个不靠铺的baseline，要不然能显出其他方法NB么，哈哈

(共1页)

进入Statistics版参与讨论

相关主题
● Early Performance Report	● logistic regression结果释疑，解读
● 请教SAS里怎么写Cross Validation的程序呢? 我总是出错	● An interview question
● 有关于cross validation的东西一般出现在哪方面的统计书中？	● 报面筋求实习合租 (转载)
● 请大牛推荐cross validation 方面的好Book/Paper	● 新手请教logistic regression
● Fraud detection model 在testing dataset 中效果很差，求原因	● How to select baseline(s) for acquisition score performance report?
● Cross-validation 怎么理解？怎么用？	● 面试问题求教(更新了啊)
● Support vector machine的优点是什么	● cross validation选择 lasso的参数
● 抓狂！为啥选出来的predictor都这么差	● training dataset validation dataset and test dataset

相关话题的讨论汇总
话题: knn话题: validation话题: training话题: 分类器话题: 最小

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天