d******e 发帖数: 7844 | 1 【 以下文字转载自 Statistics 讨论区 】
发信人: drburnie (专门爆料), 信区: Statistics
标 题: 请教一个关于k-means的问题。
发信站: BBS 未名空间站 (Tue Aug 25 16:37:40 2009, 美东)
我现在在比较Gaussian Mixture Model和K-means。
虽然Gaussian Mixture用EM算法只能获得local optimal,但可以随机执行若干次,取
likelihood最大的结果。
对于K-means,每次也只能获得局部最优,虽然也可以随机执行若干次,但是无法比较
哪次更好。一般来讲,这个应该怎么衡量? |
T**********n 发帖数: 480 | 2 kmeans之后不是要跑个最近邻测准确率么?
【在 d******e 的大作中提到】 : 【 以下文字转载自 Statistics 讨论区 】 : 发信人: drburnie (专门爆料), 信区: Statistics : 标 题: 请教一个关于k-means的问题。 : 发信站: BBS 未名空间站 (Tue Aug 25 16:37:40 2009, 美东) : 我现在在比较Gaussian Mixture Model和K-means。 : 虽然Gaussian Mixture用EM算法只能获得local optimal,但可以随机执行若干次,取 : likelihood最大的结果。 : 对于K-means,每次也只能获得局部最优,虽然也可以随机执行若干次,但是无法比较 : 哪次更好。一般来讲,这个应该怎么衡量?
|
z*****e 发帖数: 231 | 3 You cannot use the predictive accuracy to measure the convergence of the
algorithm. Instead, you should use the criteria you are trying to maximize/
minimize. In k-means, I think you can use the total distance of each data
point from the centroids. |
d******e 发帖数: 7844 | 4 K-means can always minimize the total distance to 0.
Some other criterion is required to evaluate the convergence.
【在 z*****e 的大作中提到】 : You cannot use the predictive accuracy to measure the convergence of the : algorithm. Instead, you should use the criteria you are trying to maximize/ : minimize. In k-means, I think you can use the total distance of each data : point from the centroids.
|
l******e 发帖数: 470 | 5 k-means minimizes the SQUARED distance.
【在 z*****e 的大作中提到】 : You cannot use the predictive accuracy to measure the convergence of the : algorithm. Instead, you should use the criteria you are trying to maximize/ : minimize. In k-means, I think you can use the total distance of each data : point from the centroids.
|
l******e 发帖数: 470 | 6
????
【在 d******e 的大作中提到】 : K-means can always minimize the total distance to 0. : Some other criterion is required to evaluate the convergence.
|
d******e 发帖数: 7844 | 7 我看错了... ...
我把total distance算错了... ...
【在 l******e 的大作中提到】 : : ????
|
N**D 发帖数: 10322 | 8 they are equivalaent under assumptions
【在 d******e 的大作中提到】 : 【 以下文字转载自 Statistics 讨论区 】 : 发信人: drburnie (专门爆料), 信区: Statistics : 标 题: 请教一个关于k-means的问题。 : 发信站: BBS 未名空间站 (Tue Aug 25 16:37:40 2009, 美东) : 我现在在比较Gaussian Mixture Model和K-means。 : 虽然Gaussian Mixture用EM算法只能获得local optimal,但可以随机执行若干次,取 : likelihood最大的结果。 : 对于K-means,每次也只能获得局部最优,虽然也可以随机执行若干次,但是无法比较 : 哪次更好。一般来讲,这个应该怎么衡量?
|
K****n 发帖数: 5970 | 9 要是本来就没label咋办
【在 T**********n 的大作中提到】 : kmeans之后不是要跑个最近邻测准确率么?
|
K****n 发帖数: 5970 | 10 。。。
嗯,我觉得人家说的total square error挺好的,和maximum likelihood多搭呀
我看就用k-mean吧,既不用log又不用矩阵,写起来啥numerical issue都没有
【在 d******e 的大作中提到】 : 我看错了... ... : 我把total distance算错了... ...
|
w***s 发帖数: 424 | 11 Exactly, when K-means use squared loss.
【在 N**D 的大作中提到】 : they are equivalaent under assumptions
|