Univariate outlier detection - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - Univariate outlier detection

相关主题
● [bssd]我第一篇ai论文	● [bssd] I will keep talking in Mastodon
● Outlier detection -- 什么数学模型合适这个问题	● algorithm design768面
● 我钟爱的coffeescript这次牛大了 (转载)	● 请教一道数学题- 数列连乘积小于平均数的乘方吗？
● Extrapolation in Python?	● an+b复杂度为什么是O(n^2), Θ(n)?
● C/C++里面求normal distribution的cdf有可直接调用的函数吗？	● machine learning搞多了会怀疑自己的独立思维
● [bssd]python, 数值计算，working flow pain	● 关于shell script的一个问题
● 同时train segm和obj detect	● How to know # of threads in an app?
● 请教一个microarray问题	● 请问怎么快速的判断一个文件是否存在in c, unix

相关话题的讨论汇总
话题: univariate话题: outlier话题: detection话题: quartile话题: iqr

进入Programming版参与讨论

1

(共1页)

C*********r 发帖数: 21	1 有没有比较好的算法或者paper可以推荐应该有比较通用的方法吧
m******r 发帖数: 1033	2 有，而且很多。有名的比如 outlierso3, anomalyDetection , anomalize, tsoutliers ,不知道贵司有什么具体应用，可以给你推荐一款。
C*********r 发帖数: 21	3 就是每天会收到一些文件文件中每天带的数据量不同想找出一些明显有问题的文件（比如说数据量激增或者是明显的数据量减少之类的）【在 m******r 的大作中提到】 : 有，而且很多。有名的比如 outlierso3, anomalyDetection , anomalize, : tsoutliers ,不知道贵司有什么具体应用，可以给你推荐一款。
m******r 发帖数: 1033	4 要是光这个事，上面的包，都能做。要是往简单做的话，做个z变换，取2,3个方差即可。
m******n 发帖数: 453	5 univariate outier是大一STAT 101的内容就是取2或者3 sigma 【在 C*********r 的大作中提到】 : 就是每天会收到一些文件文件中每天带的数据量不同想找出一些明显有问题的文件 : （比如说数据量激增或者是明显的数据量减少之类的）
h*********3 发帖数: 1	6 我看还有个做法是画quartile box plot,[1st quartile - 1.5 * IQR, 3rd quartile + 1.5 * IQR]外的算作outlier 【在 m******n 的大作中提到】 : univariate outier是大一STAT 101的内容 : 就是取2或者3 sigma
l******n 发帖数: 9344	7 大家都说了基于中心极限定理的方法，就是均值是正太分布，可以算sigma，来构造区间。另外也可以用历史数据算quantile，也就是模拟cdf，然后把最开始10%和最后10% 作为outlier 这个对数据data points小的时候，效果更好【在 C*********r 的大作中提到】 : 就是每天会收到一些文件文件中每天带的数据量不同想找出一些明显有问题的文件 : （比如说数据量激增或者是明显的数据量减少之类的）
g****t 发帖数: 31659	8 不需要是正太分佈，也可以用chebyshev不等式或者別的不等式，根據距離平均值的遠近來定義outlier。麻煩的是多變量的情況。各種推廣不是很直觀。 : 大家都说了基于中心极限定理的方法，就是均值是正太分布，可以算 sigma，来构造区 : 间。另外也可以用历史数据算quantile，也就是模拟cdf，然后把最开始 10%和最后10% : 作为outlier : 这个对数据data points小的时候，效果更好【在 l******n 的大作中提到】 : 大家都说了基于中心极限定理的方法，就是均值是正太分布，可以算sigma，来构造区 : 间。另外也可以用历史数据算quantile，也就是模拟cdf，然后把最开始10%和最后10% : 作为outlier : 这个对数据data points小的时候，效果更好
E**********e 发帖数: 1736	9 这个python 有包，基于median的一个算法。搜搜。顺便瘦瘦一维数值cluster，基本都是从方差算，【在 C*********r 的大作中提到】 : 有没有比较好的算法或者paper可以推荐应该有比较通用的方法吧

1

(共1页)

进入Programming版参与讨论

相关主题
● stats output of regress in matlab	● C/C++里面求normal distribution的cdf有可直接调用的函数吗？
● what's the system call for get file num of a dir?	● [bssd]python, 数值计算，working flow pain
● public and protected member in private inherit	● 同时train segm和obj detect
● c里面有什么函数可以	● 请教一个microarray问题
● [bssd]我第一篇ai论文	● [bssd] I will keep talking in Mastodon
● Outlier detection -- 什么数学模型合适这个问题	● algorithm design768面
● 我钟爱的coffeescript这次牛大了 (转载)	● 请教一道数学题- 数列连乘积小于平均数的乘方吗？
● Extrapolation in Python?	● an+b复杂度为什么是O(n^2), Θ(n)?

相关话题的讨论汇总
话题: univariate话题: outlier话题: detection话题: quartile话题: iqr

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)