由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - Univariate outlier detection
相关主题
[bssd]我第一篇ai论文[bssd] I will keep talking in Mastodon
Outlier detection -- 什么数学模型合适这个问题algorithm design768面
我钟爱的coffeescript这次牛大了 (转载)请教一道数学题- 数列连乘积小于平均数的乘方吗?
Extrapolation in Python?an+b复杂度为什么是O(n^2), Θ(n)?
C/C++里面求normal distribution的cdf有可直接调用的函数吗?machine learning搞多了会怀疑自己的独立思维
[bssd]python, 数值计算,working flow pain关于shell script的一个问题
同时train segm和obj detectHow to know # of threads in an app?
请教一个microarray问题请问怎么快速的判断一个文件是否存在in c, unix
相关话题的讨论汇总
话题: univariate话题: outlier话题: detection话题: quartile话题: iqr
进入Programming版参与讨论
1 (共1页)
C*********r
发帖数: 21
1
有没有比较好的算法或者paper可以推荐 应该有比较通用的方法吧
m******r
发帖数: 1033
2
有, 而且很多。有名的比如 outlierso3, anomalyDetection , anomalize,
tsoutliers ,不知道贵司有什么具体应用 , 可以给你推荐一款。
C*********r
发帖数: 21
3
就是每天会收到一些文件 文件中每天带的数据量不同 想找出一些明显有问题的文件
(比如说数据量激增 或者是 明显的数据量减少之类的)

【在 m******r 的大作中提到】
: 有, 而且很多。有名的比如 outlierso3, anomalyDetection , anomalize,
: tsoutliers ,不知道贵司有什么具体应用 , 可以给你推荐一款。

m******r
发帖数: 1033
4
要是光这个事, 上面的包,都能做。
要是往简单做的话,做个z变换, 取2,3个方差即可。
m******n
发帖数: 453
5
univariate outier是大一STAT 101的内容
就是取2或者3 sigma

【在 C*********r 的大作中提到】
: 就是每天会收到一些文件 文件中每天带的数据量不同 想找出一些明显有问题的文件
: (比如说数据量激增 或者是 明显的数据量减少之类的)

h*********3
发帖数: 1
6
我看还有个做法是画quartile box plot,[1st quartile - 1.5 * IQR, 3rd quartile
+ 1.5 * IQR]外的算作outlier

【在 m******n 的大作中提到】
: univariate outier是大一STAT 101的内容
: 就是取2或者3 sigma

l******n
发帖数: 9344
7
大家都说了基于中心极限定理的方法,就是均值是正太分布,可以算sigma,来构造区
间。另外也可以用历史数据算quantile,也就是模拟cdf,然后把最开始10%和最后10%
作为outlier
这个对数据data points小的时候,效果更好

【在 C*********r 的大作中提到】
: 就是每天会收到一些文件 文件中每天带的数据量不同 想找出一些明显有问题的文件
: (比如说数据量激增 或者是 明显的数据量减少之类的)

g****t
发帖数: 31659
8
不需要是正太分佈,也可以用chebyshev不等式或者別的不等式,根據距離平均值的遠
近來定義outlier。麻煩的是多變量的情況。各種推廣不是很直觀。


: 大家都说了基于中心极限定理的方法,就是均值是正太分布,可以算
sigma,来
构造区

: 间。另外也可以用历史数据算quantile,也就是模拟cdf,然后把最开始
10%和最
后10%

: 作为outlier

: 这个对数据data points小的时候,效果更好



【在 l******n 的大作中提到】
: 大家都说了基于中心极限定理的方法,就是均值是正太分布,可以算sigma,来构造区
: 间。另外也可以用历史数据算quantile,也就是模拟cdf,然后把最开始10%和最后10%
: 作为outlier
: 这个对数据data points小的时候,效果更好

E**********e
发帖数: 1736
9
这个python 有包,基于median的一个算法。搜搜。顺便瘦瘦一维数值cluster,基本都
是从方差算,

【在 C*********r 的大作中提到】
: 有没有比较好的算法或者paper可以推荐 应该有比较通用的方法吧
1 (共1页)
进入Programming版参与讨论
相关主题
stats output of regress in matlabC/C++里面求normal distribution的cdf有可直接调用的函数吗?
what's the system call for get file num of a dir?[bssd]python, 数值计算,working flow pain
public and protected member in private inherit同时train segm和obj detect
c里面有什么函数可以请教一个microarray问题
[bssd]我第一篇ai论文[bssd] I will keep talking in Mastodon
Outlier detection -- 什么数学模型合适这个问题algorithm design768面
我钟爱的coffeescript这次牛大了 (转载)请教一道数学题- 数列连乘积小于平均数的乘方吗?
Extrapolation in Python?an+b复杂度为什么是O(n^2), Θ(n)?
相关话题的讨论汇总
话题: univariate话题: outlier话题: detection话题: quartile话题: iqr