C*********r 发帖数: 21 | 1 有没有比较好的算法或者paper可以推荐 应该有比较通用的方法吧 |
m******r 发帖数: 1033 | 2 有, 而且很多。有名的比如 outlierso3, anomalyDetection , anomalize,
tsoutliers ,不知道贵司有什么具体应用 , 可以给你推荐一款。 |
C*********r 发帖数: 21 | 3 就是每天会收到一些文件 文件中每天带的数据量不同 想找出一些明显有问题的文件
(比如说数据量激增 或者是 明显的数据量减少之类的)
【在 m******r 的大作中提到】 : 有, 而且很多。有名的比如 outlierso3, anomalyDetection , anomalize, : tsoutliers ,不知道贵司有什么具体应用 , 可以给你推荐一款。
|
m******r 发帖数: 1033 | 4 要是光这个事, 上面的包,都能做。
要是往简单做的话,做个z变换, 取2,3个方差即可。 |
m******n 发帖数: 453 | 5 univariate outier是大一STAT 101的内容
就是取2或者3 sigma
【在 C*********r 的大作中提到】 : 就是每天会收到一些文件 文件中每天带的数据量不同 想找出一些明显有问题的文件 : (比如说数据量激增 或者是 明显的数据量减少之类的)
|
h*********3 发帖数: 1 | 6 我看还有个做法是画quartile box plot,[1st quartile - 1.5 * IQR, 3rd quartile
+ 1.5 * IQR]外的算作outlier
【在 m******n 的大作中提到】 : univariate outier是大一STAT 101的内容 : 就是取2或者3 sigma
|
l******n 发帖数: 9344 | 7 大家都说了基于中心极限定理的方法,就是均值是正太分布,可以算sigma,来构造区
间。另外也可以用历史数据算quantile,也就是模拟cdf,然后把最开始10%和最后10%
作为outlier
这个对数据data points小的时候,效果更好
【在 C*********r 的大作中提到】 : 就是每天会收到一些文件 文件中每天带的数据量不同 想找出一些明显有问题的文件 : (比如说数据量激增 或者是 明显的数据量减少之类的)
|
g****t 发帖数: 31659 | 8 不需要是正太分佈,也可以用chebyshev不等式或者別的不等式,根據距離平均值的遠
近來定義outlier。麻煩的是多變量的情況。各種推廣不是很直觀。
: 大家都说了基于中心极限定理的方法,就是均值是正太分布,可以算
sigma,来
构造区
: 间。另外也可以用历史数据算quantile,也就是模拟cdf,然后把最开始
10%和最
后10%
: 作为outlier
: 这个对数据data points小的时候,效果更好
【在 l******n 的大作中提到】 : 大家都说了基于中心极限定理的方法,就是均值是正太分布,可以算sigma,来构造区 : 间。另外也可以用历史数据算quantile,也就是模拟cdf,然后把最开始10%和最后10% : 作为outlier : 这个对数据data points小的时候,效果更好
|
E**********e 发帖数: 1736 | 9 这个python 有包,基于median的一个算法。搜搜。顺便瘦瘦一维数值cluster,基本都
是从方差算,
【在 C*********r 的大作中提到】 : 有没有比较好的算法或者paper可以推荐 应该有比较通用的方法吧
|