y**********a 发帖数: 824 | 1 数据是用户读取数据的时间,一个例子是:
用户 A 访问数据 B 的时间。数据 B 有不同的版本,譬如每周一个版本,或每天一个
版本:
( 3/1, 1/1) 这对数组表示用户 A 在 3月1号 访问了数据 B 的 1月1号 版本。
现在的问题是希望找到这些访问中的 "outlier"
有两种情况特别值得考虑:
1. 一个用户稳定地访问某数据的近期版本,譬如总是访问 2 周前的版本。但有一天突
然访问了半年前的版本;
2. 一个用户只放问某数据几次,而且访问日期相隔很远,毫无规律可言;
现在 outlier 的定义还没完全确定,尤其是第二种情况。譬如一个用户只访问了某数
据一次,是不是应该算 outlier。想找一下处理类似数据的资料。 |
p***o 发帖数: 1252 | 2 dynamic time warping?
【在 y**********a 的大作中提到】 : 数据是用户读取数据的时间,一个例子是: : 用户 A 访问数据 B 的时间。数据 B 有不同的版本,譬如每周一个版本,或每天一个 : 版本: : ( 3/1, 1/1) 这对数组表示用户 A 在 3月1号 访问了数据 B 的 1月1号 版本。 : 现在的问题是希望找到这些访问中的 "outlier" : 有两种情况特别值得考虑: : 1. 一个用户稳定地访问某数据的近期版本,譬如总是访问 2 周前的版本。但有一天突 : 然访问了半年前的版本; : 2. 一个用户只放问某数据几次,而且访问日期相隔很远,毫无规律可言; : 现在 outlier 的定义还没完全确定,尤其是第二种情况。譬如一个用户只访问了某数
|
r********n 发帖数: 7441 | 3 Binary segmentation + dynamic programming |
K*******A 发帖数: 7 | 4 第一个肯定是outlier,你只需要找出用户访问时间和版本日期的correlation就可以判
定这是outlier
第二个看你自己定义了,如果没加任何filter,用一般的scoring来算肯定是outlier。
但是可能你加个group by user的话就不是了 |