由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
CS版 - 请教一个问题,关于统计和分布~~~~~
相关主题
请问一下:如何定量的比较两个参数不同的分布的不同?[转载] 一个类似coupon collector的概率问题
[合集] 问个 gaussian distribution distance的问题Game Theory在ad hoc网络中的应用
如何矢量化地比较两个参数不同的分布的不同?大规模分布系统下的高效算法??
an algorithm questionEM 算法
请教一个distribution之间的likelihood问题 (转载)[合集] 有没有分布函数的分布 这个概念? (转载)
Kullback–Leibler divergence 中文叫什么啊?如何在一个连续点分布中求出最远的两点之间距离?
请问这样的distance怎么计算?有知道关于data center分布情况的吗?
数学模型来模拟电话交换机上 phone call inpower law
相关话题的讨论汇总
话题: 数据话题: 统计话题: delta话题: peaks话题: widths
进入CS版参与讨论
1 (共1页)
a***n
发帖数: 404
1
请教一种统计量,希望能够描述下列的数据特征:
比如从一段时间采集来的数据,有些数据是集中在一段时间内出现的,有些数据是长时
间均匀分布的。现在要一个统计量区分他们(不同于standard deviation,见下面)
举个例子:
walmart卖的牙膏的日销售量就是常年基本均匀分布的,但是圣诞树就一般是集中在12月
左右这个时间段销售量比较大。
什么统计量比较适合表征这两种数据的这种特性呢?就是说数据的locality特性。注意
,不一定是集中在一个范围内,如果在多个离散的范围内有很强的集中性,这个统计量
要求也要有很强的表达,所以用standard deviation估计不行。比如某个商品夏天和冬
天销量都很强,其他时候没人买,这样的商品也要能区别于牙膏这样的均匀态的商品。
但是这个又好像走入了一个悖论,因为平均分布的数据,貌似也可以看作是由多个很陡
的均匀分布的“峰”构成的。。。俺也变得糊涂起来了,不过总觉得应该有个什么能够
系统的描述下区分这种数据特性的方法。
有啥统计量可以搞定这个么?有人说 entropy,我看不靠谱,至于clustering,还有其他的
很多复杂的数据分析方
s*****g
发帖数: 5159
2
According to the description, you want to measure the evenness of the data
along the time.
I feel you need to impose at least one parameter, time resolution.
Let time rosultion be \Delta t, for the number of samples falls into t_0 and
t_0+\Delta t, starting from arbitraty t_0, if such measurement on some t_0s
is dramatically larger than other t_0s (for example, 3 times more), it is
considered the uneven category, otherwise, the first.
This parameter, \Delta t, should help you on the problem of t

【在 a***n 的大作中提到】
: 请教一种统计量,希望能够描述下列的数据特征:
: 比如从一段时间采集来的数据,有些数据是集中在一段时间内出现的,有些数据是长时
: 间均匀分布的。现在要一个统计量区分他们(不同于standard deviation,见下面)
: 举个例子:
: walmart卖的牙膏的日销售量就是常年基本均匀分布的,但是圣诞树就一般是集中在12月
: 左右这个时间段销售量比较大。
: 什么统计量比较适合表征这两种数据的这种特性呢?就是说数据的locality特性。注意
: ,不一定是集中在一个范围内,如果在多个离散的范围内有很强的集中性,这个统计量
: 要求也要有很强的表达,所以用standard deviation估计不行。比如某个商品夏天和冬
: 天销量都很强,其他时候没人买,这样的商品也要能区别于牙膏这样的均匀态的商品。

P*******t
发帖数: 202
3
Maybe you can consider comparing the widths of peaks (i.e. widths at the
half maxima of the peaks) in the probability distributions for tooth paste
and Xmas trees.
The width of the peaks of probability for products like Xmas tree will be
smaller than that for products like tooth paste and groceries.
If it is possible for a product to have multiple peaks in its probability
distribution, you might want to consider the mean of the widths.

请教一种统计量,希望能够描述下列的数据特征:
比如从一段时间采集来的数据,有些数据是集中在一段时间内出现的,有些数据是

【在 a***n 的大作中提到】
: 请教一种统计量,希望能够描述下列的数据特征:
: 比如从一段时间采集来的数据,有些数据是集中在一段时间内出现的,有些数据是长时
: 间均匀分布的。现在要一个统计量区分他们(不同于standard deviation,见下面)
: 举个例子:
: walmart卖的牙膏的日销售量就是常年基本均匀分布的,但是圣诞树就一般是集中在12月
: 左右这个时间段销售量比较大。
: 什么统计量比较适合表征这两种数据的这种特性呢?就是说数据的locality特性。注意
: ,不一定是集中在一个范围内,如果在多个离散的范围内有很强的集中性,这个统计量
: 要求也要有很强的表达,所以用standard deviation估计不行。比如某个商品夏天和冬
: 天销量都很强,其他时候没人买,这样的商品也要能区别于牙膏这样的均匀态的商品。

a***n
发帖数: 404
4
this seems not that good.
e.g
如果圣诞树在12月份,每两天卖一颗。minimum width is 2。
如果另外一种商品,在一年中就在1月1号卖了一次,1月2号卖了一次,
然后2月到12月每个月的1号卖一次,那么minimu width is 1。
但是显然圣诞树的季节规律性更加明显些。

【在 P*******t 的大作中提到】
: Maybe you can consider comparing the widths of peaks (i.e. widths at the
: half maxima of the peaks) in the probability distributions for tooth paste
: and Xmas trees.
: The width of the peaks of probability for products like Xmas tree will be
: smaller than that for products like tooth paste and groceries.
: If it is possible for a product to have multiple peaks in its probability
: distribution, you might want to consider the mean of the widths.
:
: 请教一种统计量,希望能够描述下列的数据特征:
: 比如从一段时间采集来的数据,有些数据是集中在一段时间内出现的,有些数据是

s******e
发帖数: 285
5
Poisson mixture models

12月

【在 a***n 的大作中提到】
: 请教一种统计量,希望能够描述下列的数据特征:
: 比如从一段时间采集来的数据,有些数据是集中在一段时间内出现的,有些数据是长时
: 间均匀分布的。现在要一个统计量区分他们(不同于standard deviation,见下面)
: 举个例子:
: walmart卖的牙膏的日销售量就是常年基本均匀分布的,但是圣诞树就一般是集中在12月
: 左右这个时间段销售量比较大。
: 什么统计量比较适合表征这两种数据的这种特性呢?就是说数据的locality特性。注意
: ,不一定是集中在一个范围内,如果在多个离散的范围内有很强的集中性,这个统计量
: 要求也要有很强的表达,所以用standard deviation估计不行。比如某个商品夏天和冬
: 天销量都很强,其他时候没人买,这样的商品也要能区别于牙膏这样的均匀态的商品。

a***n
发帖数: 404
6
can you explain a little more? or any tutorial paper?
Thanks a lot!!

【在 s******e 的大作中提到】
: Poisson mixture models
:
: 12月

n*****m
发帖数: 73
7
It sounds like Gaussian Mixture Models
http://en.wikipedia.org/wiki/Mixture_model

12月

【在 a***n 的大作中提到】
: 请教一种统计量,希望能够描述下列的数据特征:
: 比如从一段时间采集来的数据,有些数据是集中在一段时间内出现的,有些数据是长时
: 间均匀分布的。现在要一个统计量区分他们(不同于standard deviation,见下面)
: 举个例子:
: walmart卖的牙膏的日销售量就是常年基本均匀分布的,但是圣诞树就一般是集中在12月
: 左右这个时间段销售量比较大。
: 什么统计量比较适合表征这两种数据的这种特性呢?就是说数据的locality特性。注意
: ,不一定是集中在一个范围内,如果在多个离散的范围内有很强的集中性,这个统计量
: 要求也要有很强的表达,所以用standard deviation估计不行。比如某个商品夏天和冬
: 天销量都很强,其他时候没人买,这样的商品也要能区别于牙膏这样的均匀态的商品。

m*t
发帖数: 7490
8
我觉得可能要cluster一把,然后把每个cluster按正态分布计算variation,
太平的就不认为是突发的,当成均匀分布处理
t**k
发帖数: 260
9
你看这样行不行:计算销量分布和平均分布之间的KL Divergence或者其他什么
divergence。
1 (共1页)
进入CS版参与讨论
相关主题
power law请教一个distribution之间的likelihood问题 (转载)
想找CS实习 Kullback–Leibler divergence 中文叫什么啊?
这样的page layout 怎么弄?请问这样的distance怎么计算?
求教journal paper中加入作者的简历和照片数学模型来模拟电话交换机上 phone call in
请问一下:如何定量的比较两个参数不同的分布的不同?[转载] 一个类似coupon collector的概率问题
[合集] 问个 gaussian distribution distance的问题Game Theory在ad hoc网络中的应用
如何矢量化地比较两个参数不同的分布的不同?大规模分布系统下的高效算法??
an algorithm questionEM 算法
相关话题的讨论汇总
话题: 数据话题: 统计话题: delta话题: peaks话题: widths