S*******e 发帖数: 525 | 1 我们有一个问题是探测无线通讯中的‘Sleepy Site'. 其定义类似于一个site在一段
时间内不能接通信号(按次数算)。可很多时候,根本没有信号(通讯)需要一些
sites来处理。 从数据上看,通讯次数都是0. 譬如今天有一个时段我们发现某个site
有零
次信号,我们要根据过去十周同样时间的数据来断它是真的没有‘任务’,还是它‘睡
觉了’。
因为数据是离散的(次数),这显然是普耳松分布, 实际数据按照不同的时间,不同
的地点,从0 到几个次数, 甚至到2,3百次。 我们的主任提出的算法是 -- 按正太分
布算,如果0在mean-3×sigma之外,就算睡觉了。 Confidence 用 P=100%- NORMDIST(
0,mean,stddev,lowtail)算。 可这究竟是什么东西,我觉得太不好解释了。 首先,
不管这个P是什么,如果过去十周的数据每周次数都很少,像 7,8 个,我们就不能用
正太分布算。 实际上,0次数的概率是不是就是e^(-mean)(因为这是普耳松分布)?
其次,虽然当次数都是很多的话,可按正太分布算, 但NORMDIST(0,mean,stddev,
lowtail)是什么玩意儿?所有次数小于等于0的概率?不Make Sense. 请指教。 |
k*******a 发帖数: 772 | 2 hurdle model
可以看成睡觉+不睡觉的mixture, 睡觉就是对应于 zero component
然后对于一组covariate,如果观测到0,可以算出是由于睡觉产生的0的概率来做推断 |
s*********e 发帖数: 1051 | 3 你们的主任是猪。
- 指教完毕。
site
NORMDIST(
【在 S*******e 的大作中提到】 : 我们有一个问题是探测无线通讯中的‘Sleepy Site'. 其定义类似于一个site在一段 : 时间内不能接通信号(按次数算)。可很多时候,根本没有信号(通讯)需要一些 : sites来处理。 从数据上看,通讯次数都是0. 譬如今天有一个时段我们发现某个site : 有零 : 次信号,我们要根据过去十周同样时间的数据来断它是真的没有‘任务’,还是它‘睡 : 觉了’。 : 因为数据是离散的(次数),这显然是普耳松分布, 实际数据按照不同的时间,不同 : 的地点,从0 到几个次数, 甚至到2,3百次。 我们的主任提出的算法是 -- 按正太分 : 布算,如果0在mean-3×sigma之外,就算睡觉了。 Confidence 用 P=100%- NORMDIST( : 0,mean,stddev,lowtail)算。 可这究竟是什么东西,我觉得太不好解释了。 首先,
|
C******y 发帖数: 2007 | 4 哪位老师教你的 “因为数据是离散的(次数),这显然是普耳松分布”
site
NORMDIST(
【在 S*******e 的大作中提到】 : 我们有一个问题是探测无线通讯中的‘Sleepy Site'. 其定义类似于一个site在一段 : 时间内不能接通信号(按次数算)。可很多时候,根本没有信号(通讯)需要一些 : sites来处理。 从数据上看,通讯次数都是0. 譬如今天有一个时段我们发现某个site : 有零 : 次信号,我们要根据过去十周同样时间的数据来断它是真的没有‘任务’,还是它‘睡 : 觉了’。 : 因为数据是离散的(次数),这显然是普耳松分布, 实际数据按照不同的时间,不同 : 的地点,从0 到几个次数, 甚至到2,3百次。 我们的主任提出的算法是 -- 按正太分 : 布算,如果0在mean-3×sigma之外,就算睡觉了。 Confidence 用 P=100%- NORMDIST( : 0,mean,stddev,lowtail)算。 可这究竟是什么东西,我觉得太不好解释了。 首先,
|
s*********e 发帖数: 1051 | 5 hurdle is composite model but not mixture model.
zip is mixture.
【在 k*******a 的大作中提到】 : hurdle model : 可以看成睡觉+不睡觉的mixture, 睡觉就是对应于 zero component : 然后对于一组covariate,如果观测到0,可以算出是由于睡觉产生的0的概率来做推断
|
S*******e 发帖数: 525 | 6 我表达不清,你也不必用这口气来说话吗。 好像普耳松分布的一个最常用的例子是
count某一事件在某一段时间发生的次数。
不过,我们的经理请教了一个台大的统计教授,给的建议是不必纠结于理论。只要用正
太分布去做,和实际不会偏差太大。
【在 C******y 的大作中提到】 : 哪位老师教你的 “因为数据是离散的(次数),这显然是普耳松分布” : : site : NORMDIST(
|
C******y 发帖数: 2007 | 7 主观上没什么不好的口气,抱歉如果你觉得不舒服的话。
poisson的假设很强,不是你想的那样是次数就可以用泊松,用poisson的时候要慎重。
【在 S*******e 的大作中提到】 : 我表达不清,你也不必用这口气来说话吗。 好像普耳松分布的一个最常用的例子是 : count某一事件在某一段时间发生的次数。 : 不过,我们的经理请教了一个台大的统计教授,给的建议是不必纠结于理论。只要用正 : 太分布去做,和实际不会偏差太大。
|
Y******Y 发帖数: 8753 | 8 i think you can consider modeling the data using either zero-inflated
poisson or zero-inflated negative bionomial (which is an alternative of
poisson that can account for overdispersion)
site
NORMDIST(
【在 S*******e 的大作中提到】 : 我表达不清,你也不必用这口气来说话吗。 好像普耳松分布的一个最常用的例子是 : count某一事件在某一段时间发生的次数。 : 不过,我们的经理请教了一个台大的统计教授,给的建议是不必纠结于理论。只要用正 : 太分布去做,和实际不会偏差太大。
|
l********w 发帖数: 101 | 9 if the mean of poisson is large, it's approximate normal.... |
S*******e 发帖数: 525 | 10 年轻人,火气壮了点。那个主任可是Forunate 50 里的,手下有一二百人。何况,我们
经理请教了太大的统计教授,认为主任的方法是可行的。
【在 s*********e 的大作中提到】 : 你们的主任是猪。 : - 指教完毕。 : : site : NORMDIST(
|
|
|
w*******9 发帖数: 1433 | 11 statcompute 手下不多,大概1e03吧,哈哈。
【在 S*******e 的大作中提到】 : 年轻人,火气壮了点。那个主任可是Forunate 50 里的,手下有一二百人。何况,我们 : 经理请教了太大的统计教授,认为主任的方法是可行的。
|
s*********e 发帖数: 1051 | 12 well, the stupid is as the stupid does.
【在 S*******e 的大作中提到】 : 年轻人,火气壮了点。那个主任可是Forunate 50 里的,手下有一二百人。何况,我们 : 经理请教了太大的统计教授,认为主任的方法是可行的。
|
k*******a 发帖数: 772 | 13 我觉得板上的人不是太mean了,人家好心好意来讨论问题 |
S*******e 发帖数: 525 | 14 没想到搞统计的比学数学的(譬如咱,Ph.D in Math)都‘清高!’。
【在 k*******a 的大作中提到】 : 我觉得板上的人不是太mean了,人家好心好意来讨论问题
|
o****o 发帖数: 8077 | 15 All you need is a RULE, be whatever it is.
Your director proposed a rule based on normal approximation, that's it,
meaning based on all of the data at hand, it is very unlikely this site will
be not receiving any signal, then it is sleeping. Whether it is right or
not is should be based on feedback from both business and engineering.
Or you can derive another rule, maybe based on the distribution of each
single site....
site
NORMDIST(
【在 S*******e 的大作中提到】 : 没想到搞统计的比学数学的(譬如咱,Ph.D in Math)都‘清高!’。
|
D******n 发帖数: 2836 | 16 i dont understand your data structure at all ....
is it like this ?
Time Site1 Site2 Site3
0 0 3 5
1 0 2 1
2 0 0 0
site
NORMDIST(
【在 S*******e 的大作中提到】 : 没想到搞统计的比学数学的(譬如咱,Ph.D in Math)都‘清高!’。
|
w*******9 发帖数: 1433 | 17 1) 同site不同周的observations独立吗?不独立的话如何刻画dependence?
2) 一共就过去10周的data, parametric 更可行。而且若是过去10周也有0出现,你
也不知道那个0是不是因为睡着了,笼统地Normal distribution 不太好,因为1)确实
有正的概率睡着,所以有正概率exactly 取值0,所以mixture还是更合理一些 2)即使
能很准确地估计normal 的mean and variance, P(X<=0) 表示的是中和了睡着和不睡着
后的出现0的概率,而不是你想要的“若不睡着,出现0的概率”。
3) 同一个site数据太少,是否可以borrow strength from other sites using mixed
model? 比如不同site睡着的概率一样或服从某分布。
我瞎讲的。理论上讲讲大家都会,关键是有没有validation dataset 来评估。 |
S*******e 发帖数: 525 | 18 你说的对。 我当初恐怕那算法对low traffic的站点给出的FALSE POSITIVE太多。那位
台大教授说,不要纠结于理论。对大部分(门外汉)人来说,正太分布好理解。算法只
是一个Rule。我跟经理(仅知道一点点统计)讨论了几次,经理请教了教授,教授说主
任的方法对。主任的算法,他自己欣赏再加上教授的意见,咱不再多嘴了。 有人对我
说,要用t-分布。我说我们打住吧。
will
【在 o****o 的大作中提到】 : All you need is a RULE, be whatever it is. : Your director proposed a rule based on normal approximation, that's it, : meaning based on all of the data at hand, it is very unlikely this site will : be not receiving any signal, then it is sleeping. Whether it is right or : not is should be based on feedback from both business and engineering. : Or you can derive another rule, maybe based on the distribution of each : single site.... : : site : NORMDIST(
|