W**********E 发帖数: 242 | 3 不错,有个问题
如果从N个样本里取N个,那么number of hits 的PMF是:
P(Z=x)=(n,x)*(1/N)*(1-1/N)^(N-x)
根据这个PMF,expected number of hits 和你的output差不多:
> (1/N)*(1-1/N)^(N-1)*choose(N,1)*N
[1] 3678795
> (1/N)^2*(1-1/N)^(N-2)*choose(N,2)*N
[1] 1839397
> (1/N)^3*(1-1/N)^(N-3)*choose(N,3)*N
[1] 613132.4
> (1/N)^4*(1-1/N)^(N-4)*choose(N,4)*N
[1] 153283.1
> (1/N)^5*(1-1/N)^(N-5)*choose(N,5)*N
[1] 30656.6
....
当N->inf, 上面的PMF是可以渐进到一个Poisson(lambda=1)
比如Z=1,
(1/N)*(1-1/N)^(N-1)*choose(N,1)
=(1-1/N)^(N-1)
->(1-1/N)^N
->e^-1
比如Z=2,
(1/N)^2*(1-1/N)^(N-2)*choose(N,2)
->1/2*(1-1/N)^N
->1/2*e^-1
...
这个渐进只能是N取N,然后N很大。但问题是如果N是1千万级别的数据,做N取N个随机
样本目的是什么?做bootstrap? 应该有方法可以做N取M个随机样本 (M<
矫正。
【在 s*********e 的大作中提到】 : http://statcompute.wordpress.com/2013/10/18/faster-random-sampl
|