由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - Faster Random Sampling with Replacement
相关主题
请教一个bootstrapping的问题。请教一个bootstrap的问题(包子)
[合集] 有个bootstrap的问题想找人讨论下。Google面试问题
random forest里面为什么是"可放回"的resample呢?random sampling in R
有个bootstrap的问题想找人讨论下。请教如何用SAS处理这个RANDOM SAMPLING的问题
Help on understanding how to Creating a Random Sample without ReplacementApproximate random sample
请大牛推荐cross validation 方面的好Book/Paper关于confidence interval
这样还能算Randomized sample吗问一个统计的问题
请问:bootstrap的应用范围想要描述不同种类的random variables之间的correlation有可能吗?
相关话题的讨论汇总
话题: random话题: sampling话题: faster话题: choose
进入Statistics版参与讨论
1 (共1页)
s*********e
发帖数: 1051
o****o
发帖数: 8077
2
check Random Sampling with Reservoir

【在 s*********e 的大作中提到】
: http://statcompute.wordpress.com/2013/10/18/faster-random-sampl
W**********E
发帖数: 242
3
不错,有个问题
如果从N个样本里取N个,那么number of hits 的PMF是:
P(Z=x)=(n,x)*(1/N)*(1-1/N)^(N-x)
根据这个PMF,expected number of hits 和你的output差不多:
> (1/N)*(1-1/N)^(N-1)*choose(N,1)*N
[1] 3678795
> (1/N)^2*(1-1/N)^(N-2)*choose(N,2)*N
[1] 1839397
> (1/N)^3*(1-1/N)^(N-3)*choose(N,3)*N
[1] 613132.4
> (1/N)^4*(1-1/N)^(N-4)*choose(N,4)*N
[1] 153283.1
> (1/N)^5*(1-1/N)^(N-5)*choose(N,5)*N
[1] 30656.6
....
当N->inf, 上面的PMF是可以渐进到一个Poisson(lambda=1)
比如Z=1,
(1/N)*(1-1/N)^(N-1)*choose(N,1)
=(1-1/N)^(N-1)
->(1-1/N)^N
->e^-1
比如Z=2,
(1/N)^2*(1-1/N)^(N-2)*choose(N,2)
->1/2*(1-1/N)^N
->1/2*e^-1
...
这个渐进只能是N取N,然后N很大。但问题是如果N是1千万级别的数据,做N取N个随机
样本目的是什么?做bootstrap? 应该有方法可以做N取M个随机样本 (M< 矫正。

【在 s*********e 的大作中提到】
: http://statcompute.wordpress.com/2013/10/18/faster-random-sampl
w******4
发帖数: 488
4
thanks

【在 o****o 的大作中提到】
: check Random Sampling with Reservoir
1 (共1页)
进入Statistics版参与讨论
相关主题
想要描述不同种类的random variables之间的correlation有可能吗?Help on understanding how to Creating a Random Sample without Replacement
问一道统计问题请大牛推荐cross validation 方面的好Book/Paper
请问SAS怎么用do loop生成随机数字?这样还能算Randomized sample吗
[合集] 问个简单的问题请问:bootstrap的应用范围
请教一个bootstrapping的问题。请教一个bootstrap的问题(包子)
[合集] 有个bootstrap的问题想找人讨论下。Google面试问题
random forest里面为什么是"可放回"的resample呢?random sampling in R
有个bootstrap的问题想找人讨论下。请教如何用SAS处理这个RANDOM SAMPLING的问题
相关话题的讨论汇总
话题: random话题: sampling话题: faster话题: choose