由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 有个bootstrap的问题想找人讨论下。
相关主题
[合集] 有个bootstrap的问题想找人讨论下。random forest里面为什么是"可放回"的resample呢?
请教一个bootstrapping的问题。请教大神们关于bootstrap
求用R做bootstrap的example script请问R里面有什么package来算wilcoxon signed rank test的sample size 么?
关于Bootstrap法需要强调的是如何做sampling
紧急请教两个关于resampling的概念问题[合集] 问个简单的问题
Re: 讨论讨论Bootstrap和resampling吧2 sample t-test with bootstrap 怎么搞?
请问:bootstrap的应用范围大小样本比较
bootstrap真的能让让我们逼近“真理”吗请问如果sample size<5 如何准确估计 mean
相关话题的讨论汇总
话题: sample话题: bootstrap话题: resample话题: resampling
进入Statistics版参与讨论
1 (共1页)
b********n
发帖数: 95
1
When using bootstrapping, we randomly extract a new sample of n heights out
of the N sampled data, where each person can be selected at most t times. By
doing this several times, we create a large number of datasets that we
might have seen and compute the statistic for each of these datasets.
在上面这段描述中,t,n,N之间应该有些什么关系,我觉得t应该是个比较大的值,我们
应该尽量使得挑选的case不会到达t这个极限值,而n也应该比t*N小很多,这样才达到
resampling的目的。但这些具体的关系有没有人考虑过?
s*r
发帖数: 2757
2
what i know: n=N, no limit on t
b********n
发帖数: 95
3
no limit on t? does that mean t could be any value larger than 1? and in
regular cases, what value should we take?

【在 s*r 的大作中提到】
: what i know: n=N, no limit on t
D******n
发帖数: 2836
4
这个描述比较奇怪,一般都是说a random sample with replacement, t是结果而不是你
控制的东西。

out
By

【在 b********n 的大作中提到】
: When using bootstrapping, we randomly extract a new sample of n heights out
: of the N sampled data, where each person can be selected at most t times. By
: doing this several times, we create a large number of datasets that we
: might have seen and compute the statistic for each of these datasets.
: 在上面这段描述中,t,n,N之间应该有些什么关系,我觉得t应该是个比较大的值,我们
: 应该尽量使得挑选的case不会到达t这个极限值,而n也应该比t*N小很多,这样才达到
: resampling的目的。但这些具体的关系有没有人考虑过?

s*******y
发帖数: 2977
5
我的理解bootstrapping应该用在当你有个很大的population(N很大)时,你想每次随机
取一个比较小的sample(n< 大popluation的特征。
我也看到有人做相反的,就是sample size本来就不足,还要resampling,这样每个样
本就可能会被抽取多次(t>1),好像最后sample size显得很大。但我认为这样做对最后
的结果没什么帮助。
b********n
发帖数: 95
6
恩,但是好像如果再加上normal distribution的noise,出来的smooth bootstrapping
图形还是很漂亮的。
这个运用我觉得就是因为sample pool太小的不得已之举吧。我觉得实际情况中,我反
正是觉得population越大我越开心。通常我们都是抱怨数据量太小吧。。。

【在 s*******y 的大作中提到】
: 我的理解bootstrapping应该用在当你有个很大的population(N很大)时,你想每次随机
: 取一个比较小的sample(n<: 大popluation的特征。
: 我也看到有人做相反的,就是sample size本来就不足,还要resampling,这样每个样
: 本就可能会被抽取多次(t>1),好像最后sample size显得很大。但我认为这样做对最后
: 的结果没什么帮助。

A*******s
发帖数: 3942
7
我怎么觉得后者才是要用bootstrap的场合呢?
比方说,如果你要estimate某个mean,比如说某幼儿园小朋友的age。当你的sample
size不够大的时候,你的95%CI下限是有可能小于零的。这个CI显然就没啥用。你如果
用Bootstrap来算的话,就能避免这种情况。

【在 s*******y 的大作中提到】
: 我的理解bootstrapping应该用在当你有个很大的population(N很大)时,你想每次随机
: 取一个比较小的sample(n<: 大popluation的特征。
: 我也看到有人做相反的,就是sample size本来就不足,还要resampling,这样每个样
: 本就可能会被抽取多次(t>1),好像最后sample size显得很大。但我认为这样做对最后
: 的结果没什么帮助。

s*******y
发帖数: 2977
8
not necessary ah, especially in the area of high dimensional genomics/
genetics, next gen sequencing, you get tons of information.

bootstrapping

【在 b********n 的大作中提到】
: 恩,但是好像如果再加上normal distribution的noise,出来的smooth bootstrapping
: 图形还是很漂亮的。
: 这个运用我觉得就是因为sample pool太小的不得已之举吧。我觉得实际情况中,我反
: 正是觉得population越大我越开心。通常我们都是抱怨数据量太小吧。。。

s*******y
发帖数: 2977
9
是可以这么做了,可是这样的CI能有多reliable呢?你还是在用一个很小的pool,只不
过反复反复抽取,相当于你假设你的population跟这个小样本是相似的,然后做了
imputation.

【在 A*******s 的大作中提到】
: 我怎么觉得后者才是要用bootstrap的场合呢?
: 比方说,如果你要estimate某个mean,比如说某幼儿园小朋友的age。当你的sample
: size不够大的时候,你的95%CI下限是有可能小于零的。这个CI显然就没啥用。你如果
: 用Bootstrap来算的话,就能避免这种情况。

A*******s
发帖数: 3942
10
这本来就应该是bootstrap的assumption么,只要这个方法是asymptotic成立的就行。
bootstrap背后的philosophy我不太了解,这些高屋建瓴的问题得请教陈立功教授,呵
呵。俺这种低级民工只关心技术层次

【在 s*******y 的大作中提到】
: 是可以这么做了,可是这样的CI能有多reliable呢?你还是在用一个很小的pool,只不
: 过反复反复抽取,相当于你假设你的population跟这个小样本是相似的,然后做了
: imputation.

相关主题
Re: 讨论讨论Bootstrap和resampling吧random forest里面为什么是"可放回"的resample呢?
请问:bootstrap的应用范围请教大神们关于bootstrap
bootstrap真的能让让我们逼近“真理”吗请问R里面有什么package来算wilcoxon signed rank test的sample size 么?
进入Statistics版参与讨论
j*****e
发帖数: 182
11
In bootstrap, you use the sample to mimic the population. When you resample,
the size of your resample should be the same as the size of your observed
sample. The thousands of resamples generate a distribution of your test
statistic/estimator. This will allow you to compute a p-value or construct a
CI. Depending on whether you are doing a hypothesis test or parameter
estimation, there are different ways to resample. For example, you can
resample by permuting your original sample, you can resampl
s*****r
发帖数: 790
12
这个应该是不对的吧。如果这样的话,你怎么控制resample的次数?可以这样做的话,
sample size 完全没有意义了。随便几个就可以,反正可以不停的replicate.

【在 A*******s 的大作中提到】
: 我怎么觉得后者才是要用bootstrap的场合呢?
: 比方说,如果你要estimate某个mean,比如说某幼儿园小朋友的age。当你的sample
: size不够大的时候,你的95%CI下限是有可能小于零的。这个CI显然就没啥用。你如果
: 用Bootstrap来算的话,就能避免这种情况。

A*******s
发帖数: 3942
13
yep, bootstrapping tends to be over-optimistic. Too sample size is always a
problem no matter what method you use. The example I mentioned about C.I.
estimate is the simplest bootstrapping routine.

【在 s*****r 的大作中提到】
: 这个应该是不对的吧。如果这样的话,你怎么控制resample的次数?可以这样做的话,
: sample size 完全没有意义了。随便几个就可以,反正可以不停的replicate.

c****u
发帖数: 243
14
boot strap的英文意思不就是这样吗?
几年前听一个教授说过,曾经有人讨论过有bootsrap,是否就不需要统计了

【在 s*****r 的大作中提到】
: 这个应该是不对的吧。如果这样的话,你怎么控制resample的次数?可以这样做的话,
: sample size 完全没有意义了。随便几个就可以,反正可以不停的replicate.

b********n
发帖数: 95
15
So, what is the bootstrapping really used in the reality?
At first i just thought it was used in some cases which are lack of
information. Like sample pool is too small to estimate the statistics like
SD, C.I.
But up to you guys, it seems just a method to calculate the statistics with
the plengy population. If that is the truth, why we do not use the
traditional statistical method to do that? why we need to do the extra work
for the resampling?

a

【在 A*******s 的大作中提到】
: yep, bootstrapping tends to be over-optimistic. Too sample size is always a
: problem no matter what method you use. The example I mentioned about C.I.
: estimate is the simplest bootstrapping routine.

A*******s
发帖数: 3942
16
no, not my idea. I don't see any benefit of using bootstrapping when you
have the access to a large sample.

with
work

【在 b********n 的大作中提到】
: So, what is the bootstrapping really used in the reality?
: At first i just thought it was used in some cases which are lack of
: information. Like sample pool is too small to estimate the statistics like
: SD, C.I.
: But up to you guys, it seems just a method to calculate the statistics with
: the plengy population. If that is the truth, why we do not use the
: traditional statistical method to do that? why we need to do the extra work
: for the resampling?
:
: a

b********n
发帖数: 95
17
yeah, i think you have the similar idea with me, hehe, just reply the wrong
person.

【在 A*******s 的大作中提到】
: no, not my idea. I don't see any benefit of using bootstrapping when you
: have the access to a large sample.
:
: with
: work

b********n
发帖数: 95
18
So, what is the bootstrapping really used in the reality?
At first i just thought it was used in some cases which are lack of
information. Like sample pool is too small to estimate the statistics like
SD, C.I.
But up to you guys, it seems just a method to calculate the statistics with
the plengy population. If that is the truth, why we do not use the
traditional statistical method to do that? why we need to do the extra work
for the resampling?

【在 s*******y 的大作中提到】
: 是可以这么做了,可是这样的CI能有多reliable呢?你还是在用一个很小的pool,只不
: 过反复反复抽取,相当于你假设你的population跟这个小样本是相似的,然后做了
: imputation.

s*r
发帖数: 2757
19
check a few population application of bootstrap
1) bagging
2) confidence on the fork of genealogy/molecular evolution tree
read the famous book from efron and tell us the results
g********r
发帖数: 8017
20
很多时候问题复杂,经典统计根本不提供CI呀。或者数据维数高,用景点方法必
须做很多假定,还不如直接从数据里学了。
bootstrap有时候也是乱用,前几年有人比较过很多个生物芯片数据的resampling
方法,结论是多数方法都是bias的。

with
work

【在 b********n 的大作中提到】
: So, what is the bootstrapping really used in the reality?
: At first i just thought it was used in some cases which are lack of
: information. Like sample pool is too small to estimate the statistics like
: SD, C.I.
: But up to you guys, it seems just a method to calculate the statistics with
: the plengy population. If that is the truth, why we do not use the
: traditional statistical method to do that? why we need to do the extra work
: for the resampling?

1 (共1页)
进入Statistics版参与讨论
相关主题
请问如果sample size<5 如何准确估计 mean紧急请教两个关于resampling的概念问题
Faster Random Sampling with ReplacementRe: 讨论讨论Bootstrap和resampling吧
a question on sample size请问:bootstrap的应用范围
请帮忙两个power analysis 的问题,包子答谢bootstrap真的能让让我们逼近“真理”吗
[合集] 有个bootstrap的问题想找人讨论下。random forest里面为什么是"可放回"的resample呢?
请教一个bootstrapping的问题。请教大神们关于bootstrap
求用R做bootstrap的example script请问R里面有什么package来算wilcoxon signed rank test的sample size 么?
关于Bootstrap法需要强调的是如何做sampling
相关话题的讨论汇总
话题: sample话题: bootstrap话题: resample话题: resampling