c***n 发帖数: 921 | 1 已知population的一些特征,比如使用某软件的人群,在各个洲的人数百分比是多少.(
assume population sizie = 10 millon users)
由于某些原因,不得不用另一个sample data 做分析.由于数据收集渠道问题,不知道这
个sample data是否能代表population. (assuming this sample size = 1 million
users)
population sample
Asia 25% 21%
America 30% 31%
Europe 15% 20%
Other 30% 28%
oonfidence interval 在正负 0.01% (user 数量大,所以CI 很小。)
于是结论是:1)sample 和 population的人数分布有significant difference; 2)
the sample cannot represent the pupulation.
先问一下,这个分析正确么?
然后,客户说了,我们还是想用这个sample data 做分析,有什么方法可以对这个
sample data 做一些弥补吗? |
c***n 发帖数: 921 | 2 I have one idiea and not sure if it is valid or not.
I will create a new sample data, which is called S.
I can re-sample the Asia portion of the sample data, and make it 25% of the
entire users of S. The same rules for other continents.
Then performing analysis on S.
Is this method theoretically sound? Is there any theory support this?
Another other suggestions please?
【在 c***n 的大作中提到】 : 已知population的一些特征,比如使用某软件的人群,在各个洲的人数百分比是多少.( : assume population sizie = 10 millon users) : 由于某些原因,不得不用另一个sample data 做分析.由于数据收集渠道问题,不知道这 : 个sample data是否能代表population. (assuming this sample size = 1 million : users) : population sample : Asia 25% 21% : America 30% 31% : Europe 15% 20% : Other 30% 28%
|
g*****o 发帖数: 812 | 3 你这样计算的时候要有一定的处理才能无偏吧, 你可以找下πpps抽样的内容看看
the
【在 c***n 的大作中提到】 : I have one idiea and not sure if it is valid or not. : I will create a new sample data, which is called S. : I can re-sample the Asia portion of the sample data, and make it 25% of the : entire users of S. The same rules for other continents. : Then performing analysis on S. : Is this method theoretically sound? Is there any theory support this? : Another other suggestions please?
|
c***n 发帖数: 921 | 4 thanks!
【在 g*****o 的大作中提到】 : 你这样计算的时候要有一定的处理才能无偏吧, 你可以找下πpps抽样的内容看看 : : the
|
T*******I 发帖数: 5138 | 5 好久不来这里了。
我想,你的问题可以归结如下:
一个已知四类人群频数分布的总体P(size = 1000万),一个size为100万且包含同样
四类人群但不知道从哪里来的样本S,经过检验发现这个S中人群的的四类频数分布与总
体P存在差异的显著性。因为S的Size足够大,所以,差异的显著性更容易被接受。现在
你依然想要用这个样本S来做关于那个P的其它方面的统计推断。
所以,我的建议是,在S中进行“淘汰式”抽样,即按照已知的总体中四类的比例在样
本S中以随机的方式剔除不同比例的四类人群,使得留下的人群中四类的比例与目标总
体的频数分布无差异显著性。
【在 c***n 的大作中提到】 : 已知population的一些特征,比如使用某软件的人群,在各个洲的人数百分比是多少.( : assume population sizie = 10 millon users) : 由于某些原因,不得不用另一个sample data 做分析.由于数据收集渠道问题,不知道这 : 个sample data是否能代表population. (assuming this sample size = 1 million : users) : population sample : Asia 25% 21% : America 30% 31% : Europe 15% 20% : Other 30% 28%
|
c***n 发帖数: 921 | 6 Thanks for the comments! I wonder if you know the way to calculate the bias
or other quantitative measures (CI?) for this method?
Is there related article I can read? (seeking theoretical ground)
【在 T*******I 的大作中提到】 : 好久不来这里了。 : 我想,你的问题可以归结如下: : 一个已知四类人群频数分布的总体P(size = 1000万),一个size为100万且包含同样 : 四类人群但不知道从哪里来的样本S,经过检验发现这个S中人群的的四类频数分布与总 : 体P存在差异的显著性。因为S的Size足够大,所以,差异的显著性更容易被接受。现在 : 你依然想要用这个样本S来做关于那个P的其它方面的统计推断。 : 所以,我的建议是,在S中进行“淘汰式”抽样,即按照已知的总体中四类的比例在样 : 本S中以随机的方式剔除不同比例的四类人群,使得留下的人群中四类的比例与目标总 : 体的频数分布无差异显著性。
|
T*******I 发帖数: 5138 | 7 Here it is, I think:
http://en.wikipedia.org/wiki/Stratified_sampling
Because what are excluded is randomly selected, the left is still a random
sample, which is not significantly different from the known P.
You'd better repeat 3 ~ 5 times of the same process to verify your final
results.I don't recommend more than 10 times when you repeat the process.
bias
【在 c***n 的大作中提到】 : Thanks for the comments! I wonder if you know the way to calculate the bias : or other quantitative measures (CI?) for this method? : Is there related article I can read? (seeking theoretical ground)
|
F8 发帖数: 348 | 8 not recommended
this is a sort of stratified PPS problem
use weighted estimation to get an unbiased estimate
the
【在 c***n 的大作中提到】 : I have one idiea and not sure if it is valid or not. : I will create a new sample data, which is called S. : I can re-sample the Asia portion of the sample data, and make it 25% of the : entire users of S. The same rules for other continents. : Then performing analysis on S. : Is this method theoretically sound? Is there any theory support this? : Another other suggestions please?
|