p*********g 发帖数: 116 | 1 比如我有10000个数据, 一个feature是categorical 的,
有比如5个值, 我按这5个值,把数据分成5组, 发现这五组基本和总体有非常接近的
的mean, stdev。
能不能说这个feature对总体分布没影响, 或者是没用的feature。
另外怎么证明, 这5组 和总体有同样的分布, 这个过程怎么做? |
l******n 发帖数: 9344 | 2 这个和sample size,confidence level有关
最简单做个histogram看看差的多不多,严格点做个test
【在 p*********g 的大作中提到】 : 比如我有10000个数据, 一个feature是categorical 的, : 有比如5个值, 我按这5个值,把数据分成5组, 发现这五组基本和总体有非常接近的 : 的mean, stdev。 : 能不能说这个feature对总体分布没影响, 或者是没用的feature。 : 另外怎么证明, 这5组 和总体有同样的分布, 这个过程怎么做?
|
p*********g 发帖数: 116 | 3 其实我就是想问问做哪个test,
怎么做
【在 l******n 的大作中提到】 : 这个和sample size,confidence level有关 : 最简单做个histogram看看差的多不多,严格点做个test
|
n*****3 发帖数: 1584 | 4 你已经 用 mean sDV
那就 2 or more sample ttest
【在 p*********g 的大作中提到】 : 其实我就是想问问做哪个test, : 怎么做
|
T*****u 发帖数: 7103 | 5 如果只是想看看痛不痛就是看看他们是不是从一个分布里采样的,很多test都可以,比
如说permutation test,但是可能需要做些改动扩展到多维。 |
n*****3 发帖数: 1584 | 6 agree
非参的话
km test 什么的都行
【在 T*****u 的大作中提到】 : 如果只是想看看痛不痛就是看看他们是不是从一个分布里采样的,很多test都可以,比 : 如说permutation test,但是可能需要做些改动扩展到多维。
|
j**********3 发帖数: 3211 | 7 我也有个问题想问,一会我总结一下,下班发上来,请lz也帮忙看看 |
h*********d 发帖数: 109 | 8
【在 p*********g 的大作中提到】 : 比如我有10000个数据, 一个feature是categorical 的, : 有比如5个值, 我按这5个值,把数据分成5组, 发现这五组基本和总体有非常接近的 : 的mean, stdev。 : 能不能说这个feature对总体分布没影响, 或者是没用的feature。 : 另外怎么证明, 这5组 和总体有同样的分布, 这个过程怎么做?
|