由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 如何证明某个feature 没用, 分组的分布和 总体分布相同
相关主题
data science 面试求教像 kappa-test 这种,什么书上会讲? (转载)
问一个 feature 相关性问题Re: 攒人品,发Google Statistician/Data Scientist电面面经
大家对于有很多value的categorical feature都怎么处理?请问这样的数据应该用什么样的模型适合。
R 问题请教我现在有一个15个variable的回归模型。 有什么系统性的方法去
用R做review 的summary问个R的问题
Twitter Data Scientist 电面题目PCA 可以用在mixture of continuous 和categorical variables (转载)
问一道(大)数据 algorithm (转载)有没有大牛来classifiy一下 PCA用法吗?
贝叶斯进行点估计的时候 先验概率怎么选择如何implement model with categorical variable?
相关话题的讨论汇总
话题: 分布话题: feature话题: 总体话题: 个值话题: 没用
进入DataSciences版参与讨论
1 (共1页)
p*********g
发帖数: 116
1
比如我有10000个数据, 一个feature是categorical 的,
有比如5个值, 我按这5个值,把数据分成5组, 发现这五组基本和总体有非常接近的
的mean, stdev。
能不能说这个feature对总体分布没影响, 或者是没用的feature。
另外怎么证明, 这5组 和总体有同样的分布, 这个过程怎么做?
l******n
发帖数: 9344
2
这个和sample size,confidence level有关
最简单做个histogram看看差的多不多,严格点做个test

【在 p*********g 的大作中提到】
: 比如我有10000个数据, 一个feature是categorical 的,
: 有比如5个值, 我按这5个值,把数据分成5组, 发现这五组基本和总体有非常接近的
: 的mean, stdev。
: 能不能说这个feature对总体分布没影响, 或者是没用的feature。
: 另外怎么证明, 这5组 和总体有同样的分布, 这个过程怎么做?

p*********g
发帖数: 116
3
其实我就是想问问做哪个test,
怎么做

【在 l******n 的大作中提到】
: 这个和sample size,confidence level有关
: 最简单做个histogram看看差的多不多,严格点做个test

n*****3
发帖数: 1584
4
你已经 用 mean sDV
那就 2 or more sample ttest

【在 p*********g 的大作中提到】
: 其实我就是想问问做哪个test,
: 怎么做

T*****u
发帖数: 7103
5
如果只是想看看痛不痛就是看看他们是不是从一个分布里采样的,很多test都可以,比
如说permutation test,但是可能需要做些改动扩展到多维。
n*****3
发帖数: 1584
6
agree
非参的话
km test 什么的都行

【在 T*****u 的大作中提到】
: 如果只是想看看痛不痛就是看看他们是不是从一个分布里采样的,很多test都可以,比
: 如说permutation test,但是可能需要做些改动扩展到多维。

j**********3
发帖数: 3211
7
我也有个问题想问,一会我总结一下,下班发上来,请lz也帮忙看看
h*********d
发帖数: 109
8


【在 p*********g 的大作中提到】
: 比如我有10000个数据, 一个feature是categorical 的,
: 有比如5个值, 我按这5个值,把数据分成5组, 发现这五组基本和总体有非常接近的
: 的mean, stdev。
: 能不能说这个feature对总体分布没影响, 或者是没用的feature。
: 另外怎么证明, 这5组 和总体有同样的分布, 这个过程怎么做?

1 (共1页)
进入DataSciences版参与讨论
相关主题
如何implement model with categorical variable?用R做review 的summary
怎么处理categorical variable有很多个level的Twitter Data Scientist 电面题目
高人看下这个是不是泊松分布问一道(大)数据 algorithm (转载)
紧急求救: SMOTE-NC 处理categorical data for unbalanced class!!!贝叶斯进行点估计的时候 先验概率怎么选择
data science 面试求教像 kappa-test 这种,什么书上会讲? (转载)
问一个 feature 相关性问题Re: 攒人品,发Google Statistician/Data Scientist电面面经
大家对于有很多value的categorical feature都怎么处理?请问这样的数据应该用什么样的模型适合。
R 问题请教我现在有一个15个variable的回归模型。 有什么系统性的方法去
相关话题的讨论汇总
话题: 分布话题: feature话题: 总体话题: 个值话题: 没用