R******d 发帖数: 1436 | 1 【 以下文字转载自 Statistics 讨论区 】
发信人: Rainbird (落汤鸟), 信区: Statistics
标 题: 想问一个关于评价prediction performance的问题
发信站: BBS 未名空间站 (Tue Oct 26 13:06:46 2010, 美东)
现在想做一个predictor,用来预测人群中的某种不常见的疾病,发病率不到1%。
training data是
非常imbalanced的,positive data points很少,绝大部分都是negative data points
。我
没有直接用这样的training data,而是人为地构建了balanced data。简单的说,就是
保持
positive data points不变,随机选同样sample size的negative data points。重复
训练
若干次,最后的训练结果是这么多次结果的汇总。
因为发病率确实很低,所以我取的specificity很高,比如99.9%。相应来说
sensitivity就很低
了,2%不到。换算成Positive Predictive Value(好像有人更看重这个),也低,大
概10%不
到。
我现在的问题是:
1,请问对于这样非常imbalanced的数据,AUC,specificity和Positive Predictive
Value
这三个指标哪个更重要?如果要做一个有意义的predictor,他们各自的threshold是多
少?
2,因为原始的数据是imbalanced,而我用来train的数据是balanced。在计算Positive
Predictive Value这个指标的时候,是应该按balanced还是imbalanced的来算?如果按
balanced的来算,specificity 99.9%对应的PPV是很高的。但是按总体来看,PPV就不
高了,因
为总的training data中negative data point太多了。
多谢(不知道发对版了没有,呵呵)。 |
|