由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
CS版 - 想问一个关于评价prediction performance的问题 (转载)
相关主题
machine learning需要哪些数学基础?anyone familiar with z notation?
大家帮看看这个问题可以用啥 model 解决 ~ 谢谢。Re: 计算机专业编程到底强在哪里?
有个问题问下各位做machine learning的朋友谈一下我的经历,顺便请教!
这道大公司的design题目怎么解 (转载)program language 这个方向 现在如何
【申请新版】 数据科学(DataScience) (转载)Please help
Pattern recognition problem (转载)PhD找程序员工作的时候publication有人看吗?
cross validation and best model questionRe: How about Computer Vision as PhD are
请教:在何处能查到"predictor-corrector""leap- frog"二种算法细节介绍?[转载] Two more positions!Re: 急需Java 或者GSM的人才!
相关话题的讨论汇总
话题: data话题: positive话题: imbalanced话题: predictive话题: value
进入CS版参与讨论
1 (共1页)
R******d
发帖数: 1436
1
【 以下文字转载自 Statistics 讨论区 】
发信人: Rainbird (落汤鸟), 信区: Statistics
标 题: 想问一个关于评价prediction performance的问题
发信站: BBS 未名空间站 (Tue Oct 26 13:06:46 2010, 美东)
现在想做一个predictor,用来预测人群中的某种不常见的疾病,发病率不到1%。
training data是
非常imbalanced的,positive data points很少,绝大部分都是negative data points
。我
没有直接用这样的training data,而是人为地构建了balanced data。简单的说,就是
保持
positive data points不变,随机选同样sample size的negative data points。重复
训练
若干次,最后的训练结果是这么多次结果的汇总。
因为发病率确实很低,所以我取的specificity很高,比如99.9%。相应来说
sensitivity就很低
了,2%不到。换算成Positive Predictive Value(好像有人更看重这个),也低,大
概10%不
到。
我现在的问题是:
1,请问对于这样非常imbalanced的数据,AUC,specificity和Positive Predictive
Value
这三个指标哪个更重要?如果要做一个有意义的predictor,他们各自的threshold是多
少?
2,因为原始的数据是imbalanced,而我用来train的数据是balanced。在计算Positive
Predictive Value这个指标的时候,是应该按balanced还是imbalanced的来算?如果按
balanced的来算,specificity 99.9%对应的PPV是很高的。但是按总体来看,PPV就不
高了,因
为总的training data中negative data point太多了。
多谢(不知道发对版了没有,呵呵)。
1 (共1页)
进入CS版参与讨论
相关主题
[转载] Two more positions!Re: 急需Java 或者GSM的人才!【申请新版】 数据科学(DataScience) (转载)
CS Faculty Position in Boston UniversityPattern recognition problem (转载)
Re: CS Faculty Position in Boston Univercross validation and best model question
Re: networking is first - faculty posit.请教:在何处能查到"predictor-corrector""leap- frog"二种算法细节介绍?
machine learning需要哪些数学基础?anyone familiar with z notation?
大家帮看看这个问题可以用啥 model 解决 ~ 谢谢。Re: 计算机专业编程到底强在哪里?
有个问题问下各位做machine learning的朋友谈一下我的经历,顺便请教!
这道大公司的design题目怎么解 (转载)program language 这个方向 现在如何
相关话题的讨论汇总
话题: data话题: positive话题: imbalanced话题: predictive话题: value