由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 如何处理这样的missing value?
相关主题
missing data 如何处理?大家平时怎么处理missing data?
统计学的新地平线——陈立功与他的自权重曲线[合集] 如果我有很多missing data>50%
陈大师, 我很好奇winbugs求助
工作中的一个correlation analysis的问题。[合集] Missing data
恭请luckyjet (tejykcul)回答二个问题proc logistic遇到missing value怎么处理
missing values imputation求 imputation 后 出来的iteration 的数据作用
面试时关于如何处理missing data的回答问个missing data的问题,关于time series data
真心请教: data cleaning请教一个sas问题
相关话题的讨论汇总
话题: missing话题: value话题: know话题: stat话题: data
进入Statistics版参与讨论
1 (共1页)
g***w
发帖数: 742
1
Survey中有问服务中心报给客户的等待时间和客户实际的等待时间
但问题是有的服务中心没有预先报给客户需要等待的时间,所以Survey中就出现了
missing value。
除了取平均值之外,还有没有更好的办法?
l***a
发帖数: 12410
2
use the max?

【在 g***w 的大作中提到】
: Survey中有问服务中心报给客户的等待时间和客户实际的等待时间
: 但问题是有的服务中心没有预先报给客户需要等待的时间,所以Survey中就出现了
: missing value。
: 除了取平均值之外,还有没有更好的办法?

T*******I
发帖数: 5138
3
MISSING value = UNKNOWN value
如果你要用一个确定的值取代一个missing value,就是用一个known value 取代一个
unknown value. This is absurd!

【在 g***w 的大作中提到】
: Survey中有问服务中心报给客户的等待时间和客户实际的等待时间
: 但问题是有的服务中心没有预先报给客户需要等待的时间,所以Survey中就出现了
: missing value。
: 除了取平均值之外,还有没有更好的办法?

a********s
发帖数: 188
4
如果服务中心报给客户的等待时间(T1)和客户实际的等待时间(T2)存在某种关系,
譬如说线性的,在知道T2的情况下,倒是可以把T1算出来。普通的regression说不定能
可行。GL
T*******I
发帖数: 5138
5
How about the residual for that missing case? Can you determine it?

【在 a********s 的大作中提到】
: 如果服务中心报给客户的等待时间(T1)和客户实际的等待时间(T2)存在某种关系,
: 譬如说线性的,在知道T2的情况下,倒是可以把T1算出来。普通的regression说不定能
: 可行。GL

A*******s
发帖数: 3942
6
need to first specify ur research purposes(prediction/design/hypothesis test
?) and detect the missing patterns(MCAR/MAR/MNAR), and then decide what
imputation method.
A*******s
发帖数: 3942
7
plz read any stat text about missing data b4 bullshitting.

【在 T*******I 的大作中提到】
: How about the residual for that missing case? Can you determine it?
T*******I
发帖数: 5138
8
Plz don't tell me you can know an unknown by borrowing a theory rather than a real measuring.

【在 A*******s 的大作中提到】
: plz read any stat text about missing data b4 bullshitting.
A*******s
发帖数: 3942
9
As we know,
There are known knowns.
There are things we know we know.
We also know
There are known unknowns.
That is to say
We know there are some things
We do not know.
But there are also unknown unknowns,
The ones we don't know
We don't know.
—Feb. 12, 2002, Former Secretary of Defense Donald Rumsfeld at Department
of Defense news briefing

real

【在 T*******I 的大作中提到】
: Plz don't tell me you can know an unknown by borrowing a theory rather than a real measuring.
T*******I
发帖数: 5138
10
Do you really know what Statistics is?
Do you really understand what about the random error and the systematical error in
a random measuring?
就是有那么一些人自以为自己数学学得了不起。他们连最基本的统计概念都不知道就滥用数学原理。

【在 A*******s 的大作中提到】
: As we know,
: There are known knowns.
: There are things we know we know.
: We also know
: There are known unknowns.
: That is to say
: We know there are some things
: We do not know.
: But there are also unknown unknowns,
: The ones we don't know

相关主题
missing values imputation大家平时怎么处理missing data?
面试时关于如何处理missing data的回答[合集] 如果我有很多missing data>50%
真心请教: data cleaningwinbugs求助
进入Statistics版参与讨论
A*******s
发帖数: 3942
11
plz read any stat text about missing data b4 bullshitting.

error in

【在 T*******I 的大作中提到】
: Do you really know what Statistics is?
: Do you really understand what about the random error and the systematical error in
: a random measuring?
: 就是有那么一些人自以为自己数学学得了不起。他们连最基本的统计概念都不知道就滥用数学原理。

T*******I
发帖数: 5138
12
你重复这个陈述表明你连屁都没有放的了。

【在 A*******s 的大作中提到】
: plz read any stat text about missing data b4 bullshitting.
:
: error in

A*******s
发帖数: 3942
13
PLZ READ ANY STAT TEXT ABOUT MISSING DATA. ANY ONE PLZ. THEN U KNOW U R 屁.

【在 T*******I 的大作中提到】
: 你重复这个陈述表明你连屁都没有放的了。
T*******I
发帖数: 5138
14
我不认为我说的是屁话,因为它们都是统计学中最基本的概念。如果你认为这些最基本
的概念是屁话,那么,你要么是没有学懂它们,要么就是根本没学到。
你以为我不知道如何估计missing values? 不知道弥补了missing values后有多少好处
?结果会怎样?
但是,我宁愿要一个损失了MISSING CASES的、只有随机误差的结果,也不愿接受一个由
理论估计带来的带着系统误差的估计。

【在 A*******s 的大作中提到】
: PLZ READ ANY STAT TEXT ABOUT MISSING DATA. ANY ONE PLZ. THEN U KNOW U R 屁.
A*******s
发帖数: 3942
15
wow, finally u mention some details.
then a quick question:
regarding of MNAR data, what are the impacts on regression coefficient
estimates if u use one of the following methods:
1. casewise deletion
2. single value(mean) replacement
3. single conditional means imputation
4. multiple imputation
very basic question about missing data. hope u could answer it.

【在 T*******I 的大作中提到】
: 我不认为我说的是屁话,因为它们都是统计学中最基本的概念。如果你认为这些最基本
: 的概念是屁话,那么,你要么是没有学懂它们,要么就是根本没学到。
: 你以为我不知道如何估计missing values? 不知道弥补了missing values后有多少好处
: ?结果会怎样?
: 但是,我宁愿要一个损失了MISSING CASES的、只有随机误差的结果,也不愿接受一个由
: 理论估计带来的带着系统误差的估计。

T*******I
发帖数: 5138
16
请回到我的上一贴。我补充了我的观点。所以,对你提到的以下花哨的概念我不感兴趣。

【在 A*******s 的大作中提到】
: wow, finally u mention some details.
: then a quick question:
: regarding of MNAR data, what are the impacts on regression coefficient
: estimates if u use one of the following methods:
: 1. casewise deletion
: 2. single value(mean) replacement
: 3. single conditional means imputation
: 4. multiple imputation
: very basic question about missing data. hope u could answer it.

A*******s
发帖数: 3942
17
sure u don't know the stat terms because u never read any stat text.
first i suggest u learn what is missing pattern. such statement "损失了
MISSING CASES的、只有随机误差" is invalid.

趣。

【在 T*******I 的大作中提到】
: 请回到我的上一贴。我补充了我的观点。所以,对你提到的以下花哨的概念我不感兴趣。
T*******I
发帖数: 5138
18
让我们看一个具体的实例。
假设100个被抽样的个体有10个在被测变量上发生missing,你是愿意用90个个体的均数
去取代那10个missing values然后再计算一个均数? 还是直接使用90个个体计算出来的
均数?假设这是一个单变量情形,且被测变量是连续型的。

【在 A*******s 的大作中提到】
: sure u don't know the stat terms because u never read any stat text.
: first i suggest u learn what is missing pattern. such statement "损失了
: MISSING CASES的、只有随机误差" is invalid.
:
: 趣。

d******e
发帖数: 7844
19
呵呵,你是不是只知道用均值去代替missing value啊?

【在 T*******I 的大作中提到】
: 让我们看一个具体的实例。
: 假设100个被抽样的个体有10个在被测变量上发生missing,你是愿意用90个个体的均数
: 去取代那10个missing values然后再计算一个均数? 还是直接使用90个个体计算出来的
: 均数?假设这是一个单变量情形,且被测变量是连续型的。

A*******s
发帖数: 3942
20
back to sqr 1--read any stat text first.

【在 T*******I 的大作中提到】
: 让我们看一个具体的实例。
: 假设100个被抽样的个体有10个在被测变量上发生missing,你是愿意用90个个体的均数
: 去取代那10个missing values然后再计算一个均数? 还是直接使用90个个体计算出来的
: 均数?假设这是一个单变量情形,且被测变量是连续型的。

相关主题
[合集] Missing data问个missing data的问题,关于time series data
proc logistic遇到missing value怎么处理请教一个sas问题
求 imputation 后 出来的iteration 的数据作用imputation question?thanks
进入Statistics版参与讨论
d******o
发帖数: 59
21
我们现在都是用imputation method.
你可以做这方面的research.
用mean是比较简单的方法
我们比较喜欢的是用prediction model来做。
例如,你可以用已知等待时间的那些data,dependent variable 是等待时间,
independent可以是你data里有的信息,gender, age, race, income, consumer
behavior variables and so on.
用这个model,predict那些等待时间未知,但其他信息已知的数据
n*****n
发帖数: 3123
22
请不要拿无知当牛B



【在 T*******I 的大作中提到】
: MISSING value = UNKNOWN value
: 如果你要用一个确定的值取代一个missing value,就是用一个known value 取代一个
: unknown value. This is absurd!

T*******I
发帖数: 5138
23
不妨让我们从单变量情形谈起。请说说你的见解。在这个例子中,除了均数替代法外,
你还有什么其它办法给那10个missing cases赋可变的、相互不同的值?
我考虑过用那90个计算一个均数和标准差,然后假设那10个missing values也与这90个
同分布,所以,用90个cases的均数和标准差来随机模拟出10个数来替代那些missing
values。这可以是一种选项,但假设的条件也是显而易见的,而且这样做与不做结果没
有显著的差别。

【在 d******e 的大作中提到】
: 呵呵,你是不是只知道用均值去代替missing value啊?
T*******I
发帖数: 5138
24
你认为
MISSING value = UNKNOWN value
是一个错误的陈述吗?

【在 n*****n 的大作中提到】
: 请不要拿无知当牛B
:
: 个

T*******I
发帖数: 5138
25
让我们暂时把任何理论解决方案放下。从最简单的问题谈起。所以,请回答我的那个问
题。然后我们再拓展到多变量情形,并回答你的那几个花哨的概念。

【在 A*******s 的大作中提到】
: back to sqr 1--read any stat text first.
A*******s
发帖数: 3942
26
首先你不知道missing pattern是什么。这个最基本的概念都不知道,还以为是什么花
哨概念,可见你的统计教育何其贫乏。
其次,你不是提过你学过啥是interval estimate么?都忘光了?

【在 T*******I 的大作中提到】
: 不妨让我们从单变量情形谈起。请说说你的见解。在这个例子中,除了均数替代法外,
: 你还有什么其它办法给那10个missing cases赋可变的、相互不同的值?
: 我考虑过用那90个计算一个均数和标准差,然后假设那10个missing values也与这90个
: 同分布,所以,用90个cases的均数和标准差来随机模拟出10个数来替代那些missing
: values。这可以是一种选项,但假设的条件也是显而易见的,而且这样做与不做结果没
: 有显著的差别。

T*******I
发帖数: 5138
27
你这个回答基本没对上我的问题。我说了让我们先放下所有现行的理论解决方案,从简
单的情形开始讨论。这是笛卡尔关于创新性科学研究的第一条原则。

【在 A*******s 的大作中提到】
: 首先你不知道missing pattern是什么。这个最基本的概念都不知道,还以为是什么花
: 哨概念,可见你的统计教育何其贫乏。
: 其次,你不是提过你学过啥是interval estimate么?都忘光了?

A*******s
发帖数: 3942
28
我已经给你提示了,这俩方法会导致什么样不同的结果。非文盲的第一条原则是--你有
阅读能力。

【在 T*******I 的大作中提到】
: 你这个回答基本没对上我的问题。我说了让我们先放下所有现行的理论解决方案,从简
: 单的情形开始讨论。这是笛卡尔关于创新性科学研究的第一条原则。

T*******I
发帖数: 5138
29
我不想和你绕弯子。我的例子和问题如下:
“假设100个被抽样的个体有10个在被测变量上发生missing,你是愿意用90个个体的均数
去取代那10个missing values然后再计算一个均数? 还是直接使用90个个体计算出来的
均数?假设这是一个单变量情形,且被测变量是连续型的。”
按照基本数据信息,我们确实没有关于missing pattern的信息,从而也就无法对
missing values进行弥补,也就只能用那90个数据的统计量作为最终结果。
再说到missing patterns,或许在多变量条件下有可能获得关于它们的一定程度的认识。
但请别忘了,如果那些values不是missed的话,data patterns可能是另外的表现形式。
其实,我在关于本LZ的第一个回帖中已经清楚地展示了missing values的性质:
a MISSING value = an UNKNOWN value
我愿意在此给出一个不等式:
a THEORETICAL estimate based on data missing pattern =/= a real random
measure for the original sample point
亦即,两者不属于同一个测量系统,从而必然给基于数据的最终结果带来系统误差,而
任何系统误差是必须首先在数据测量前就要避免的,或者在数据分析开始前就要被校正
的。如果你的统计学教材中在论及missing value的性质和估计时没有指出这类估计的系
统误差性质,那是有问题的。

【在 A*******s 的大作中提到】
: 我已经给你提示了,这俩方法会导致什么样不同的结果。非文盲的第一条原则是--你有
: 阅读能力。

A*******s
发帖数: 3942
30
只要一讨论到细节,Master Bation马上就跑得比狗还快了。还说我绕弯子,难道不是
你问我两种方法有何不同么?我已经屈尊给你指出一条明路了--算interval estimate。

均数
识。
式。

【在 T*******I 的大作中提到】
: 我不想和你绕弯子。我的例子和问题如下:
: “假设100个被抽样的个体有10个在被测变量上发生missing,你是愿意用90个个体的均数
: 去取代那10个missing values然后再计算一个均数? 还是直接使用90个个体计算出来的
: 均数?假设这是一个单变量情形,且被测变量是连续型的。”
: 按照基本数据信息,我们确实没有关于missing pattern的信息,从而也就无法对
: missing values进行弥补,也就只能用那90个数据的统计量作为最终结果。
: 再说到missing patterns,或许在多变量条件下有可能获得关于它们的一定程度的认识。
: 但请别忘了,如果那些values不是missed的话,data patterns可能是另外的表现形式。
: 其实,我在关于本LZ的第一个回帖中已经清楚地展示了missing values的性质:
: a MISSING value = an UNKNOWN value

相关主题
请问如何处理RCBD 中 missing data.小样本统计学的新地平线——陈立功与他的自权重曲线
对于Mixed Linear Model, 如何处理missing covariates?陈大师, 我很好奇
missing data 如何处理?工作中的一个correlation analysis的问题。
进入Statistics版参与讨论
T*******I
发帖数: 5138
31
很遗憾,咱俩似乎在两个平行的概念系统中讨论问题,且没有交集。我再次重申一下,
我的观点是,对missing values的数学估计将带给原始数据系统测量误差,从而导致最
终结论的系统误差。既然是系统误差,就必须在数据分析前加以避免或校正,从而这样
的作为毫无意义。

estimate。

【在 A*******s 的大作中提到】
: 只要一讨论到细节,Master Bation马上就跑得比狗还快了。还说我绕弯子,难道不是
: 你问我两种方法有何不同么?我已经屈尊给你指出一条明路了--算interval estimate。
:
: 均数
: 识。
: 式。

A*******s
发帖数: 3942
32
再给你指一条明路:看一看case deletion在各种missing patterns下的后果。你说的
东西还真没一句是对的。

【在 T*******I 的大作中提到】
: 很遗憾,咱俩似乎在两个平行的概念系统中讨论问题,且没有交集。我再次重申一下,
: 我的观点是,对missing values的数学估计将带给原始数据系统测量误差,从而导致最
: 终结论的系统误差。既然是系统误差,就必须在数据分析前加以避免或校正,从而这样
: 的作为毫无意义。
:
: estimate。

w******e
发帖数: 8
33
对于missing value的处理,其实理论还是归理论,实际运用上还是要看你数据的特性
。For example:时效性。
比如我做的艾滋病项目的时候,第一列艾滋病是1981年发现的,那个时候还没有科学方
法可以准确的测量出CD4的具体数值,所以从1981年到1995年之间,很多人的第一个
CD4结果是missing的(up to 50% missing values prior to 1995 ),而且这些人可能感染
了很久才被发现,所以已经进入到AIDS的阶段,他们的第一个CD4要远小于HIV时候的CD4。在这种情
况下imputation就不能用了,因为imputation是用现在别人的第一个CD4去impute过去别人的第一
个CD4,从而导致1995年之前每年的CD4与95年之后每年的CD4分布的一致性,which is not
expected.
T*******I
发帖数: 5138
34
This is the so-called "systematical error" in measurement.

【在 w******e 的大作中提到】
: 对于missing value的处理,其实理论还是归理论,实际运用上还是要看你数据的特性
: 。For example:时效性。
: 比如我做的艾滋病项目的时候,第一列艾滋病是1981年发现的,那个时候还没有科学方
: 法可以准确的测量出CD4的具体数值,所以从1981年到1995年之间,很多人的第一个
: CD4结果是missing的(up to 50% missing values prior to 1995 ),而且这些人可能感染
: 了很久才被发现,所以已经进入到AIDS的阶段,他们的第一个CD4要远小于HIV时候的CD4。在这种情
: 况下imputation就不能用了,因为imputation是用现在别人的第一个CD4去impute过去别人的第一
: 个CD4,从而导致1995年之前每年的CD4与95年之后每年的CD4分布的一致性,which is not
: expected.

d******e
发帖数: 7844
35
Master Bation,我发现你开始造词了。
太牛了,你学的是哪国的英语啊,美国的英语里从来都没有见过systematical

【在 T*******I 的大作中提到】
: This is the so-called "systematical error" in measurement.
g********r
发帖数: 8017
36
英文语言体系本来就不完美。Master既然连统计都可以重新发明,造个新词有啥了不得?

【在 d******e 的大作中提到】
: Master Bation,我发现你开始造词了。
: 太牛了,你学的是哪国的英语啊,美国的英语里从来都没有见过systematical

T*******I
发帖数: 5138
37


【在 d******e 的大作中提到】
: Master Bation,我发现你开始造词了。
: 太牛了,你学的是哪国的英语啊,美国的英语里从来都没有见过systematical

d******e
发帖数: 7844
T*******I
发帖数: 5138
39
Great thanks!
You know I don't have an education backgroung in an English country.

【在 d******e 的大作中提到】
: http://www.google.com/#sclient=psy&hl=en&safe=off&q=systematical&aq=f&aqi=p-p1g1g-s1g1g-o1&aql=f&oq=&gs_rfai=&pbx=1&fp=1bde53b2ade8e603
: Master Bation,请不要google无视智能纠错系统
: http://en.wikipedia.org/wiki/Systematic_error

y*****n
发帖数: 5016
40
这就要看你打算用什么方式建model了。。。
如果打算用decision tree, 不用处理missing, tree 自己会把missing当成一个group
或自动并入最相近的group…
如果打算用logistic regression 并且用woe, 也不用处理missing, e-miner的“
interactive grouping” 也会把它当成一个group或自动并入最相近的group 并赋予一
个woe值。
如果打算用logistic regression 却不用woe,那就有多种办法了,不管取min, max,
mean, 或者按bad rate来给missing 赋指都有它的道理,听听领导的意见是最好的,中
国人常常太钻技术而忽略了business 和operational concerns, 所以在公司里始终只
是干活的而做不了大官。在这个版上就突出的表现了这一点,大家都太喜欢钻技术的牛
角尖了,好像除了这个就什么都不管,什么都不懂似的。。。
相关主题
工作中的一个correlation analysis的问题。面试时关于如何处理missing data的回答
恭请luckyjet (tejykcul)回答二个问题真心请教: data cleaning
missing values imputation大家平时怎么处理missing data?
进入Statistics版参与讨论
A*******s
发帖数: 3942
41
the problem is how to find the best stat theory and technique to support the
boss's decision and kiss his/her ass... that's why stat knowledge is still
valuable. haha

group

【在 y*****n 的大作中提到】
: 这就要看你打算用什么方式建model了。。。
: 如果打算用decision tree, 不用处理missing, tree 自己会把missing当成一个group
: 或自动并入最相近的group…
: 如果打算用logistic regression 并且用woe, 也不用处理missing, e-miner的“
: interactive grouping” 也会把它当成一个group或自动并入最相近的group 并赋予一
: 个woe值。
: 如果打算用logistic regression 却不用woe,那就有多种办法了,不管取min, max,
: mean, 或者按bad rate来给missing 赋指都有它的道理,听听领导的意见是最好的,中
: 国人常常太钻技术而忽略了business 和operational concerns, 所以在公司里始终只
: 是干活的而做不了大官。在这个版上就突出的表现了这一点,大家都太喜欢钻技术的牛

y*****n
发帖数: 5016
42
Hehe...一般说来老板的统计知识是没有你多的,所以顺着马屁忽悠他们并不是个问题
,只是这样做毕竟还是被动的。更好的做法是多关心business方面的事情,增长
business方面的知识,然后主动把business方面的考虑带到数据处理和建模的工作上来
,这才能使自己上升到管理的层面上来。

the
still

【在 A*******s 的大作中提到】
: the problem is how to find the best stat theory and technique to support the
: boss's decision and kiss his/her ass... that's why stat knowledge is still
: valuable. haha
:
: group

w******e
发帖数: 8
43
This is true. Statistical modelling is not about using fancy statistical
methods, but about how to provide a way to best describe your underlying
questions. Before doing any modelling,you have to acquire the solid
knowledge on your business and data. In the company, there is no time to
allow you to "explore" different fancy methods. Too much stick on the
statistical theory doesn't help in a business environment. Theory is under
best assumptions, but real world is NOT.

【在 y*****n 的大作中提到】
: Hehe...一般说来老板的统计知识是没有你多的,所以顺着马屁忽悠他们并不是个问题
: ,只是这样做毕竟还是被动的。更好的做法是多关心business方面的事情,增长
: business方面的知识,然后主动把business方面的考虑带到数据处理和建模的工作上来
: ,这才能使自己上升到管理的层面上来。
:
: the
: still

p********r
发帖数: 1465
44
MAR的情况下,可以考虑EM algorithm, 也可以bootstrap获得interval;
MNAR的情况下,需要考虑合并data model 和 selection model,有些像Bayesian的思
想。好多paper和研究上会选那些conjugate distribution。
一般来说,MAR的情况简单便捷易于操作。但是real world里这种情况是少见的。但是
通过MAR我们可以基本有个底,便于之后的研究。
1 (共1页)
进入Statistics版参与讨论
相关主题
请教一个sas问题恭请luckyjet (tejykcul)回答二个问题
imputation question?thanksmissing values imputation
请问如何处理RCBD 中 missing data.小样本面试时关于如何处理missing data的回答
对于Mixed Linear Model, 如何处理missing covariates?真心请教: data cleaning
missing data 如何处理?大家平时怎么处理missing data?
统计学的新地平线——陈立功与他的自权重曲线[合集] 如果我有很多missing data>50%
陈大师, 我很好奇winbugs求助
工作中的一个correlation analysis的问题。[合集] Missing data
相关话题的讨论汇总
话题: missing话题: value话题: know话题: stat话题: data