s*******e 发帖数: 370 | 1 How to assess the association between X and Y?
Variable X is continuous and normal-distributed, and the dependent variable
Y is ordinal (can be numbers between 0-30 ), and is not normal- distributed,
is skewed to the right.
Patients are examined three times, and both X and Y are measured at about
the same time. But there are some missing data (patients can miss one or two
exams, and may miss X exam or Y exam or both). For each patient, the
average number of exams is 2.2. Sample size is over 1000.
我想这个是longitudinal data,大概可以用GEE model做个regression? 但是Y不是
continuous,也不是normal distribution,而且有不少missing,这些会有什么影响?
怎么分析才比较好呢?
想请教大家,帮帮忙。谢谢! |
s*******e 发帖数: 370 | 2 版上这么多人,咋就没人回答呢。
我自己顶一下吧。 |
P****D 发帖数: 11146 | 3 为什么会有missing data?处理缺失数据的方法视缺失数据产生的原因而定。如果是
missing at random甚至missing at complete random的,就无视好了。否则……你惨
了……
既然Y是ordinal的,用GEE可以啊。 |
w*******n 发帖数: 469 | 4 Mixed model may be better if you have random effect here. |
s*******e 发帖数: 370 | 5 谢谢!总算有一个人回复啦。
But we had only three times of measurements, is Mixed model ideal for such
situation?
【在 w*******n 的大作中提到】 : Mixed model may be better if you have random effect here.
|
w*******n 发帖数: 469 | 6 You can use means model with "PROC MIXED". |
o******6 发帖数: 538 | 7 用GENERALIZED LINEAR MIXED MODEL(PROC GLIMMIX),试试LOG LINK FUNCTION。至于
MISSING DATA,可以检查一下是不是MCAR。
variable
distributed,
two
【在 s*******e 的大作中提到】 : How to assess the association between X and Y? : Variable X is continuous and normal-distributed, and the dependent variable : Y is ordinal (can be numbers between 0-30 ), and is not normal- distributed, : is skewed to the right. : Patients are examined three times, and both X and Y are measured at about : the same time. But there are some missing data (patients can miss one or two : exams, and may miss X exam or Y exam or both). For each patient, the : average number of exams is 2.2. Sample size is over 1000. : 我想这个是longitudinal data,大概可以用GEE model做个regression? 但是Y不是 : continuous,也不是normal distribution,而且有不少missing,这些会有什么影响?
|
s*******e 发帖数: 370 | 8 PharmD,谢谢你的回答。
关于missing data,很常见啊,因为受试者是人啊,人总是会有各种情况,有的是年纪
大了,行动不便,来不了了,有的也可能死了,有的是不想来了,各种情况都有。
所以,我也不确定是不是missing at random. 好像GEE对missing data的assumption是
MACR,否则会有bias(?)。当然MACR是很苛刻的要求。
我现在觉得是MAR就不错了,但是如何去证实这个呢?我想过用inverse probability
weighting, 但是不知道如何去做。即使是baseline也不是所有人都参加了exam的。
另外Y是ordinal data,但是不是normal distribution, 而是skewed,而且有最大值。
这样的话,我在想GEE的linearity assumption会不会成问题呢?因为可能有ceiling
effect?不是很懂这些。
【在 P****D 的大作中提到】 : 为什么会有missing data?处理缺失数据的方法视缺失数据产生的原因而定。如果是 : missing at random甚至missing at complete random的,就无视好了。否则……你惨 : 了…… : 既然Y是ordinal的,用GEE可以啊。
|
s*r 发帖数: 2757 | 9 你这个y是什么psychometric score吧
variable
distributed,
two
【在 s*******e 的大作中提到】 : How to assess the association between X and Y? : Variable X is continuous and normal-distributed, and the dependent variable : Y is ordinal (can be numbers between 0-30 ), and is not normal- distributed, : is skewed to the right. : Patients are examined three times, and both X and Y are measured at about : the same time. But there are some missing data (patients can miss one or two : exams, and may miss X exam or Y exam or both). For each patient, the : average number of exams is 2.2. Sample size is over 1000. : 我想这个是longitudinal data,大概可以用GEE model做个regression? 但是Y不是 : continuous,也不是normal distribution,而且有不少missing,这些会有什么影响?
|
s*******e 发帖数: 370 | 10 Orange06,谢谢你的建议。
可以大概说说怎么check是不是MCAR吗?
另外为什么用Log link function呢?
另外用GENERALIZED LINEAR MIXED MODEL是要做random effect吗?我觉得一共才
measure了3次,对random effect有点少?
Orange06,我对这些统计方法真的是不大懂,能给详细说说吗?谢谢!
【在 o******6 的大作中提到】 : 用GENERALIZED LINEAR MIXED MODEL(PROC GLIMMIX),试试LOG LINK FUNCTION。至于 : MISSING DATA,可以检查一下是不是MCAR。 : : variable : distributed, : two
|
|
|
s*******e 发帖数: 370 | 11 嗯嗯嗯,行家来了!
【在 s*r 的大作中提到】 : 你这个y是什么psychometric score吧 : : variable : distributed, : two
|
s*******e 发帖数: 370 | 12 我记得看过一个文章,说这种情况要引入一个什么latent variable,在搞一个什么不
同的link function去克服这种情况。
但是没有看懂怎么实现的,也没有给出code。
【在 s*r 的大作中提到】 : 你这个y是什么psychometric score吧 : : variable : distributed, : two
|
s*r 发帖数: 2757 | 13 你去看看其他人怎么分析的
很多时候ordinal的data是可以相减的
很多时候visit wise score是不normal的,但是change from baseline是normal的
很多时候大家根本不管missing mechanism,
要管起来就麻烦了,可以同时model你的data和missing status, (shared-parameter
model)
【在 s*******e 的大作中提到】 : 嗯嗯嗯,行家来了!
|
s*******e 发帖数: 370 | 14 谢谢sir!
嗯,我看过其他的paper,很多用random effect,不过人家measure的次数要多一些。关
于missing data,很少看到管missing mechanism的,但是一般会讨论一下missing
data的影响。
我去看看你说的shared-parameter model,以前没听过呢。
我有看到有用inverse probability weighting来看missing data对结果的影响的,但
是我的数据baseline就有missing data,这个能做IPW吗?
【在 s*r 的大作中提到】 : 你去看看其他人怎么分析的 : 很多时候ordinal的data是可以相减的 : 很多时候visit wise score是不normal的,但是change from baseline是normal的 : 很多时候大家根本不管missing mechanism, : 要管起来就麻烦了,可以同时model你的data和missing status, (shared-parameter : model)
|
c********d 发帖数: 253 | 15 GEE要求missing data的mechanism一定的是MCAR,MCAR可以用model去test,简单来说
就是假设missing依赖于一些observed的covariates,然后建一个logistic model,
regress missing indicator against these covariates,然后test 这些covariates
的coefficients是否为0,为0的话就是MCAR。照你的情况,你就regress missing
indicator against time and x就好了。如果你想做prediction,用random effect
model比较好,否则还是GEE吧,毕竟GEE是semi-parametric的,assumption少一些。 |
s*******e 发帖数: 370 | 16 多谢剑神!
我也是打算用GEE,我不做prediction,只看是不是有association。
请问怎么做regress missing indicator agaist time and x呢?
是不是设立一个indicator (missing or not missing), 然后呢?
covariates
【在 c********d 的大作中提到】 : GEE要求missing data的mechanism一定的是MCAR,MCAR可以用model去test,简单来说 : 就是假设missing依赖于一些observed的covariates,然后建一个logistic model, : regress missing indicator against these covariates,然后test 这些covariates : 的coefficients是否为0,为0的话就是MCAR。照你的情况,你就regress missing : indicator against time and x就好了。如果你想做prediction,用random effect : model比较好,否则还是GEE吧,毕竟GEE是semi-parametric的,assumption少一些。
|
D**g 发帖数: 739 | 17 只看association的话,倒过来做,用y model x, mixed model 的ml 方法,可以允许
mar
【在 s*******e 的大作中提到】 : 多谢剑神! : 我也是打算用GEE,我不做prediction,只看是不是有association。 : 请问怎么做regress missing indicator agaist time and x呢? : 是不是设立一个indicator (missing or not missing), 然后呢? : : covariates
|
o******6 发帖数: 538 | 18 碰到RIGHT-SKEWED DATA,一般情况都是用SQUARE ROOT, CUBE ROOT,LOG
TRANSFORMATIONS来满足NORMAL ASSUMPTION,你可以用BOX COX TRANSFORMATION(PROC
TRANSREG)看到底该使用哪种TRANSFORMATION,这样如果你不熟悉PROC GLIMMIX,可以
TRANSFORM数据后用PROC MIXED PROCEDURE。
MCAR TEST有几种,班上有人提到的一种我上课的时候也用到过(见LOGISTIC
REGRESSION MODEL,吧其他Y和COVARIATES作为INDEPENDENT VARIABLES。。。) ,另外
你也可以GOOGLE LITTLE'S MCAR TEST。
【在 s*******e 的大作中提到】 : Orange06,谢谢你的建议。 : 可以大概说说怎么check是不是MCAR吗? : 另外为什么用Log link function呢? : 另外用GENERALIZED LINEAR MIXED MODEL是要做random effect吗?我觉得一共才 : measure了3次,对random effect有点少? : Orange06,我对这些统计方法真的是不大懂,能给详细说说吗?谢谢!
|
h*t 发帖数: 187 | 19 1. missing的问题
(1)检测是MCAR还是MAR,如果是Monotonic missing,可以用logistic regression
来检测
(2)IPW的方法一般也是在MMDP的情况下好用
2. model选择的问题
(1)link function的选择
如果是count data,可以试试log link;如果ceiling现象很明显,可以作为
binomial data,试试logit link。
(2)用GEE的话,weight GEE是把IPW的方法扩展到GEE里面
用GLMM的话,因为是likelihood based的方法,对missing更加robust一些。
3.软件方面
如果用GLMM又用logit link的话,推荐不用SAS Procedure GLIMMIX,而用NLMIXED,
原因可参见Statistics in Medicine 30:2562-2572, 2011 |
c********d 发帖数: 253 | 20 你就把missing indicator对那些covariates做logistic regression,test 各
covariates的系数是否为0. 另外,确实mixed model对missing data处理更方便一些,
因为mar请况也适用,但问题是mar和nmar都是not testable的。 |
|
|
j**********i 发帖数: 3758 | 21 skew的情况多了,random也会死人。
missing data 靠的是经验。算什么random? |
c*****l 发帖数: 1493 | 22 re sir
random effects+missing的paper多得很。
【在 s*******e 的大作中提到】 : 谢谢sir! : 嗯,我看过其他的paper,很多用random effect,不过人家measure的次数要多一些。关 : 于missing data,很少看到管missing mechanism的,但是一般会讨论一下missing : data的影响。 : 我去看看你说的shared-parameter model,以前没听过呢。 : 我有看到有用inverse probability weighting来看missing data对结果的影响的,但 : 是我的数据baseline就有missing data,这个能做IPW吗?
|
s*******e 发帖数: 370 | 23 谢谢大家的帮助!我会好好看大家的回答,争取早点解决这个问题。
非常感谢!!! |