请问如何分析这两个变量之间的关系？ - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 请问如何分析这两个变量之间的关系？

相关主题
● longitudinal data analysis里面，GEE model 和 mixed model两个方法各有什么优越性吗？	● Mixed Effect Model and GEE
● 关于Generalized Linear Mixed Models(GLMMs）的问题	● [合集] need help with a reviewer's comment
● 火烧那什么了。。。。急问GLMM	● 请教如何用proc glimmix 分析 repeated measures with binary outcome.
● time series of count data	● 求大侠指点,GEE macro in SAS
● 求教顾客各种属性\所定杂志 PATTERN 的分析	● Clustered Data能用GEE或Mixed Model吗？
● longitudinal的data，一般都用什么方法分析？	● 在RUN一段SAS CODE
● 如何选择covariate的问题	● 问一个关于proc glimmix的问题
● 请教R问题：GEE里面的contrasts怎么写？及GLMM	● proc glimmix里碰到的问题

相关话题的讨论汇总
话题: missing话题: gee话题: model话题: data话题: mixed

进入Statistics版参与讨论

(共1页)

s*******e
发帖数: 370

How to assess the association between X and Y?
Variable X is continuous and normal-distributed, and the dependent variable
Y is ordinal (can be numbers between 0-30 ), and is not normal- distributed,
is skewed to the right.
Patients are examined three times, and both X and Y are measured at about
the same time. But there are some missing data (patients can miss one or two
exams, and may miss X exam or Y exam or both). For each patient, the
average number of exams is 2.2. Sample size is over 1000.
我想这个是longitudinal data，大概可以用GEE model做个regression? 但是Y不是
continuous,也不是normal distribution，而且有不少missing，这些会有什么影响？
怎么分析才比较好呢？
想请教大家，帮帮忙。谢谢！

s*******e
发帖数: 370

版上这么多人，咋就没人回答呢。
我自己顶一下吧。

P****D
发帖数: 11146

为什么会有missing data？处理缺失数据的方法视缺失数据产生的原因而定。如果是
missing at random甚至missing at complete random的，就无视好了。否则……你惨
了……
既然Y是ordinal的，用GEE可以啊。

w*******n
发帖数: 469

Mixed model may be better if you have random effect here.

s*******e
发帖数: 370

谢谢！总算有一个人回复啦。
But we had only three times of measurements, is Mixed model ideal for such
situation?

【在 w*******n 的大作中提到】

: Mixed model may be better if you have random effect here.

w*******n
发帖数: 469

You can use means model with "PROC MIXED".

o******6
发帖数: 538

用GENERALIZED LINEAR MIXED MODEL（PROC GLIMMIX)，试试LOG LINK FUNCTION。至于
MISSING DATA，可以检查一下是不是MCAR。

variable
distributed,
two

【在 s*******e 的大作中提到】

: How to assess the association between X and Y?
: Variable X is continuous and normal-distributed, and the dependent variable
: Y is ordinal (can be numbers between 0-30 ), and is not normal- distributed,
: is skewed to the right.
: Patients are examined three times, and both X and Y are measured at about
: the same time. But there are some missing data (patients can miss one or two
: exams, and may miss X exam or Y exam or both). For each patient, the
: average number of exams is 2.2. Sample size is over 1000.
: 我想这个是longitudinal data，大概可以用GEE model做个regression? 但是Y不是
: continuous,也不是normal distribution，而且有不少missing，这些会有什么影响？

s*******e
发帖数: 370

PharmD，谢谢你的回答。
关于missing data,很常见啊，因为受试者是人啊，人总是会有各种情况，有的是年纪
大了，行动不便，来不了了，有的也可能死了，有的是不想来了，各种情况都有。
所以，我也不确定是不是missing at random. 好像GEE对missing data的assumption是
MACR,否则会有bias（？）。当然MACR是很苛刻的要求。
我现在觉得是MAR就不错了，但是如何去证实这个呢？我想过用inverse probability
weighting, 但是不知道如何去做。即使是baseline也不是所有人都参加了exam的。
另外Y是ordinal data，但是不是normal distribution, 而是skewed,而且有最大值。
这样的话，我在想GEE的linearity assumption会不会成问题呢？因为可能有ceiling
effect？不是很懂这些。

【在 P****D 的大作中提到】

: 为什么会有missing data？处理缺失数据的方法视缺失数据产生的原因而定。如果是
: missing at random甚至missing at complete random的，就无视好了。否则……你惨
: 了……
: 既然Y是ordinal的，用GEE可以啊。

s*r
发帖数: 2757

你这个y是什么psychometric score吧

variable
distributed,
two

【在 s*******e 的大作中提到】

s*******e
发帖数: 370

Orange06,谢谢你的建议。
可以大概说说怎么check是不是MCAR吗？
另外为什么用Log link function呢？
另外用GENERALIZED LINEAR MIXED MODEL是要做random effect吗？我觉得一共才
measure了3次，对random effect有点少？
Orange06，我对这些统计方法真的是不大懂，能给详细说说吗？谢谢！

【在 o******6 的大作中提到】

: 用GENERALIZED LINEAR MIXED MODEL（PROC GLIMMIX)，试试LOG LINK FUNCTION。至于
: MISSING DATA，可以检查一下是不是MCAR。
:
: variable
: distributed,
: two

相关主题
● longitudinal的data，一般都用什么方法分析？	● Mixed Effect Model and GEE
● 如何选择covariate的问题	● [合集] need help with a reviewer's comment
● 请教R问题：GEE里面的contrasts怎么写？及GLMM	● 请教如何用proc glimmix 分析 repeated measures with binary outcome.
进入Statistics版参与讨论

s*******e
发帖数: 370

嗯嗯嗯，行家来了！

【在 s*r 的大作中提到】

: 你这个y是什么psychometric score吧
:
: variable
: distributed,
: two

s*******e
发帖数: 370

我记得看过一个文章，说这种情况要引入一个什么latent variable，在搞一个什么不
同的link function去克服这种情况。
但是没有看懂怎么实现的，也没有给出code。

【在 s*r 的大作中提到】

: 你这个y是什么psychometric score吧
:
: variable
: distributed,
: two

s*r
发帖数: 2757

你去看看其他人怎么分析的
很多时候ordinal的data是可以相减的
很多时候visit wise score是不normal的，但是change from baseline是normal的
很多时候大家根本不管missing mechanism，
要管起来就麻烦了，可以同时model你的data和missing status, (shared-parameter
model)

【在 s*******e 的大作中提到】

: 嗯嗯嗯，行家来了！

s*******e
发帖数: 370

谢谢sir！
嗯，我看过其他的paper，很多用random effect,不过人家measure的次数要多一些。关
于missing data，很少看到管missing mechanism的，但是一般会讨论一下missing
data的影响。
我去看看你说的shared-parameter model，以前没听过呢。
我有看到有用inverse probability weighting来看missing data对结果的影响的，但
是我的数据baseline就有missing data，这个能做IPW吗？

【在 s*r 的大作中提到】

: 你去看看其他人怎么分析的
: 很多时候ordinal的data是可以相减的
: 很多时候visit wise score是不normal的，但是change from baseline是normal的
: 很多时候大家根本不管missing mechanism，
: 要管起来就麻烦了，可以同时model你的data和missing status, (shared-parameter
: model)

c********d
发帖数: 253

GEE要求missing data的mechanism一定的是MCAR，MCAR可以用model去test，简单来说
就是假设missing依赖于一些observed的covariates，然后建一个logistic model，
regress missing indicator against these covariates，然后test 这些covariates
的coefficients是否为０，为０的话就是MCAR。照你的情况，你就regress missing
indicator against time and x就好了。如果你想做prediction，用random effect
model比较好，否则还是GEE吧，毕竟GEE是semi－parametric的，assumption少一些。

s*******e
发帖数: 370

多谢剑神！
我也是打算用GEE，我不做prediction，只看是不是有association。
请问怎么做regress missing indicator agaist time and x呢？
是不是设立一个indicator （missing or not missing), 然后呢？

covariates

【在 c********d 的大作中提到】

: GEE要求missing data的mechanism一定的是MCAR，MCAR可以用model去test，简单来说
: 就是假设missing依赖于一些observed的covariates，然后建一个logistic model，
: regress missing indicator against these covariates，然后test 这些covariates
: 的coefficients是否为０，为０的话就是MCAR。照你的情况，你就regress missing
: indicator against time and x就好了。如果你想做prediction，用random effect
: model比较好，否则还是GEE吧，毕竟GEE是semi－parametric的，assumption少一些。

D**g
发帖数: 739

只看association的话，倒过来做，用y model x, mixed model 的ml 方法，可以允许
mar

【在 s*******e 的大作中提到】

: 多谢剑神！
: 我也是打算用GEE，我不做prediction，只看是不是有association。
: 请问怎么做regress missing indicator agaist time and x呢？
: 是不是设立一个indicator （missing or not missing), 然后呢？
:
: covariates

o******6
发帖数: 538

碰到RIGHT-SKEWED DATA，一般情况都是用SQUARE ROOT, CUBE ROOT，LOG
TRANSFORMATIONS来满足NORMAL ASSUMPTION,你可以用BOX COX TRANSFORMATION（PROC
TRANSREG)看到底该使用哪种TRANSFORMATION，这样如果你不熟悉PROC GLIMMIX，可以
TRANSFORM数据后用PROC MIXED PROCEDURE。
MCAR TEST有几种，班上有人提到的一种我上课的时候也用到过（见LOGISTIC
REGRESSION MODEL,吧其他Y和COVARIATES作为INDEPENDENT VARIABLES。。。) ，另外
你也可以GOOGLE LITTLE'S MCAR TEST。

【在 s*******e 的大作中提到】

: Orange06,谢谢你的建议。
: 可以大概说说怎么check是不是MCAR吗？
: 另外为什么用Log link function呢？
: 另外用GENERALIZED LINEAR MIXED MODEL是要做random effect吗？我觉得一共才
: measure了3次，对random effect有点少？
: Orange06，我对这些统计方法真的是不大懂，能给详细说说吗？谢谢！

h*t
发帖数: 187

1. missing的问题
（1）检测是MCAR还是MAR，如果是Monotonic missing，可以用logistic regression
来检测
（2）IPW的方法一般也是在MMDP的情况下好用
2. model选择的问题
（1）link function的选择
如果是count data，可以试试log link；如果ceiling现象很明显，可以作为
binomial data，试试logit link。
（2）用GEE的话，weight GEE是把IPW的方法扩展到GEE里面
用GLMM的话，因为是likelihood based的方法，对missing更加robust一些。
3.软件方面
如果用GLMM又用logit link的话，推荐不用SAS Procedure GLIMMIX，而用NLMIXED，
原因可参见Statistics in Medicine 30:2562-2572, 2011

c********d
发帖数: 253

你就把missing indicator对那些covariates做logistic regression,test 各
covariates的系数是否为0. 另外，确实mixed model对missing data处理更方便一些，
因为mar请况也适用，但问题是mar和nmar都是not testable的。

相关主题
● 求大侠指点,GEE macro in SAS	● 问一个关于proc glimmix的问题
● Clustered Data能用GEE或Mixed Model吗？	● proc glimmix里碰到的问题
● 在RUN一段SAS CODE	● a quesiton about random effect
进入Statistics版参与讨论

j**********i
发帖数: 3758

skew的情况多了，random也会死人。
missing data 靠的是经验。算什么random？

c*****l
发帖数: 1493

re sir
random effects+missing的paper多得很。

【在 s*******e 的大作中提到】

: 谢谢sir！
: 嗯，我看过其他的paper，很多用random effect,不过人家measure的次数要多一些。关
: 于missing data，很少看到管missing mechanism的，但是一般会讨论一下missing
: data的影响。
: 我去看看你说的shared-parameter model，以前没听过呢。
: 我有看到有用inverse probability weighting来看missing data对结果的影响的，但
: 是我的数据baseline就有missing data，这个能做IPW吗？

s*******e
发帖数: 370

谢谢大家的帮助！我会好好看大家的回答，争取早点解决这个问题。
非常感谢！！！

(共1页)

进入Statistics版参与讨论

相关主题
● proc glimmix里碰到的问题	● 求教顾客各种属性\所定杂志 PATTERN 的分析
● a quesiton about random effect	● longitudinal的data，一般都用什么方法分析？
● cluster effect in case control study	● 如何选择covariate的问题
● 拜求统计牛人给建议 Semi-parametric regression of binary outcome	● 请教R问题：GEE里面的contrasts怎么写？及GLMM
● longitudinal data analysis里面，GEE model 和 mixed model两个方法各有什么优越性吗？	● Mixed Effect Model and GEE
● 关于Generalized Linear Mixed Models(GLMMs）的问题	● [合集] need help with a reviewer's comment
● 火烧那什么了。。。。急问GLMM	● 请教如何用proc glimmix 分析 repeated measures with binary outcome.
● time series of count data	● 求大侠指点,GEE macro in SAS

相关话题的讨论汇总
话题: missing话题: gee话题: model话题: data话题: mixed

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天