s********0 发帖数: 51 | 1 我现在有这样一组数据:dependent variable Y 是一个百分比(因为某些原因,其分
子和分母都缺失了,但是分母很可能是相同的),而且Y有很高的比率是0. 请问大家这
种数据应该怎么建模呢?本来如果知道分子分母的数值,大概还可以用logistic
regression来做,但是现在不知道。现在能想到的是把Y像logistic regression那样做
一个变换,把Y从[0,1]变换到R上去,然后再做linear regression,但是大量的0该如何
处理呢? |
m*******t 发帖数: 168 | 2 可以用beta regression which assume Y as zero_one_inflated_beta distribution.
R 有个package, GAMLSS, 你可以看看。 |
m*******t 发帖数: 168 | 3 另外,如果你想省事的话,可以用LOGIT TRANFORM Y VARIABLE。 Y'=LOG((Y+eps)/(1-
Y-eps)), eps 是任意小的数,可以是0.05 or others. |
s********0 发帖数: 51 | 4 非常非常感谢!
1-
【在 m*******t 的大作中提到】 : 另外,如果你想省事的话,可以用LOGIT TRANFORM Y VARIABLE。 Y'=LOG((Y+eps)/(1- : Y-eps)), eps 是任意小的数,可以是0.05 or others.
|
c***z 发帖数: 6348 | 5 rare event logit, or any model indeed (I used random forest)
either resample to a more even data, or give different weights to positive
and negative, or combine both |
c***z 发帖数: 6348 | 6 can you explain what does this mean: 因为某些原因,其分
子和分母都缺失了,但是分母很可能是相同的 - do you have a percentage or not? |