第10页 - 关于glm的讨论汇总 - 话题女王

A*******s
发帖数: 3942

来自主题: Statistics版 - Unexpected statistical analysis results in Cox regression

啥信息也没有，你叫大家怎么猜？
第一得check data quality，
第二看sampling bias，
第三才考虑model
对于GLM，某个covariate符号不对
一般是由于multicollinearity，
或者confounding/Simpson Paradox,
或者dominant nonlinear effect
对于cox regression
还需要考虑time dependent variable的functional form是不是合理
题外话一句，某次在微博上看到某教授神经叨叨地说
他和某院士都不约而同地发现戒烟者的寿命比非戒烟者的要短，
但是由于“政治不正确”，他们都不敢发表这个研究结果
俺心想幸好你们没发表，发表了就成大笑柄了。

16

t*****w
发帖数: 254

来自主题: Statistics版 - 请教这样的数据应该怎么分析

I guess repeated measure glm or mixed model works out.

c****t
发帖数: 19049

来自主题: Statistics版 - Revolution R和R给出结果不一样

run了个MASS里的glm.nb(). data 1m rows, 100左右variables. 给出的p-values都差
很多,导致selected variable set是不一样的,不论用什么标准.
有人遇到过吗? 甚马状况? R家的C#proggrammer写错了?

s*********e
发帖数: 1051

来自主题: Statistics版 - a class of models more general than classic GLM

Jorgensen's dispersion models (1987)
http://statcompute.wordpress.com/2013/07/14/dispersion-models/

c****t
发帖数: 19049

来自主题: Statistics版 - a class of models more general than classic GLM

啧啧数学不行就是不行啊

s****u
发帖数: 1200

来自主题: Statistics版 - 怎么看那个categorica 变量对y的解释更给力？

有八个categorical variable as independent variable. Response variable is
continuous. 这八个不能都放进去，要选几个最相关的扔进去。
现在是做了proc glm，把每个x 和y分别回归一次，这八个单独放都显著。这种情况下
该根据什么标准再进一步筛选呢？谢谢！
★ 发自iPhone App: ChineseWeb 7.8

t*****w
发帖数: 254

来自主题: Statistics版 - 请问面试 R 应该怎么准备？

When I had my job interview, they always tested my SAS skill.However I use R
all the time. To help your preparation, read my R codes to see how much you
can understand it.
%in%
?keyword
a<-matrix(0,nrow=3,ncol=3,byrow=T)
a1 <- a1/(t(a1)%*%spooled%*%a1)^.5 #standadization in discrim
a1<- a>=2; a[a1]
abline(h = -1:5, v = -2:3, col = "lightgray", lty=3)
abline(h=0, v=0, col = "gray60")
abs(r2[i])>r0
aggregate(iris[,1:4], list(iris$Species), mean)
AND: &; OR: |; NOT: !
anova(lm(data1[,3]~data1[,1... 阅读全帖

P***n
发帖数: 174

来自主题: Statistics版 - 求推荐一本带实例的用R讲解logistic regression的书

rt，求推荐一本带实例的用R讲解logistic regression的书
我在往上找到的几本经典的都是用SAS讲解的（包括UCLA ats的几本）
如果是包含linear regression + logistic regression + 其他的GLM的书也行
只要是用R有实例讲解的比较经典的都行

f****1
发帖数: 289

来自主题: Statistics版 - 大家一般用哪个函数在R里面做logistic regression？

你是说pvalue吗？
我的response variable是categorical的，有3个level, 发现glm只fit一个intercept,
好像polr和clm似乎fit了两个intercept。

P*****r
发帖数: 554

来自主题: Statistics版 - 请问一个Regression的问题

both x1 and x2 significant? VIF is a good way to describe multicoliearity
and you may find some common threshold for VIF.
It would be the same either you use log link with family=gaussian in glm or
just do log transformation in lm.

+

s*********h
发帖数: 6288

来自主题: Statistics版 - 那方面知识有用？

GLM(logistic), Mixed，Bayesian
还是decision tree以及各类classification
学个python
基本不愁了……

l******e
发帖数: 895

来自主题: Statistics版 - 求推荐简单的data mining的入门书

最近在看machine learning的书，发现基本把各种统计方什么glm, bayesian啥的法过
一遍。这和传统的统计有什么区别呀。

d****u
发帖数: 1373

来自主题: Statistics版 - 请问哪里可以找到free的online的GLM教程？

谢谢！

e*****i
发帖数: 46

来自主题: Statistics版 - 请教test two-way ANOVA homogeneity的问题

用PROC GLM test homogeneity，Levene's Test for Homogeneit 的p-value 是0.0007
. 要怎样fix这个问题呢？
万分感谢~

B******y
发帖数: 9065

来自主题: Statistics版 - ANCOVA疑问

上面给的那个PROC GLM解释文件并没有回答你的问题。。。你的意思是在Model的自变
量里出现了Baseline（连续变量）和Bsegrp（离散变量）2个变量，而且后者是从前者
衍生过的，对吗？

m**********4
发帖数: 774

来自主题: Statistics版 - Statistical learning 方法

哦好象发现这题我理解错啦。可能确实是个classification problem。X 是 credit
score， output 是 indicator variable default or not。想predict 的是 P（
default ｜ X=x). 这样的看这题好象用GLM (probit, logit model) 不错。用１－D
TREE（或者HISTOGRAM）也
可以。
土人不知道DEFAULT是啥，是不是一个ACTION，不然这个就不对啦

around

q****e
发帖数: 251

来自主题: Statistics版 - 问两个弱弱的问题

问两个弱弱的问题。请各位大牛赐教。
Generalized logistic regression给出的是predicted probability，比如说我的
response有三个level，对某个observation， model给出的predicted probability分
别是p1, p2, p3. 而数据里三个level的observation所占比例分别是p01, p02, p03.
那么我要做classification的话，应该怎么做呢？
2. 我的数据有大概10 million records, 100 variables, 能称为大数据么？被问过
怎样efficient的处理和model这样的数据。以及怎样做variable selection. 怎么答才
好呢？我是用sas做的, glm为主。

f*******n
发帖数: 2665

来自主题: Statistics版 - 问一个关于R 的问题

我在SAS里可以写这样一个macro, modelscore(model, outputscore)用来评价不同的
model,然后调用，%modelscore(model1, outputscore1)，%modelscore(model2,
outputscore2)。但不知在R里怎么做.
这里model 就是一个之前modeling产生的object, 比如model1<-glm(...)，
outputscore其实包含若干的统计值，比如AUC，KS等。但如何产生outputscore1和
outputscore2这些objects, 并save到global environment？

c********h
发帖数: 330

来自主题: Statistics版 - data prediction by regression or better ways

如果是discrete的话，就比较容易了。
看你数据的背景，如果是counts，就用poisson
如果是number of success，就用binomial
我看你的scatterplot，似乎大部分数据都集中在数值小的地方，但是tail又很大，估
计直接用glm会有overdispersioin的问题，要考虑

h*********n
发帖数: 278

来自主题: Statistics版 - 有没有人被批评过model too good to be true?

c-value 又是啥？查了一下，说是equivalent to roc, 这个前面就说了呀，85%, 被认
为太高了呀。
spline我不太懂, 原以为比较高深的东西，同事说有别的组就是这么做的(也是GLM
model)，我们就照搬过来了。基本上就是这样code:
if x=a, x1=x;
if x>a, x2=a, if x<=a, x2=x;
能不能讲讲怎么个无厘头法？当时我跟他们说这东西可能没那么简单，貌似被嘲笑了。
不过后来我咨询另外组的一个同胞，好象真是这么做的。话说回来，即使没有spline，
model一样fit得很好，spline就是把本来有一小段fit得不算非常好的也变成非常好了
，我说了，当时被push追求这个。所以即使没有spline，还是too good to be true.
x没有跟y一起的derived.

。。

f*****r
发帖数: 70

来自主题: Statistics版 - model fit的疑难杂症: negative binomial regression 求指点

用proc genmod fit了一个nbin的GLM model，用的是log link。检查了actual和
prediction的mean和distribution，没什么问题。
可是plot了predicted value和actual value，发现不在对角线线上（如图所示）。具
体为，在接近0的时候，over predict比较严重。
请指教一下问题可能出在哪呢？

c********h
发帖数: 330

来自主题: Statistics版 - model fit的疑难杂症: negative binomial regression 求指点

没有具体做过这样的glm，但是如果zero的时候出问题，有zero-inflated和zero-
truncated model。你这个是actual under-dispersion at zero，考虑下zero-
truncated？

s****b
发帖数: 2039

来自主题: Statistics版 - SAS学习的问题

我目前会一点基本的命令比如PROC MEANS，PROC REG，PROC GLM等（上课用到的），
看完了little SAS book。
接下来应该看哪本书，怎么继续学习呢？
多谢指教！

R******d
发帖数: 1436

来自主题: Statistics版 - 重复测量中单个时间点的组间差异

试了一下 lsmeans time*group / slice=time ;
感觉和glm出来的结果相差很大啊。

k*z
发帖数: 4704

来自主题: Statistics版 - Entry level Data and Optimization Analyst

日常工作是简单的ETL和performance reporting,项目什么都有，segment,pricing
optimization, operation optimization, performance optimization, heat map.
工作语言是SQL和SAS，Reporting语言是Cognos+VBA+MDX/SSRS,不过以上这些不会不要
紧，可以培训。
需要有基础编程经验，Python, C++,Java，R, Matlab任何语言都可以，会写简单的
simulator和calculator. 这个会面试问到。
需要了解各种模型能解决运营实际问题，不需要知道如何具体apply,但是需要知道问题
应该在哪个track上解决。例如：信用估值(logistic)，精准营销(cluster/decision
tree)，预测需求 (time series)，工作排班(linear programming)，客户分类（
cluster），市场调查（marketing research）. 工作会涉及到的有glm, ets,logistic
,
linear in... 阅读全帖

c*****1
发帖数: 115

来自主题: Statistics版 - time series of count data

Poisson GLM with temporal auto-correlation?

c*****1
发帖数: 115

来自主题: Statistics版 - time series of count data

我的看法是既然你的data observations are not independent，你就不能用Poisson
GLM了，而要用GLMM了，在SAS里就是Proc GLIMMIX,因为你要定义你的covariance
structure。
可以说GLMM一点也不容易，作为alternative，你看是不是可以用Poisson GAM，将时间
设为Additive。

x******n
发帖数: 173

来自主题: Statistics版 - glm中设定pdiff=controll和controlu的pvalue一样

这个是怎么回事？
谢谢

l*******o
发帖数: 71

来自主题: Statistics版 - 请大侠指点：全职妈妈自费读统计小硕有出路么？

想今秋转行学统计，请有经验的同胞们给点建议和鼓励给我指条明路。现在的我很
迷茫不知道自己的选择是不是正确的。最近看过很多帖子说统计小硕找工作不容易什么
的，弄得我一身冷汗。先做一下自我介绍本人31了，2009年毕业于国内一普通大学2E专
业。来美国5年了一直做全职，现在宝宝也快2岁了。我和老公的绿卡正在排期，大概是
两年后能排到，所以想现在学点东西到时候找个工作。我现在的想法就是只要毕业能找
到工作就好。真怕花了老公大把银子最后还是家庭主妇。哦对了忘交代了，我的英语水
平是一般。教育宝宝都是全中文的。我的问题主要有2个方面。
1.学统计从事哪个方向的就业机会多啊？我看有学生物统计去药厂的，有在银行和保险
公司的。看有人说药厂的工作经验到换工作的时候是很难转的。那什么方向的工作经验
是越久越光明呢？
2学校的curriculum上有好多课程，有经验的兄弟姐妹们能帮我看看哪些课程的实用性
强么？里边有的应该是phd的课程，不知道我能不能选呢。我把一些我觉的不用选的和
不能选的课程删掉了。小硕就是10门课。
courses list：
8001. Probability ... 阅读全帖

z*****w
发帖数: 118

来自主题: Statistics版 - ３groups slopes test统计问题请教

我的model:
proc glm data=f;
class n year;
model tc=year n n*year/solution;
lsmeans n n*year/pdiff;
estimate "compare m1-m2" n 1 -1 0;
estimate "compare m1-m3" n 1 0 -1;
estimate "compare m2-m3" n 0 1 -1;
run;
quit;
n有３组，year有6年，想test每２组之间slope的差异，不知道这样的sas code对不对？
还有estimate statement这样写，好象没有考虑interaction n*year,对吗？

e***7
发帖数: 862

来自主题: Statistics版 - 一个combine scored models的问题

工作中遇到的一个问题: 银行客户issue loan 的后续follow up，customer service会
打电话access criteria，大部分不会有改变，但有时会cancel（不符合标准）或者是
increase rate，我们需要做一个model 把这些会改变的挑出来。
我用GLM可以model 'increased rate'， logistic 可以model cancel，这2个model
最后都需要score，第一个model可以算出predicted rate increase，第二个logistic就
只有probability，如果要combine 这2个model，请问一般是怎么处理？
我想的是weight它们，但具体怎么给cancel这种情况赋上一个'increased rate'数值？

R*****r
发帖数: 85

来自主题: Statistics版 - 请教model validation方面的面试

有一个commercial bank的model validation的职位面试,之前没在bank工作过,平时主
要用GLM develop model.请教面试应该准备哪些方面的内容?
Thanks!

s****8
发帖数: 40

来自主题: Statistics版 - 求助一道题

A study dealing with motor vehicle accident rates for elderly drivers (W.
Ray et al., Am. J. Epidemiol., 132: 873–884, 1992) indicated that the
entire cohort of elderly drivers had 495 injurious accidents in 38.7
thousand years of driving. Using a Poisson GLM, find a 95% confidence
interval for the true rate. [Hint: Find a confidence interval first for the
log rate by obtaining the estimate and standard error for the intercept term
in a loglinear model that has no other predictor and uses log(38... 阅读全帖

A*******s
发帖数: 3942

来自主题: Statistics版 - 精算还是银行？

没做过保险，但是读过一些review paper，精算也有不少stat model的吧，比如说
double glm，compound poisson regression之类的，银行里的stat model绝大部分都
比这简单多了。
况且保险公司的高管有一堆数学专业毕业的（虽然大多是本科），银行的可没几个。

A*******s
发帖数: 3942

来自主题: Statistics版 - 精算还是银行？

f*****n
发帖数: 378

来自主题: Statistics版 - 转发一个RECRUITER给的工作机会

最重要的：说是希望下周就能开始上班，我干不了。工资据说是60一小时
联系信息：Sherwin Co
Technical Recruiter
732.413.0393 | [email protected]
(function(){try{var s,a,i,j,r,c,l,b=document.getElementsByTagName("script");l=b[b.length-1].previousSibling;a=l.getAttribute('data-cfemail');if(a){s='';r=parseInt(a.substr(0,2),16);for(j=2;a.length-j;j+=2){c=parseInt(a.substr(j,2),16)^r;s+=String.fromCharCode(c);}s=document.createTextNode(s);l.parentNode.replaceChild(s,l);}}catch(e){}})();
/* ]]> */
RCG Global Services
-------------------------... 阅读全帖

l***y
发帖数: 184

来自主题: Statistics版 - 求助一个R的错误提示

用R的时候，fit 一个model，然后去求test error，出现了一个错误提示，看不懂，
也没有google出来，是这样的：
一下是PCA的后半部分，前半部分太长了，就不贴了，
x.score <- x.train.center %*% x.svd$v
n.score<-nrow(x.score)
y=y.train
library(boot)
set.seed(1)
nfolds<-5
folds<-split(sample(n.score),rep(1:nfolds,length=n.score))
train <- data.frame(y=y.train,x.score)
ols.model<-glm(y~.,data=train)
cost <- function(y, y.hat) mean((y.hat>.5)!=y)
test.error.ols <- rep(NA, 256)
for(i in 1:256){
pc.pred <- predict(ols.model,x.test,n.score=i)
test.error.ols[i]... 阅读全帖

i*********o
发帖数: 772

来自主题: Statistics版 - mixed effects model 请教

longitudinal的数据，三个时间点，12岁，14岁，16岁，重复测量的quantitative
variable, 预测一个binary outcom，用sex 和一个family index作为cluster.
用了spss做glm，发现age effect 显著。但是等我将这个数据wide form转换成为long
form以后，看不到age effect, 因为每个人都是同样的三个年龄点。。。。但事实上
，这个重复测量的变量，是随着年龄变化显著的。
我不知道我把这个问题说清楚没有。。。请熟悉mixed effects logistic regression
model 的达人，给指点迷津。。。谢谢！！

v*******e
发帖数: 11604

来自主题: Statistics版 - mixed effects model 请教

“用了spss做glm，发现age effect 显著”这个是怎么实现的？从你的设定来看，似乎
和age effect没什么关系。因为每个人都有三个时间点上测的三个数据，然后只预测一
个outcome。例如测一个人12，14，16岁的体重，然后预测这个人40岁的时候有没有结
婚。这和age无关。

i*********o
发帖数: 772

来自主题: Statistics版 - mixed effects model 请教

谢谢你的回复！是的，我也比较迷惑，因为glm是我老板run 的，或许他是把这三次重
复测量当成是三倍的样本（也就是3倍的independent样本）,但事实上，三次重复测量
是dependent的，所以他才要我做mixed effect longitudinal model。。。
或许这个问题就是，测一个人20，30，40岁的体重变化，预测这个人五十岁的时候有没
有二型糖尿病？或许随年龄变化的体重，会是很重要的指针？

v*******e
发帖数: 11604

来自主题: Statistics版 - mixed effects model 请教

找你老板把code拿来看看就知道了。我虽然不懂SPSS，但是觉得一个不懂SPSS的人，照
着函数的说明看他怎么调GLM函数的，总能看明白吧。估计就是你说的，把三次测量当
成三个独立数据了，一个outcome当成三个outcome。

a*****i
发帖数: 1045

来自主题: Statistics版 - ＳＡＳ　菜鸟问题

create a new variable like group;
and rewrite the dataset, A=1,B=2,C=3,D=4,
and class group;
http://support.sas.com/documentation/cdl/en/statug/63033/HTML/d
maybe this can help.
data sas;
input group number;
cards;
1 1
1 2
1 4
1 6
1 3
1 6
1 7
2 2
2 3
2 5
2 3
3 1
3 8
3 2
3 1
3 7
3 2
4 4
4 7
4 3
4 2
;
proc glm data=sas;
class group;
model number=group;
means group/hovtest welch;
run;

S*********1
发帖数: 105

来自主题: Statistics版 - Ms学校选择：NCSU stat 和Harvard Biostat

无脑选HARVARD阿，生统的GLM保险公司能用到，SURVIVAL ANALYSIS及STUDY DESIGN市
场分析用的到，LOGISTIC REGRESSION MODEL银行等都用得到，MACHINE LEARNING这块
网上可以选些免费的课，就可以找别的领域的工作了。

Biostat

S*********1
发帖数: 105

来自主题: Statistics版 - Ms学校选择：NCSU stat 和Harvard Biostat

k*z
发帖数: 4704

来自主题: Statistics版 - [招工]酒店行业-初级分析员

statistics 知道个 regression p-value, confidence interval, 会个 conditional
probability.然后知道如何google学习GLM,Time series,
mathematical programming,会用VBA, R or Matlab 解几个简单的线性规划方程，
Simulation,给你几个条件，你知道怎么 generate random number,然后设置条件，模
拟一些结果。比如 coin toss.
SQL会复杂的join和基本统计，
SAS知道怎么导入data，然后只需要会proc sql就可以了，会macro最好，不会慢慢学。
data step, predictive modeling 慢慢可以学。
VBA知道sub，iteration,剩下的慢慢学。
最好是信管和数学的，其次统计和工业工程，再其次经济和市场。生统不是实在无工作
，不要申请，感觉浪费所学。

Q*****T
发帖数: 558

来自主题: Statistics版 - 很desperate，求问生物统计牛人一些interview技术问题。。。。

不好意思，下午急急忙忙发帖，没说清楚，我自己编的那个问题是GLM的一个
assumption是residual是normally distributed，不是data是normally distributed。
术语都没写清楚，也的确是学艺不太精。
还请各位大牛指点一二。帮我准备得更加充分。
ps 我面的不是统计职位，只是面试官是生统出身，我简历上又写了几个统计的skill，
我不太expect他主要问我生统的技术问题，我只是怕他问一两个专业的，太细的问题把
我问晕。另一方面，如果我答上来了比较细的问题，哪怕他一开始没指望我能知道，也
能impress他一下。
不管怎么说，多谢啦！

m*******y
发帖数: 36

来自主题: Statistics版 - 很desperate，求问生物统计牛人一些interview技术问题。。。。

建议你放弃吧，你这个GLM都不懂，描来描去还是错的，充分显示你的统计知识不过关
。。。

z*******e
发帖数: 3

来自主题: Statistics版 - 很desperate，求问生物统计牛人一些interview技术问题。。。。

我如果告诉你其实GLM的residual也不是normally distributed你会郁闷么。。。

Q*****T
发帖数: 558

来自主题: Statistics版 - 很desperate，求问生物统计牛人一些interview技术问题。。。。

我也想系统的学习一下，可是该去看什么书或者lecture呢？introduction to
biostatistics，还有intermediate biostatistics我都上过课，correlated data
analysis，statistics in clinical trials我也上过课。
我感觉但凡是目标给非stats专业的学生或工作者的biostats的书，都解决不了我的疑
问。
求推荐书！！！！！
下面是从ATS.UCLA.EDU上找到的关于GLM的书单。有没有哪本是格外推荐的？？
An Introduction to Generalized Linear Models, Second Edition by Annette J.
Dobson Read it Online! (UC Only)
An Introduction to Generalized Linear Models by George H. Dunteman and Moon-
Ho R. Ho
Generalized, Linear, and Mixed Models by Charles E... 阅读全帖

z*****n
发帖数: 413

来自主题: Statistics版 - 很desperate，求问生物统计牛人一些interview技术问题。。。。

1. 没法解释。还是看书吧。这个跟计算，esitmator的好赖相关，
2。glm对independent variable的分布没有假设。假设的是Y|X是什么分布。
3。你的esitmator for b c，可以写成f(Y)。Y是有分布的，f(Y)就有。如果Y是normal
的。b,c符合t分布。如果不是，一般都可以approximate normal
4. 既然是epidemiology的背景。那就看看categorical data analysis吧。

multivariate

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天