h***o 发帖数: 350 | 1 Since the design is unbalanced, will regression perform better than ANOVA? |
|
p******r 发帖数: 1279 | 2 y=a0+ a1*X1 + a2*X2
y是continuous变量
做完regression发现 residual的normality assumption test fail了。
除了对变量做transform,还能干什么呢?
如果transform了后,normality assumption test还是fail呢? 还有其他招儿吗?谢
谢!! |
|
p******r 发帖数: 1279 | 3 我发现我的Y变量本身就严重right skewed,用了log变换了,做出来normality test还
是fail。 用box-cox会好点吗?
weighted LS是不是就是robust regression啊? sas里面用什么proc呢? 谢谢!! |
|
w*r 发帖数: 204 | 4 how about robust regression? |
|
W****F 发帖数: 8235 | 5 据我所知, 银行里面大多用logistic regression, 什么时候用ordinary least
square呢? |
|
s*y 发帖数: 37 | 6 用regression建model的时候, 如果没有dependant variable的数据,如何着手?
举个例, 最开始的credit score是如何建立的? 就是现在你有一堆用户的income,
education, working experience, payment delay等等信息,没有任何历史数据来暗
示什么样的顾客有什么样的风险, 让你从无到有的去建立一个模型来估算信用风险,
该是什么一个步骤?
最核心的问题, 用这个model算出来的score, 如何去设置threshold来划分顾客的风
险等级? 是凭相关专业人士的经验来划分, 还是有严格统计意义上的方法, 比如5th
percentile以上为优良等等?
希望有经验的朋友解答一下, 谢谢。 |
|
D******n 发帖数: 2836 | 7 hmm. Didn't you know you need a dependent variable to fit a regression? |
|
s*y 发帖数: 37 | 8 我现在关心怎么得到dependent variable的data
关于model本身, 以后再找机会请教
much
how to validate and present the results takes years of training. Running
regression is not even scratching the surface. |
|
s*y 发帖数: 37 | 9 我提这个问题,
实际上是几个月前面试的一个问题,
一家finance贷款公式,
说要建立一个model来评估顾客信用风险
没有历史数据来直接regression
给你一堆customer的profile
问该怎么建立model
我当时没有答出来 |
|
A*******s 发帖数: 3942 | 10 ok... banks used underwriters for a long time until computers became popular
. at that point of time, they had already accumulated more than enough data
to build the 1st generation regression model. |
|
s*y 发帖数: 37 | 11 那当初那个面试我的是想调戏我? nnd
我当时说要用historical data来regression,
他一直强调没有default方面的historical data
只有顾客的基本profile
这么说来
我应该回答说没default data就收集data直到够用为止? |
|
P****D 发帖数: 11146 | 12 你的意思是不是说,在underwriter的时代,他们就看看客户资料,凭感觉决定给不给
人信用卡,但没有数量化的方法?
那先别管regression了,谁给说说人类历史上第一个计算credit score的方法是怎么来的?人类
历史上第一个credit score是怎么算出来的?
popular
data |
|
q**j 发帖数: 10612 | 13 请问那里可以找到比较好的介绍ridge regression的书。就是那种理论推导全部都齐全
的。另外那个ridge parameter一般如何确定呢?好像有定理证明存在一个可以improve
mse的数,但是具体如何算有没有比较成熟的算法呢?多谢大侠。 |
|
l*********s 发帖数: 5409 | 14 Regression Estimators: A Comparative Study |
|
s*****9 发帖数: 108 | 15 分开做,细节上更好操作吧,如果X2是time series的话。如果放到一起做regression,
residual的distribution的处理上会麻烦一些吧 |
|
w**********y 发帖数: 1691 | 16 想象一个三维空间.x1和x2是两个轴(它们的夹角可能不是直角).Y是三维空间的一个向量..y对x1和x2同时做
regression,就等价于,把y投影到x1和x2张成的平面上的向量,然后这个向量分别向x1,
x2做平行线..这个结构是一个平行四边形
如果分两步,就是先向x1做投影..然后用投影和y的差对x2做投影..这是垂直的,不是平
行的..这个结构是个四边形,有两个角是直角..
只有当x1和x2垂直的时候,这两种才一样..他们夹角越小,也就是correlation越大时,区
别越大. |
|
p********r 发帖数: 1465 | 17 建了两个regression模型:
y1 = alpha0 + alpha1x1
y2 = beta0 + beta1x2
如何比较alpha1 和 beta1呢?
我想的是用Wald test,不知道SAS如何实现;
也想手动用proc iml做,也不太确定如何算alpha1和beta1的variance-covariance
matrix
求高人指点迷津…… |
|
j********t 发帖数: 40 | 18 好文!
testing
sample
regression
or not, |
|
A*******s 发帖数: 3942 | 19 correct me if i were wrong. i think quantile regression is for minimizing
absolute deviation. |
|
i**e 发帖数: 57 | 20 Introduction to Linear Regression Analysis, 4th Edition. Wiley, New York
多谢了 |
|
D******n 发帖数: 2836 | 21 This thread went from logistic regression to the topic of genital organ
torture |
|
v*******a 发帖数: 1193 | 22 我也有一样的问题,
我也要做 logistic regression 但是有个Xlevel太多了 30多个
用 dummy indicator 不太现实。
老板叫我先把 X的 30多个level 先 做 cluster 分成几组,
但是没做过 不会,请大家指教。
google了一下 是不是应该用 proc tree 或者 proc cluster做?
具体怎么做 还没搞清楚,请大牛指导 |
|
s*i 发帖数: 388 | 23 我这个model是想做帖子keyword和sexual organ abuse之间的regression model. |
|
o********n 发帖数: 100 | 24 请教关于logistic regression,
是否是说对于充分统计量log(p/(1-p))构造的affine transformation,得到的基于新的
parameter z1,z2的分布,也是一个exponential family?
不明白为何非要对log(p/(1-p)),而非p的其他函数来进行回归。。。 |
|
l***o 发帖数: 5337 | 25 logistic regression 还可以理解成 neural network的一个特例。
neural network嘛,就法无成法,怎么设都有道理,就看你对domain的理解
和validation的结果了。
认为不需要validation的陈派艺术家大概不会接受logistic model。。。
新的 |
|
A*******s 发帖数: 3942 | 26 good to know thanks!!
i think the system of equation lz mentioned is like
Y1=X1*beta1+e1
Y2=X2*beta2+e2
f(Y1, Y2)=0
g(e1, e2)=0
basically there are additional equations to connect two or more regression
models. That's my understanding. |
|
d******e 发帖数: 7844 | 27 这种没玩过,不过一样可以formulate成一个L1 regularization问题。但是可能要同时
考虑两个regression model之间的权重 |
|
n******m 发帖数: 169 | 28 When you run a linear regression, the residues are assumed to be i.i.d.
but if they have non zero correlations, then the above assumption is
violated, what should you do then?
Thank you. |
|
b*****n 发帖数: 685 | 29 我倒,你的regression line咋来的?不是猜的吧。 |
|
a*********d 发帖数: 54 | 30 谢谢提点,我自己又想了想确实很矛盾,一条直线的话怎么会有多参数呢
不过我不明白一点就是,R自动生成的regression line和我要做的模型有什么区别呢? |
|
b*****n 发帖数: 685 | 31 我还以为你的多参数指的是大师的分段回归呢,土了。R自动生成的regression line也
是按照LS公式来的。 |
|
z**********i 发帖数: 12276 | 32 有个SURVEY的DATA, 10-12岁,10个国家.
LEVEL 1 VARIABLE(STUDENT):
BMI(BODY MASS INDEX, OUTCOME VARIABLE), AGE, GENDER, PHYSICAL ACTIVITY,
DIETARY
LEVEL 2 VARIABLE(COUNTRY):
INCOME, COUNTRY NAME
问题:
想体现多个(10)国家的MULTI-CULTURE,有什么常用的VARIABLE?如果用COUNTRY NAME,是
不是LEVEL 太多了? 如果用LANGUAGE,基本上每过国家都有自己的LANGUAGE. 用洲来分
呢?亚洲,美洲,非洲?
第一次用这个REGRESSION,能给些建议吗?如何考虑加入QUADRATIC TERM 或INTERACTION
TERM?或者应该读些什么文章?
多谢!! |
|
z**********i 发帖数: 12276 | 33 有个SURVEY的DATA, 10-12岁,10个国家.
LEVEL 1 VARIABLE(STUDENT):
BMI(BODY MASS INDEX, OUTCOME VARIABLE), AGE, GENDER, PHYSICAL ACTIVITY,
DIETARY
LEVEL 2 VARIABLE(COUNTRY):
INCOME, COUNTRY NAME
问题:
想体现多个(10)国家的MULTI-CULTURE,有什么常用的VARIABLE?如果用COUNTRY NAME,是
不是LEVEL 太多了? 如果用LANGUAGE,基本上每过国家都有自己的LANGUAGE. 用洲来分
呢?亚洲,美洲,非洲?
第一次用这个REGRESSION,能给些建议吗?如何考虑加入QUADRATIC TERM 或INTERACTION
TERM?或者应该读些什么文章?
多谢!! |
|
q**j 发帖数: 10612 | 34 简单regress 的解是
b =(X'X)^(-1) X'y。
如果把X和Y都分成对应的两块就有
b_1 = (X1'X1)^(-1) X1'Y1
b_2 = (X2'X2)^(-1) X2'Y2
请问这个b1,b2和b是怎么联系到一起的? |
|
F******n 发帖数: 160 | 35 In that case, it is not a trivial problem, but it could be done by applying
the incremental SVD algorithm.
This efficient/adaptive algorithm was originally given by a guy (Matthew)
from Mitsubishi research lab. You can easily google that paper.
The main point relevant to the LS regression:
b = (X'X)^(-1) (X'y) (1)
is that, matrix inversion (X'X)^(-1) is essentially an SVD problem. As your
new data come in, you should sort of have an updated X and y, and
consequently an updated X'X. In abov... 阅读全帖 |
|
g********r 发帖数: 8017 | 36 好奇问一问:logistic regression里面,small step forward还是跟lasso等价的么?
如果是的话是不是不难写,就是慢。 |
|
p******k 发帖数: 23 | 37 logistic loss不是quadratic, 也不是piecewise linear. 根据 prof. Ji Zhu的文章
,它的solution path不是piecewise linear的,应该是非线性的。 原则上讲和Least
Angel Regression 是不一样. 但是我们总是可以用local quadratic去逼近 logistic.
所以还是可以用small step forward很好逼进的 |
|
s**5 发帖数: 68 | 38 问个问题,如果在case-control study中用logistic regression,logit(Pr) 中的
Probability(Pr)是什么的probability? 我的理解是Pr(D=1|X,Z=1) which Z=1mans
this subject is sampled. 然后如果用contigency table 表示,Pr(D=1|X,Z=1) can
be estimated as Nd=1/(Nd=1+Nd=0) in each row (each setting of x) 我的理解对
吗?谢谢! |
|
s******y 发帖数: 64 | 39 用SAS跑exact logistic regression时, 只能condition on一部分参数, 才能estimate
其它的参数; 这样建起来的model不就不完整了吗? 因为总有至少一个参数无解.
请问这样的model能用来predict probability吗? |
|
S******y 发帖数: 1123 | 40 I have finally got Hadoop working on my Linux box. Next I would like to try
to see if I could to parallel model estimation for some commonly used models
such as logistic regression.
My question now is - how to paralell gradient descent for logistic model
estimation for real large data set?
Any thoughts would be greatly appreciated. Thanks in advance!
PS. See R code below. If needed, I could rewrite the following code in Java
or Python. But the question is how to decompose the following estimatio... 阅读全帖 |
|
s*********e 发帖数: 1051 | 41 agree with oloolo
regression-type model is not a good candidate for parallel processing. |
|
d******e 发帖数: 7844 | 42 你落伍了。
我们现在做的并行算法可以在clustering上用几十几百GB的数据做regression。 |
|
d******e 发帖数: 7844 | 43 算法当然是已有的,我们自己改进的,解个regression不过是小case而已
现在搞大规模并行、分布式优化的人不要太多哦,你自己搜一搜能找到一大把。 |
|
y******g 发帖数: 15 | 44 就是散点图,用直线连接起来,并且有regression的线。请问怎么画啊?搜了网上居
然没找到!新手,太弱啦,求大牛点拨。十分感谢!! |
|
S****Y 发帖数: 4634 | 45 问一下,怎么样用SAS或者STATA estimate logistic regression,
with clustered standard error in two dimensions.
谢谢! |
|
c**i 发帖数: 234 | 46 对于logistic regression
log(pi/1-pi)=b0+b1x1+b2x2
我现在已知independent variables和response variable{log(pi/1-pi)}
我要怎么做才能把参数b0,b1,b2 fit出来?非常感谢 |
|
c**i 发帖数: 234 | 47 感谢楼上的,看来我没说清楚。我的问题是现在已经有log(pi/1-pi),并且是一个连
续分布的变量,看图形比较像gamma distribution的样子,我想问我有了log(pi/1-pi
),并且知道x1和x2,现在想要估计参数b0,b1,b2,该如何估计?是直接用linear
regression么?如果是的话glm()里面那个family是不是要设置成gamma?谢谢 |
|
c**i 发帖数: 234 | 48 感谢楼上的各位,pi是probability of success。
正常的logistic regression 是log(pi/1-pi)=b0+b1x1+b2x2
所以pi=exp(b0+b1x1+b2x2)
但是这个model需要数各种组合下success或者fail的#,我没有这个#
我现在有其他人用上面的model fit 的 pi,并且我能确定x1,x2,我现在是想说看看他
用的model里的b0,b1,和b2是什么 |
|
B******5 发帖数: 4676 | 49 那就直接用普通的linear regression不就行了? |
|
h******n 发帖数: 1838 | 50 楼上说的基本明白了,不过你提到cumulative login的次数每个人只有一个值我还是不
太懂,我不可能在课程刚开始3天的时候就知道学生从开始到课程结束总共会login几次
啊。公司要做的是每天都根据现有的数据预测学生最后会不会fail,如果只需要在第10
天,或第20天预测,那直接用cumulative login times up to day 10 or day20,就是
最简单的logistic regression了。
至于把每天login与否变成bivariate,我再考虑看看,这样的话会lose一些信息,比如
学生是否持之以恒地login之类:)你说的pattern很有意思,我也再想想看。
不知道说明白没有,双簧包已发,谢谢! |
|