d*********u 发帖数: 8521 | 1 假设在某DSLR市场里,80%的消费者选择A相机,12%选择B相机,8%选择C相机。
所有消费者的各个变量已知,包括性别,年龄,种族,婚否,教育水平,工资收入(连
续变量)等。
如何选择正确方法分析三类消费者某些变量之间是否有显著差异?
做方差分析?不同消费者的case数量差别巨大,且不能满足正态分布与方差齐次……
三组数据之间对不同变量两两做卡方检验?
多元逻辑回归,设定80%的A消费者为参照组,比较B和C的不同?
老猫介绍了个Propensity Score Matching方法,应该挺适合,不过一来现学估计来不
及,二来不考虑这些消费者是DSLR消费者所以肯定和其他人不同,不符合大数法则啥的
,就以这些人为全体,来分析三个类别之间某些变量是否有显著区别,怎么做?
多谢! |
b********6 发帖数: 35437 | |
d*********u 发帖数: 8521 | |
b****r 发帖数: 17995 | 4 这个 做linear regression拟合啊 |
d*********u 发帖数: 8521 | 5 dependent variable?
independent variables?
【在 b****r 的大作中提到】 : 这个 做linear regression拟合啊
|
n*********n 发帖数: 5605 | 6 我觉得:
不妨先只考虑 C+,N+两种相机
可以用 Logistic Regression
然后 那些Covariates (e.g. 性别,年龄,高富帅,etc)
都可以test看是不是significant
然后以Odds Ratio来interpret;
现在有 C+,N+,S+三种相机
自然可以用
Multiple Logistic Regression
要是还有P+, O+
也可以一样Handle |
d*********u 发帖数: 8521 | 7 恩,我原来的做法是,logit regression 比较A和非A用户,用odds ratio来解释
现在要把非A用户细化为B和C的话,打算是做multiple regression,但是想知道有没有
其他方法更好一些 |
n*********n 发帖数: 5605 | 8 楼主不好意思 说错了
推广形式的logistic regression应该叫
Multinomial logistic regression
(自从学了从来没用过)
高富帅对应参数就能interprete成
A/C的Odds Ratio
和
B/C的Odds Ratio |
d*********u 发帖数: 8521 | 9 哎,我连二元逻辑回归都是自己瞎做的……
【在 n*********n 的大作中提到】 : 楼主不好意思 说错了 : 推广形式的logistic regression应该叫 : Multinomial logistic regression : (自从学了从来没用过) : 高富帅对应参数就能interprete成 : A/C的Odds Ratio : 和 : B/C的Odds Ratio
|
n*********n 发帖数: 5605 | |
|
|
b****r 发帖数: 17995 | 11 那些年龄,收入啥的变量,你觉得他们互相dependent或者independent,都有办法说出
道理啊
看类似论文大家比较通用的方法吧
【在 d*********u 的大作中提到】 : dependent variable? : independent variables?
|
m*******o 发帖数: 4236 | 12 这种GROUP MEMBERSHIP的统计研究方法很多,做起来也不太难。
但是你列的这些PREDICTOR未必有又显著性的INFLUENCE,即便有结果的解释也相当不易
,任何推断统计方法的ASSUMPTION都是很多的,达不达的到是个大问题,能否有CAUSAL
RELATIONSHIP就更是个疑问了。
没法严格设计实验的人的行为的统计研究其实是很难搞,做生物或者工程统计就好多了。 |
d*********u 发帖数: 8521 | 13 多谢,当初上统计时候教授就推荐过UCLA的这个页面……俺好好学习去……
PS,原来你是用R的啊……
【在 n*********n 的大作中提到】 : 有Example/Tutorial: : http://www.ats.ucla.edu/stat/r/dae/mlogit.htm
|
n*******m 发帖数: 101 | 14 propensity score matching是解决treatment的self-selection bias的,就是说你选
择吃不吃药和你的疗效是有关联的,和买相机有啥关系?
这就是classification的问题,machine learning里很多方法, 统计里multinomial
regression。
你有data吗?
【在 d*********u 的大作中提到】 : 假设在某DSLR市场里,80%的消费者选择A相机,12%选择B相机,8%选择C相机。 : 所有消费者的各个变量已知,包括性别,年龄,种族,婚否,教育水平,工资收入(连 : 续变量)等。 : 如何选择正确方法分析三类消费者某些变量之间是否有显著差异? : 做方差分析?不同消费者的case数量差别巨大,且不能满足正态分布与方差齐次…… : 三组数据之间对不同变量两两做卡方检验? : 多元逻辑回归,设定80%的A消费者为参照组,比较B和C的不同? : 老猫介绍了个Propensity Score Matching方法,应该挺适合,不过一来现学估计来不 : 及,二来不考虑这些消费者是DSLR消费者所以肯定和其他人不同,不符合大数法则啥的 : ,就以这些人为全体,来分析三个类别之间某些变量是否有显著区别,怎么做?
|
d*********u 发帖数: 8521 | 15 恩,有data,20K+的case,比例就是我说的比例,变量10+ 大部分为dumb variable,
有几个连续变量
【在 n*******m 的大作中提到】 : propensity score matching是解决treatment的self-selection bias的,就是说你选 : 择吃不吃药和你的疗效是有关联的,和买相机有啥关系? : 这就是classification的问题,machine learning里很多方法, 统计里multinomial : regression。 : 你有data吗?
|
d*********u 发帖数: 8521 | 16 你一说俺有点明白了,我这统计就是二把刀,很多时候知其然不知其所以然,模型拿来
套用,原理却不求甚解……
【在 n*******m 的大作中提到】 : propensity score matching是解决treatment的self-selection bias的,就是说你选 : 择吃不吃药和你的疗效是有关联的,和买相机有啥关系? : 这就是classification的问题,machine learning里很多方法, 统计里multinomial : regression。 : 你有data吗?
|
n*******m 发帖数: 101 | 17 这个数据量足够了,不用太担心是不是正态分布的问题,都渐进了。先看看有多少
missing value,然后检查一下你的变量是不是太skew,是的话log transform一下。然
后上multinomial regression, 个人认为比multnomial logistic regression好解释。
用stata比较方便。
其实你也可以考虑用MANOVA,又叫做discriminant function analysis。
【在 d*********u 的大作中提到】 : 恩,有data,20K+的case,比例就是我说的比例,变量10+ 大部分为dumb variable, : 有几个连续变量
|
n*******m 发帖数: 101 | 18 大家都是这样,现学现用,慢慢就会了。
【在 d*********u 的大作中提到】 : 你一说俺有点明白了,我这统计就是二把刀,很多时候知其然不知其所以然,模型拿来 : 套用,原理却不求甚解……
|
d*********u 发帖数: 8521 | 19 我还是有点不太明白的是:用multinomial regression的话,dependent variable是什
么呢?multinomial logistical regression的dependent variable好理解,就是组别1
,2,3; multinomial regression 用啥?
变量skew也还好,不是很变态,我做二元logit regression的时候比较过log前后结果
,基本没有什么区别。
MANOVA和ANOVA原来就没学好,不太想用……哎
【在 n*******m 的大作中提到】 : 这个数据量足够了,不用太担心是不是正态分布的问题,都渐进了。先看看有多少 : missing value,然后检查一下你的变量是不是太skew,是的话log transform一下。然 : 后上multinomial regression, 个人认为比multnomial logistic regression好解释。 : 用stata比较方便。 : 其实你也可以考虑用MANOVA,又叫做discriminant function analysis。
|
n*******m 发帖数: 101 | 20 multinomial regression的dv也是1,2,3,只不过link function是normal
distribution的cdf,multinomial logistic regression的link是logit。stata里应该
可以选用哪一个。我记得在解释coefficient时,normal比logit方便。
http://www.ats.ucla.edu/stat/dae/
这里有multinomial logistic regression和manova的例子,我没找到multinomial
regression的例子。要不你就用logit吧。
一般来说log transform的作用是扩大iv的值域,这样你的估计的置信区间会比较窄,
更精确。你看看每个参数估计的方差有变化吗?
其实multinomial regression和manova用哪一个还是取决于你关心的问题,就好比
linear regression和anova是一回事,但是侧重点不同。这个几句话解释不清,我也很
久没用manova了,得翻翻书先,呵呵。
有个问题:你的数据是随机抽样的吗?这里可能会有bias啊。
别1
【在 d*********u 的大作中提到】 : 我还是有点不太明白的是:用multinomial regression的话,dependent variable是什 : 么呢?multinomial logistical regression的dependent variable好理解,就是组别1 : ,2,3; multinomial regression 用啥? : 变量skew也还好,不是很变态,我做二元logit regression的时候比较过log前后结果 : ,基本没有什么区别。 : MANOVA和ANOVA原来就没学好,不太想用……哎
|
|
|
G**Y 发帖数: 33224 | 21 一对一对的比。
你有多少人呀。
【在 d*********u 的大作中提到】 : 假设在某DSLR市场里,80%的消费者选择A相机,12%选择B相机,8%选择C相机。 : 所有消费者的各个变量已知,包括性别,年龄,种族,婚否,教育水平,工资收入(连 : 续变量)等。 : 如何选择正确方法分析三类消费者某些变量之间是否有显著差异? : 做方差分析?不同消费者的case数量差别巨大,且不能满足正态分布与方差齐次…… : 三组数据之间对不同变量两两做卡方检验? : 多元逻辑回归,设定80%的A消费者为参照组,比较B和C的不同? : 老猫介绍了个Propensity Score Matching方法,应该挺适合,不过一来现学估计来不 : 及,二来不考虑这些消费者是DSLR消费者所以肯定和其他人不同,不符合大数法则啥的 : ,就以这些人为全体,来分析三个类别之间某些变量是否有显著区别,怎么做?
|
d*********u 发帖数: 8521 | 22 不是抽样数据,算population数据了,比如某一州所有的DSLR消费者数据。
【在 n*******m 的大作中提到】 : multinomial regression的dv也是1,2,3,只不过link function是normal : distribution的cdf,multinomial logistic regression的link是logit。stata里应该 : 可以选用哪一个。我记得在解释coefficient时,normal比logit方便。 : http://www.ats.ucla.edu/stat/dae/ : 这里有multinomial logistic regression和manova的例子,我没找到multinomial : regression的例子。要不你就用logit吧。 : 一般来说log transform的作用是扩大iv的值域,这样你的估计的置信区间会比较窄, : 更精确。你看看每个参数估计的方差有变化吗? : 其实multinomial regression和manova用哪一个还是取决于你关心的问题,就好比 : linear regression和anova是一回事,但是侧重点不同。这个几句话解释不清,我也很
|
d*********u 发帖数: 8521 | 23 这个不太现实,因为一对一的match方法比较难做,GIS可能是比较好的方法,但是这个
涉及到一定区域的竞争程度,我暂时不考虑这些因素,一是技术手段的问题,一是数据
availability的问题
【在 G**Y 的大作中提到】 : 一对一对的比。 : 你有多少人呀。
|
G**Y 发帖数: 33224 | 24 我是说C家跟N家比,再跟另一家比。
logistic regression搞定。
【在 d*********u 的大作中提到】 : 这个不太现实,因为一对一的match方法比较难做,GIS可能是比较好的方法,但是这个 : 涉及到一定区域的竞争程度,我暂时不考虑这些因素,一是技术手段的问题,一是数据 : availability的问题
|
d*********u 发帖数: 8521 | 25 恩,也可以试试,到时候看看和直接做多元回归有没有区别……
【在 G**Y 的大作中提到】 : 我是说C家跟N家比,再跟另一家比。 : logistic regression搞定。
|
T****n 发帖数: 6187 | 26 挺典型的discrete choice题目
用multinomial logit就可以了
stata或者R的教程youtube上都有,比如这个
http://www.youtube.com/watch?v=F1Zj7W_z8yk
【在 d*********u 的大作中提到】 : 假设在某DSLR市场里,80%的消费者选择A相机,12%选择B相机,8%选择C相机。 : 所有消费者的各个变量已知,包括性别,年龄,种族,婚否,教育水平,工资收入(连 : 续变量)等。 : 如何选择正确方法分析三类消费者某些变量之间是否有显著差异? : 做方差分析?不同消费者的case数量差别巨大,且不能满足正态分布与方差齐次…… : 三组数据之间对不同变量两两做卡方检验? : 多元逻辑回归,设定80%的A消费者为参照组,比较B和C的不同? : 老猫介绍了个Propensity Score Matching方法,应该挺适合,不过一来现学估计来不 : 及,二来不考虑这些消费者是DSLR消费者所以肯定和其他人不同,不符合大数法则啥的 : ,就以这些人为全体,来分析三个类别之间某些变量是否有显著区别,怎么做?
|
w********3 发帖数: 1503 | 27 我想知道你是从哪儿搞到的数据。。。
【在 d*********u 的大作中提到】 : 恩,有data,20K+的case,比例就是我说的比例,变量10+ 大部分为dumb variable, : 有几个连续变量
|