万佛，问个统计问题 - PhotoGear版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

PhotoGear版 - 万佛，问个统计问题

相关主题
● 求推荐一本统计的书	● 借人气问个dslr照片导入iphone的问题
● 问个pentax镜头的问题	● 把DSLR镜头中的图像实时传到电脑显示器上
● 问个DSLR的菜鸟问题	● Olympus E-450怎么样？
● 问个弱弱的问题，怎么把C+的flash用到S+机身上	● 包子答谢新手选机和镜头
● 万能的gear版,问个相机的事	● S的全副没影儿了
● 问个难度很大的问题	● Sony Alpha A77 says goodbye to DSLRs
● 问个非专业问题，收到的相机包装	● nikon革命机？
● 问个下载的问题：sopa能监控ftp下载内容么？	● Need your kindly advice.

相关话题的讨论汇总
话题: regression话题: 变量话题: logistic话题: 消费者

进入PhotoGear版参与讨论

(共1页)

d*********u
发帖数: 8521

假设在某DSLR市场里，80%的消费者选择A相机，12%选择B相机，8%选择C相机。
所有消费者的各个变量已知，包括性别，年龄，种族，婚否，教育水平，工资收入（连
续变量）等。
如何选择正确方法分析三类消费者某些变量之间是否有显著差异？
做方差分析？不同消费者的case数量差别巨大，且不能满足正态分布与方差齐次……
三组数据之间对不同变量两两做卡方检验？
多元逻辑回归，设定80%的A消费者为参照组，比较B和C的不同？
老猫介绍了个Propensity Score Matching方法，应该挺适合，不过一来现学估计来不
及，二来不考虑这些消费者是DSLR消费者所以肯定和其他人不同，不符合大数法则啥的
，就以这些人为全体，来分析三个类别之间某些变量是否有显著区别，怎么做？
多谢！

b********6
发帖数: 35437

跳

d*********u
发帖数: 8521

这不是坑……
严肃的学术问题！

b****r
发帖数: 17995

这个做linear regression拟合啊

d*********u
发帖数: 8521

dependent variable?
independent variables?

【在 b****r 的大作中提到】

: 这个做linear regression拟合啊

n*********n
发帖数: 5605

我觉得:
不妨先只考虑 C+，N+两种相机
可以用 Logistic Regression
然后那些Covariates (e.g. 性别，年龄，高富帅，etc)
都可以test看是不是significant
然后以Odds Ratio来interpret;
现在有 C+，N+，S+三种相机
自然可以用
Multiple Logistic Regression
要是还有P+, O+
也可以一样Handle

d*********u
发帖数: 8521

恩，我原来的做法是，logit regression 比较A和非A用户，用odds ratio来解释
现在要把非A用户细化为B和C的话，打算是做multiple regression，但是想知道有没有
其他方法更好一些

n*********n
发帖数: 5605

楼主不好意思说错了
推广形式的logistic regression应该叫
Multinomial logistic regression
（自从学了从来没用过）
高富帅对应参数就能interprete成
A/C的Odds Ratio
和
B/C的Odds Ratio

d*********u
发帖数: 8521

哎，我连二元逻辑回归都是自己瞎做的……

【在 n*********n 的大作中提到】

: 楼主不好意思说错了
: 推广形式的logistic regression应该叫
: Multinomial logistic regression
: （自从学了从来没用过）
: 高富帅对应参数就能interprete成
: A/C的Odds Ratio
: 和
: B/C的Odds Ratio

n*********n
发帖数: 5605

有Example/Tutorial:
http://www.ats.ucla.edu/stat/r/dae/mlogit.htm

相关主题
● 问个难度很大的问题	● 借人气问个dslr照片导入iphone的问题
● 问个非专业问题，收到的相机包装	● 把DSLR镜头中的图像实时传到电脑显示器上
● 问个下载的问题：sopa能监控ftp下载内容么？	● Olympus E-450怎么样？
进入PhotoGear版参与讨论

b****r
发帖数: 17995

那些年龄，收入啥的变量，你觉得他们互相dependent或者independent，都有办法说出
道理啊
看类似论文大家比较通用的方法吧

【在 d*********u 的大作中提到】

: dependent variable?
: independent variables?

m*******o
发帖数: 4236

这种GROUP MEMBERSHIP的统计研究方法很多，做起来也不太难。
但是你列的这些PREDICTOR未必有又显著性的INFLUENCE，即便有结果的解释也相当不易
，任何推断统计方法的ASSUMPTION都是很多的，达不达的到是个大问题，能否有CAUSAL
RELATIONSHIP就更是个疑问了。
没法严格设计实验的人的行为的统计研究其实是很难搞，做生物或者工程统计就好多了。

d*********u
发帖数: 8521

多谢，当初上统计时候教授就推荐过UCLA的这个页面……俺好好学习去……
PS，原来你是用R的啊……

【在 n*********n 的大作中提到】

: 有Example/Tutorial:
: http://www.ats.ucla.edu/stat/r/dae/mlogit.htm

n*******m
发帖数: 101

propensity score matching是解决treatment的self-selection bias的，就是说你选
择吃不吃药和你的疗效是有关联的，和买相机有啥关系？
这就是classification的问题，machine learning里很多方法, 统计里multinomial
regression。
你有data吗？

【在 d*********u 的大作中提到】

: 假设在某DSLR市场里，80%的消费者选择A相机，12%选择B相机，8%选择C相机。
: 所有消费者的各个变量已知，包括性别，年龄，种族，婚否，教育水平，工资收入（连
: 续变量）等。
: 如何选择正确方法分析三类消费者某些变量之间是否有显著差异？
: 做方差分析？不同消费者的case数量差别巨大，且不能满足正态分布与方差齐次……
: 三组数据之间对不同变量两两做卡方检验？
: 多元逻辑回归，设定80%的A消费者为参照组，比较B和C的不同？
: 老猫介绍了个Propensity Score Matching方法，应该挺适合，不过一来现学估计来不
: 及，二来不考虑这些消费者是DSLR消费者所以肯定和其他人不同，不符合大数法则啥的
: ，就以这些人为全体，来分析三个类别之间某些变量是否有显著区别，怎么做？

d*********u
发帖数: 8521

恩，有data，20K+的case，比例就是我说的比例，变量10+ 大部分为dumb variable，
有几个连续变量

【在 n*******m 的大作中提到】

: propensity score matching是解决treatment的self-selection bias的，就是说你选
: 择吃不吃药和你的疗效是有关联的，和买相机有啥关系？
: 这就是classification的问题，machine learning里很多方法, 统计里multinomial
: regression。
: 你有data吗？

d*********u
发帖数: 8521

你一说俺有点明白了，我这统计就是二把刀，很多时候知其然不知其所以然，模型拿来
套用，原理却不求甚解……

【在 n*******m 的大作中提到】

n*******m
发帖数: 101

这个数据量足够了，不用太担心是不是正态分布的问题，都渐进了。先看看有多少
missing value，然后检查一下你的变量是不是太skew，是的话log transform一下。然
后上multinomial regression, 个人认为比multnomial logistic regression好解释。
用stata比较方便。
其实你也可以考虑用MANOVA，又叫做discriminant function analysis。

【在 d*********u 的大作中提到】

: 恩，有data，20K+的case，比例就是我说的比例，变量10+ 大部分为dumb variable，
: 有几个连续变量

n*******m
发帖数: 101

大家都是这样，现学现用，慢慢就会了。

【在 d*********u 的大作中提到】

: 你一说俺有点明白了，我这统计就是二把刀，很多时候知其然不知其所以然，模型拿来
: 套用，原理却不求甚解……

d*********u
发帖数: 8521

我还是有点不太明白的是：用multinomial regression的话，dependent variable是什
么呢？multinomial logistical regression的dependent variable好理解，就是组别1
,2,3; multinomial regression 用啥？
变量skew也还好，不是很变态，我做二元logit regression的时候比较过log前后结果
，基本没有什么区别。
MANOVA和ANOVA原来就没学好，不太想用……哎

【在 n*******m 的大作中提到】

: 这个数据量足够了，不用太担心是不是正态分布的问题，都渐进了。先看看有多少
: missing value，然后检查一下你的变量是不是太skew，是的话log transform一下。然
: 后上multinomial regression, 个人认为比multnomial logistic regression好解释。
: 用stata比较方便。
: 其实你也可以考虑用MANOVA，又叫做discriminant function analysis。

n*******m
发帖数: 101

multinomial regression的dv也是1,2,3，只不过link function是normal
distribution的cdf，multinomial logistic regression的link是logit。stata里应该
可以选用哪一个。我记得在解释coefficient时，normal比logit方便。
http://www.ats.ucla.edu/stat/dae/
这里有multinomial logistic regression和manova的例子，我没找到multinomial
regression的例子。要不你就用logit吧。
一般来说log transform的作用是扩大iv的值域，这样你的估计的置信区间会比较窄，
更精确。你看看每个参数估计的方差有变化吗？
其实multinomial regression和manova用哪一个还是取决于你关心的问题，就好比
linear regression和anova是一回事，但是侧重点不同。这个几句话解释不清，我也很
久没用manova了，得翻翻书先，呵呵。
有个问题：你的数据是随机抽样的吗？这里可能会有bias啊。

别1

【在 d*********u 的大作中提到】

: 我还是有点不太明白的是：用multinomial regression的话，dependent variable是什
: 么呢？multinomial logistical regression的dependent variable好理解，就是组别1
: ,2,3; multinomial regression 用啥？
: 变量skew也还好，不是很变态，我做二元logit regression的时候比较过log前后结果
: ，基本没有什么区别。
: MANOVA和ANOVA原来就没学好，不太想用……哎

相关主题
● 包子答谢新手选机和镜头	● nikon革命机？
● S的全副没影儿了	● Need your kindly advice.
● Sony Alpha A77 says goodbye to DSLRs	● Canon T4i + 18-55的头现在多少钱下手比较值得
进入PhotoGear版参与讨论

G**Y
发帖数: 33224

一对一对的比。
你有多少人呀。

【在 d*********u 的大作中提到】

d*********u
发帖数: 8521

不是抽样数据，算population数据了，比如某一州所有的DSLR消费者数据。

【在 n*******m 的大作中提到】

: multinomial regression的dv也是1,2,3，只不过link function是normal
: distribution的cdf，multinomial logistic regression的link是logit。stata里应该
: 可以选用哪一个。我记得在解释coefficient时，normal比logit方便。
: http://www.ats.ucla.edu/stat/dae/
: 这里有multinomial logistic regression和manova的例子，我没找到multinomial
: regression的例子。要不你就用logit吧。
: 一般来说log transform的作用是扩大iv的值域，这样你的估计的置信区间会比较窄，
: 更精确。你看看每个参数估计的方差有变化吗？
: 其实multinomial regression和manova用哪一个还是取决于你关心的问题，就好比
: linear regression和anova是一回事，但是侧重点不同。这个几句话解释不清，我也很

d*********u
发帖数: 8521

这个不太现实，因为一对一的match方法比较难做，GIS可能是比较好的方法，但是这个
涉及到一定区域的竞争程度，我暂时不考虑这些因素，一是技术手段的问题，一是数据
availability的问题

【在 G**Y 的大作中提到】

: 一对一对的比。
: 你有多少人呀。

G**Y
发帖数: 33224

我是说C家跟N家比，再跟另一家比。
logistic regression搞定。

【在 d*********u 的大作中提到】

: 这个不太现实，因为一对一的match方法比较难做，GIS可能是比较好的方法，但是这个
: 涉及到一定区域的竞争程度，我暂时不考虑这些因素，一是技术手段的问题，一是数据
: availability的问题

d*********u
发帖数: 8521

恩，也可以试试，到时候看看和直接做多元回归有没有区别……

【在 G**Y 的大作中提到】

: 我是说C家跟N家比，再跟另一家比。
: logistic regression搞定。

T****n
发帖数: 6187

挺典型的discrete choice题目
用multinomial logit就可以了
stata或者R的教程youtube上都有，比如这个
http://www.youtube.com/watch?v=F1Zj7W_z8yk

【在 d*********u 的大作中提到】

w********3
发帖数: 1503

我想知道你是从哪儿搞到的数据。。。

【在 d*********u 的大作中提到】

: 恩，有data，20K+的case，比例就是我说的比例，变量10+ 大部分为dumb variable，
: 有几个连续变量

(共1页)

进入PhotoGear版参与讨论

相关主题
● Need your kindly advice.	● 万能的gear版,问个相机的事
● Canon T4i + 18-55的头现在多少钱下手比较值得	● 问个难度很大的问题
● NIKON D5200 可以出手了吗？	● 问个非专业问题，收到的相机包装
● 革命机市场果然在萎缩啊	● 问个下载的问题：sopa能监控ftp下载内容么？
● 求推荐一本统计的书	● 借人气问个dslr照片导入iphone的问题
● 问个pentax镜头的问题	● 把DSLR镜头中的图像实时传到电脑显示器上
● 问个DSLR的菜鸟问题	● Olympus E-450怎么样？
● 问个弱弱的问题，怎么把C+的flash用到S+机身上	● 包子答谢新手选机和镜头

相关话题的讨论汇总
话题: regression话题: 变量话题: logistic话题: 消费者

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天