由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 问个Chi-Square和T-test的问题
相关主题
问个简单的p-value问题请问大牛:在chi square test里,怎么看待大样本数的好处?
ORDINAL的变量到底当作连续型的好,还是离散型的好么?菜鸟请问ANOVA问题
请教:用SAS的哪个proc比较两组数据的proportion?请教一个MIXED MODEL的问题
关于卡方拟合度检验 chi-square goodness of fitchi-square test问题
请教个基本的统计问题问个SAS 数据处理问题
大包子,求教一道sas的p value.....着急啊 。。。。。。。问个logistic regression的问题。
这种情况下怎么做chisq test 和 anovaSAS ANOVA output中的Least Squares Means是怎么算出来的
[合集] 请教一个统计问题R square接近零是怎么回事
相关话题的讨论汇总
话题: 比率话题: 全职话题: square话题: chi话题: 两组
进入Statistics版参与讨论
1 (共1页)
R*****d
发帖数: 620
1
有两组参加fitness的人:中年与青年。
1)对比两组人的职业状况:全职,半职,失业者,学生。(单一选项)
预计青年中全职者参加健身的比率要高于中年中全职者的比率;中年健身者中半职者的
比率高于青年中半职者的比率。(各种职业状况的比率在两组人种都要比较一下)
2)怎样找到健身中心的:社交媒体,朋友介绍,健身老师,张贴广告,。。共8-10项。
假设青年中使用社交媒体找到健身中心的比率高于中年者的比率。其余各种方式也都需
要比较。
这样的情况是Chi-Square, Independent T-test 还是用one-way ANOVA比较好,然后用
post hoc 比较frequency,看是否达到了statistic significance. 选项很多,但只有
两组人。
谢谢!
H**********f
发帖数: 2978
2
binomial/multinomial count数据,比较两组的频率应该用chisq test或者fisher
exact。t test和anova适用于连续型数据,跟这不搭嘎
R*****d
发帖数: 620
3
谢谢回答。
我先用了 crosstab chi-square, 但chisq只给一个总和的significance, 不区分每组
里category的frequency 是否大到统计上的区别(statistic significane, p<.05,
etc.)
比如chisq只说明青年和中年总体上职业比率的不同,但不能说明是全职方面的比率不
同,还是半职比例的不同,并且是否大到统计意义上的不同。
两组人在同一个变量下:employment status, 然后两组人选择不同的回答:全职,半职
,失业者。。。。不知道是否需要先select cases 用spss, 然后用chiqs.
谢谢!

【在 H**********f 的大作中提到】
: binomial/multinomial count数据,比较两组的频率应该用chisq test或者fisher
: exact。t test和anova适用于连续型数据,跟这不搭嘎

H**********f
发帖数: 2978
4
可以针对每一个职业类型做检验,比如全职,那就把除了全职的其他类型当做一类,数
据pool到一起,做全职vs非全职检验得到p值。然后对其他职业都同样做一遍。最后多
个p值做多重检验校正
R*****d
发帖数: 620
5
谢谢回答!
并非是要做全职vs非全职的检验。
主要想了解同类职业状况在不同人群中比例的差异。比如在同一个健身房里青年人中40
%有全职工作,而中年健身者中全职工作的只有18%,想得出这两者的比例差异达到了
statistically significant different的结论. 在同一健身房里观察了3年,每年这两
组人的职业比例差异都大到significantly different,所以想得出结论说年轻人中有
全职工作的健身者比中年人的比率高。
用同样的方法也可以作年轻人比中年人更多通过social media找到健身房。这样的情况
可以用select cases, 然后把同是全职的两组年龄的人进行比较,看proportation大的
程度,这样可以吗?
谢谢!

【在 H**********f 的大作中提到】
: 可以针对每一个职业类型做检验,比如全职,那就把除了全职的其他类型当做一类,数
: 据pool到一起,做全职vs非全职检验得到p值。然后对其他职业都同样做一遍。最后多
: 个p值做多重检验校正

R*****d
发帖数: 620
6
自己顶一下吧,希望有人能帮我回答以下。
谢谢。

40

【在 R*****d 的大作中提到】
: 谢谢回答!
: 并非是要做全职vs非全职的检验。
: 主要想了解同类职业状况在不同人群中比例的差异。比如在同一个健身房里青年人中40
: %有全职工作,而中年健身者中全职工作的只有18%,想得出这两者的比例差异达到了
: statistically significant different的结论. 在同一健身房里观察了3年,每年这两
: 组人的职业比例差异都大到significantly different,所以想得出结论说年轻人中有
: 全职工作的健身者比中年人的比率高。
: 用同样的方法也可以作年轻人比中年人更多通过social media找到健身房。这样的情况
: 可以用select cases, 然后把同是全职的两组年龄的人进行比较,看proportation大的
: 程度,这样可以吗?

m*****n
发帖数: 3575
7
比较各组平均值是否有显著性差异
就是ANOVA
一个经典问题是班上男生的身高是不是平均比女生高
和你的应用场景接近吧?

【在 R*****d 的大作中提到】
: 自己顶一下吧,希望有人能帮我回答以下。
: 谢谢。
:
: 40

R*****d
发帖数: 620
8
谢谢回答:)
和我说的场景不太接近。身高是连续数值(continuous data),和职业身份(
employment status)是categorical data,所以我觉得用chi-square 应该比较好。

【在 m*****n 的大作中提到】
: 比较各组平均值是否有显著性差异
: 就是ANOVA
: 一个经典问题是班上男生的身高是不是平均比女生高
: 和你的应用场景接近吧?

B******y
发帖数: 9065
9

40
你其实应该首先说明你的零假设是什么,就省得别人一开始在ANOVA或是卡方检验纠缠
了。
根据你的描述,你希望的是比较比例的差异,所以卡方检验应该是首选。因为你划分的
类别太细,有可能得用Fisher Exact Test来取代卡方检验。
不过,这些讨论只限于教科书上的范围;也就是虽说理论上你可以这么做,但在实践中
却未必可取。一个明显的例子是LS建议是全职vs非全职的检验,非常合理,而你却还想
细化。通常上2X2 Contingency Table用卡方或Fisher Exact Test,可以延伸到CXR(C
,R>2),但最好不要分类太多,一般3或4就可以了。像你前面那个例子:社交媒体,
朋友介绍,健身老师,张贴广告,。。共8-10项,也就8-10个类别,卡方检验也就非常
不敏感了。如果总体卡方不显著,你也没有必要往下做两两比较;如果总体卡方显著,
你再做两两比较,找到的差异组未必是你期望的。另外一点,划分太多的类别其结果很
难解释,最后往往都到了难以自圆其说的地步。
卡方检验受样本大小的影响也很大。青年人中40%有全职工作,而中年健身者中全职工
作的只有18%,只观察了1个月的数据卡方显示差距不显著。继续观察3年,两个比例不
变,但卡方检验却显示差距显著了。换句话说,只有你肯耐心的等下去,差异都可以让
你等出个显著来。。。
总体来说,感觉你的这个抽样调查设计并不合理,有了结果,列表出来就可以了。试图
用P值,显著性什么的来解释太过牵强了,未必让人信服。

【在 R*****d 的大作中提到】
: 谢谢回答!
: 并非是要做全职vs非全职的检验。
: 主要想了解同类职业状况在不同人群中比例的差异。比如在同一个健身房里青年人中40
: %有全职工作,而中年健身者中全职工作的只有18%,想得出这两者的比例差异达到了
: statistically significant different的结论. 在同一健身房里观察了3年,每年这两
: 组人的职业比例差异都大到significantly different,所以想得出结论说年轻人中有
: 全职工作的健身者比中年人的比率高。
: 用同样的方法也可以作年轻人比中年人更多通过social media找到健身房。这样的情况
: 可以用select cases, 然后把同是全职的两组年龄的人进行比较,看proportation大的
: 程度,这样可以吗?

R*****d
发帖数: 620
10
非常感谢!回答的真是太全面了,明白是怎么回事,下一步该怎么作了。
你介意有空时帮我看一下另外一个关于scatter plot的提问吗?在这里:http://www.mitbbs.com/article_t0/Statistics/31402375.html
像你说的,我虽然跟踪了4个学年,但是 r squaired value 每年都在0.20左右,我觉
得没必要按每学期来作一个scatter plot, 干脆把4年的数据放在一起做个总体的
scatter plot,表现两个变量间没什么correlation. 你觉得怎样?
非常感谢热心回答,祝周末快乐!

(C

【在 B******y 的大作中提到】
:
: 40
: 你其实应该首先说明你的零假设是什么,就省得别人一开始在ANOVA或是卡方检验纠缠
: 了。
: 根据你的描述,你希望的是比较比例的差异,所以卡方检验应该是首选。因为你划分的
: 类别太细,有可能得用Fisher Exact Test来取代卡方检验。
: 不过,这些讨论只限于教科书上的范围;也就是虽说理论上你可以这么做,但在实践中
: 却未必可取。一个明显的例子是LS建议是全职vs非全职的检验,非常合理,而你却还想
: 细化。通常上2X2 Contingency Table用卡方或Fisher Exact Test,可以延伸到CXR(C
: ,R>2),但最好不要分类太多,一般3或4就可以了。像你前面那个例子:社交媒体,

o**y
发帖数: 1084
11
response有2个,variables 是categorical, 用loglinear model analysis?
可以用frequence table先看下数据
1 (共1页)
进入Statistics版参与讨论
相关主题
问个统计问题 (转载)请教个基本的统计问题
也问个control group的问题大包子,求教一道sas的p value.....着急啊 。。。。。。。
问个t-test的问题这种情况下怎么做chisq test 和 anova
【包子】也问个Gplot的问题[合集] 请教一个统计问题
问个简单的p-value问题请问大牛:在chi square test里,怎么看待大样本数的好处?
ORDINAL的变量到底当作连续型的好,还是离散型的好么?菜鸟请问ANOVA问题
请教:用SAS的哪个proc比较两组数据的proportion?请教一个MIXED MODEL的问题
关于卡方拟合度检验 chi-square goodness of fitchi-square test问题
相关话题的讨论汇总
话题: 比率话题: 全职话题: square话题: chi话题: 两组