SPSS详细操作:碰见有序分类资料,怎么办
经常听到有小伙伴刚学了武林秘籍之卡方检验,只要碰到分类资料就一通乱打,虽说有时候能赢几场,但是也有被打的鼻青脸肿的,还自言自语的说,招数没毛病呀!?事实上毛病大了去了,与人过招,知己知彼,见招拆招,方能克敌制胜!所以我们先来捋捋分类资料的分析。
常见的分类资料可以分成四类:
老大,双向无序分类,特点是分组变量和结局变量均为无序多分类(或二分类),例如比较汉族、回族和蒙古族ABO血型分布有无差别;
老二,单向有序分类,分组变量或结局变量为有序变量,例如比较35-、45-、55-、65-岁组血脂异常的患病率有无差别,或者比较A和B两种药物对于疾病预后 (痊愈、显著改善、进步、无效)有无差异;
老三,双向有序属性不同的分类,这里既强调行变量和列变量均为有序分类资料,并且属性不相同(行列变量不一致),例如观察年龄对疾病预后有无影响(35-、45-、55-、65-岁组 vs 痊愈、显著改善、进步、无效);
老四,双向有序属性相同的分类,行变量和列变量均为有序分类资料,并且属性相同(行列变量一致),例如A和B两种方法对某种免疫物质的检出情况(--/-/+/++)。
(注:上文提到的“属性”,我们后期会专门推送一篇文章来讲解~)
针对双向无序分类和双向有序属性相同的分类资料的分析方法,前面几期有详细介绍,还没看过的小伙伴戳SPSS详细操作:多个独立样本列联表的卡方检验/SPSS详细操作:一致性检验和配对卡方检验。这次我们一块儿搞定单向有序分类和双向有序属性不同的分类资料的SPSS操作。
一、单向有序分类
血脂异常的患病率随着年龄增加而增加吗?
某研究小白在利用某项调查数据分析时,想研究一下年龄与血脂异常之间的关系,想起了之前学过的多个独立样本的卡方检验SPSS操作,于是照猫画虎,分析了一下手里的数据。
Analyze→ Descriptive Statistics→ Crosstabs: Row(Age); Column(Dyslipidemia)→Statistics: Chi-square; Continue→ Cells: Percentages(勾选Row); Continue→ OK
看到分析结果,尤其是P=0.003,小白立刻眼睛冒光,马上超级自信地下了结论:经独立样本卡方检验,血脂异常的患病率随着年龄增加而增加(P=0.003),但是刚说完心里又犯嘀咕,想起之前学的独立样本卡方检验,好像这里只能说明不同年龄组之间血脂异常患病率有统计学差异。嗯,没错!这里如果只看Pearson Chi-Square的结果,会忽略年龄分组为有序变量这个信息点,损失了信息,所以这里更好的是看Linear-by-Linear Association的结果。
提到趋势性卡方检验,想必大家并不陌生,主要用来明确分类变量之间的线性趋势,比如这里的“血脂异常的患病率随着年龄增加而增加”。趋势性卡方检验最常用的方法是Cochran-Armitage trend test,很遗憾SPSS并没有提供这种方法,而是另一种方法Linear-by-Linear Association,两个结果相近,所以大家也可以放心使用。
听到这里,研究小白马上修改了结论:经趋势性卡方检验,血脂异常的患病率随着年龄增加而增加(P<0.001)。
拓展一下,相信不少小伙伴会想起Spearman秩相关,感觉这里好像也可以用Spearman秩相关来分析年龄组和血脂异常的关系。事实上,也是可以滴!但是趋势性卡方检验和Spearman秩相关有些不同。
Analyze →Correlate →Bivariate →Variables: Age, Dyslipidemia; Correlation Coefficients: Spearman(勾选)→OK
首先,严格地讲,做趋势性卡方检验时,需要对分组变量和结局变量进行评分赋值,连续变量取组中值为等级评分;如果是等级资料,给以顺序性的评分,如1、2、3……;分类资料,阳性或患病等为1,阴性或不患病等为0。这里就涉及到一个问题,对于Spearman秩相关是基于变量秩次进行相关分析的,比如说上面的例子,如果去掉55-岁组,趋势性卡方检验中变量评分为1、2、4,而Spearman秩相关是1、2、3,这就反映两种分析方法的利用信息能力不一样。
其次,两种方法的检验效能不同,趋势性卡方检验属于参数检验,当我们假定存在线性趋势时,检验效能更高;而Spearman秩相关计算变量秩次,损失了信息,相同条件下,检验效能较低,比如这里Spearman秩相关P=0.001,趋势性卡方检验P<0.001。
最后,两者得到的结论也有所不同,趋势性卡方检验可以直接得出“血脂异常的患病率随着年龄增加而增加”,而Spearman秩相关因为使用变量秩次分析,所以严格地讲,它反映的是两个分类变量秩次有相关,因为没有考虑变量的具体取值,更多是一种相对稳定的相关关系。
二、双向有序属性不同的分类
干活儿越重骨质退行越重?
有一项旨在探讨骨质退行性变是否与劳动强度有关,观察150名研究对象。劳动强度分为轻、中、重度,骨质退行性变为2、3、4度,两个变量都属于等级变量,但是属性不同。
对于双向有序属性不同的资料,有的小伙伴就说啦,可以用Spearman秩相关嘛,有些小伙伴就要很疑惑,为什么不可以用卡方检验呢?
这里和大家一块儿掰扯掰扯。对于等级资料相关分析,Spearman秩相关也是可以计算滴,但问题关键是,在做秩相关时,需要对原始数据进行编秩次,因为是等级资料,所以会产生大量秩次相等的平均秩次,进而低估了变量之间的关联系数。
如果是独立样本的卡方检验呢?那就错的比较离谱一些!卡方检验的核心是列联表中每一个格子中的理论频数和实际观测频数偏离程度,行和列的位置是不重要的(比如你可以把行列互换,或者把第一行和第二行互换),结果都是一样的。问题就来了,这样就损失了变量“有序”——这个非常关键的信息点,比如这里例子,我们想知道是不是劳动强度越重,骨质退行越重。
有小伙伴要着急了,这也不行,那也不行,到底要咋整?给大家带来重量级武器——Goodman-Kruskal Gamma方法(简称Gamma法)。Gamma法主要用于有序分类资料的关联性分析,并且计算Gamma系数(类似于Spearman秩相关rs)。
Gamma系数取值在-1到1之间,G=0表示两个变量不相关,G>0表示两个变量正相关,G<0表示两个变量负相关;G的绝对值越接近1,表示两个变量的关联强度越大,越接近0,关联程度越小。
下面一起看看SPSS怎么进行Gamma。
Analyze →Descriptive Statistics →Crosstabs: Row(劳动强度); Column(骨退变)→Statistics: Gamma; Continue →OK
上面的结果显示:G=0.244,P=0.025<0.05,劳动强度与骨退变之间互相关联,即随着劳动强度增加,骨质退行越重,关联系数为0.244。
再看看Spearman秩相关的结果。
Analyze →Correlate →Bivariate →Variables: 劳动强度,骨退变; Correlation Coefficients: Spearman(勾选)→OK
可以看到Spearman秩相关系数rs=0.183,小于G(0.244),低估了变量之间的关联强度。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31