SPSS详细操作:碰见有序分类资料,怎么办
经常听到有小伙伴刚学了武林秘籍之卡方检验,只要碰到分类资料就一通乱打,虽说有时候能赢几场,但是也有被打的鼻青脸肿的,还自言自语的说,招数没毛病呀!?事实上毛病大了去了,与人过招,知己知彼,见招拆招,方能克敌制胜!所以我们先来捋捋分类资料的分析。
常见的分类资料可以分成四类:
老大,双向无序分类,特点是分组变量和结局变量均为无序多分类(或二分类),例如比较汉族、回族和蒙古族ABO血型分布有无差别;
老二,单向有序分类,分组变量或结局变量为有序变量,例如比较35-、45-、55-、65-岁组血脂异常的患病率有无差别,或者比较A和B两种药物对于疾病预后 (痊愈、显著改善、进步、无效)有无差异;
老三,双向有序属性不同的分类,这里既强调行变量和列变量均为有序分类资料,并且属性不相同(行列变量不一致),例如观察年龄对疾病预后有无影响(35-、45-、55-、65-岁组 vs 痊愈、显著改善、进步、无效);
老四,双向有序属性相同的分类,行变量和列变量均为有序分类资料,并且属性相同(行列变量一致),例如A和B两种方法对某种免疫物质的检出情况(--/-/+/++)。
(注:上文提到的“属性”,我们后期会专门推送一篇文章来讲解~)
针对双向无序分类和双向有序属性相同的分类资料的分析方法,前面几期有详细介绍,还没看过的小伙伴戳SPSS详细操作:多个独立样本列联表的卡方检验/SPSS详细操作:一致性检验和配对卡方检验。这次我们一块儿搞定单向有序分类和双向有序属性不同的分类资料的SPSS操作。
一、单向有序分类
血脂异常的患病率随着年龄增加而增加吗?
某研究小白在利用某项调查数据分析时,想研究一下年龄与血脂异常之间的关系,想起了之前学过的多个独立样本的卡方检验SPSS操作,于是照猫画虎,分析了一下手里的数据。
Analyze→ Descriptive Statistics→ Crosstabs: Row(Age); Column(Dyslipidemia)→Statistics: Chi-square; Continue→ Cells: Percentages(勾选Row); Continue→ OK
看到分析结果,尤其是P=0.003,小白立刻眼睛冒光,马上超级自信地下了结论:经独立样本卡方检验,血脂异常的患病率随着年龄增加而增加(P=0.003),但是刚说完心里又犯嘀咕,想起之前学的独立样本卡方检验,好像这里只能说明不同年龄组之间血脂异常患病率有统计学差异。嗯,没错!这里如果只看Pearson Chi-Square的结果,会忽略年龄分组为有序变量这个信息点,损失了信息,所以这里更好的是看Linear-by-Linear Association的结果。
提到趋势性卡方检验,想必大家并不陌生,主要用来明确分类变量之间的线性趋势,比如这里的“血脂异常的患病率随着年龄增加而增加”。趋势性卡方检验最常用的方法是Cochran-Armitage trend test,很遗憾SPSS并没有提供这种方法,而是另一种方法Linear-by-Linear Association,两个结果相近,所以大家也可以放心使用。
听到这里,研究小白马上修改了结论:经趋势性卡方检验,血脂异常的患病率随着年龄增加而增加(P<0.001)。
拓展一下,相信不少小伙伴会想起Spearman秩相关,感觉这里好像也可以用Spearman秩相关来分析年龄组和血脂异常的关系。事实上,也是可以滴!但是趋势性卡方检验和Spearman秩相关有些不同。
Analyze →Correlate →Bivariate →Variables: Age, Dyslipidemia; Correlation Coefficients: Spearman(勾选)→OK
首先,严格地讲,做趋势性卡方检验时,需要对分组变量和结局变量进行评分赋值,连续变量取组中值为等级评分;如果是等级资料,给以顺序性的评分,如1、2、3……;分类资料,阳性或患病等为1,阴性或不患病等为0。这里就涉及到一个问题,对于Spearman秩相关是基于变量秩次进行相关分析的,比如说上面的例子,如果去掉55-岁组,趋势性卡方检验中变量评分为1、2、4,而Spearman秩相关是1、2、3,这就反映两种分析方法的利用信息能力不一样。
其次,两种方法的检验效能不同,趋势性卡方检验属于参数检验,当我们假定存在线性趋势时,检验效能更高;而Spearman秩相关计算变量秩次,损失了信息,相同条件下,检验效能较低,比如这里Spearman秩相关P=0.001,趋势性卡方检验P<0.001。
最后,两者得到的结论也有所不同,趋势性卡方检验可以直接得出“血脂异常的患病率随着年龄增加而增加”,而Spearman秩相关因为使用变量秩次分析,所以严格地讲,它反映的是两个分类变量秩次有相关,因为没有考虑变量的具体取值,更多是一种相对稳定的相关关系。
二、双向有序属性不同的分类
干活儿越重骨质退行越重?
有一项旨在探讨骨质退行性变是否与劳动强度有关,观察150名研究对象。劳动强度分为轻、中、重度,骨质退行性变为2、3、4度,两个变量都属于等级变量,但是属性不同。
对于双向有序属性不同的资料,有的小伙伴就说啦,可以用Spearman秩相关嘛,有些小伙伴就要很疑惑,为什么不可以用卡方检验呢?
这里和大家一块儿掰扯掰扯。对于等级资料相关分析,Spearman秩相关也是可以计算滴,但问题关键是,在做秩相关时,需要对原始数据进行编秩次,因为是等级资料,所以会产生大量秩次相等的平均秩次,进而低估了变量之间的关联系数。
如果是独立样本的卡方检验呢?那就错的比较离谱一些!卡方检验的核心是列联表中每一个格子中的理论频数和实际观测频数偏离程度,行和列的位置是不重要的(比如你可以把行列互换,或者把第一行和第二行互换),结果都是一样的。问题就来了,这样就损失了变量“有序”——这个非常关键的信息点,比如这里例子,我们想知道是不是劳动强度越重,骨质退行越重。
有小伙伴要着急了,这也不行,那也不行,到底要咋整?给大家带来重量级武器——Goodman-Kruskal Gamma方法(简称Gamma法)。Gamma法主要用于有序分类资料的关联性分析,并且计算Gamma系数(类似于Spearman秩相关rs)。
Gamma系数取值在-1到1之间,G=0表示两个变量不相关,G>0表示两个变量正相关,G<0表示两个变量负相关;G的绝对值越接近1,表示两个变量的关联强度越大,越接近0,关联程度越小。
下面一起看看SPSS怎么进行Gamma。
Analyze →Descriptive Statistics →Crosstabs: Row(劳动强度); Column(骨退变)→Statistics: Gamma; Continue →OK
上面的结果显示:G=0.244,P=0.025<0.05,劳动强度与骨退变之间互相关联,即随着劳动强度增加,骨质退行越重,关联系数为0.244。
再看看Spearman秩相关的结果。
Analyze →Correlate →Bivariate →Variables: 劳动强度,骨退变; Correlation Coefficients: Spearman(勾选)→OK
可以看到Spearman秩相关系数rs=0.183,小于G(0.244),低估了变量之间的关联强度。
数据分析咨询请扫描二维码
数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21