SPSS分析技术:Pearson相关、Spearman相关及Kendall相关
通过文章(点击蓝字即可回顾阅读):数据分析技术:数据关联性分析综述,我们知道数据的关联性分析可以分为两个大类:相关性分析和回归分析。根据数据种类的不同(定距、定序和定类),它们又有不同的分析方法。可以通过下面的思维导图帮助记忆:
常用的相关性分析包括:皮尔逊(Pearson)相关、斯皮尔曼(Spearman)相关、肯德尔(Kendall)相关和偏相关。下面介绍前三种相关分析技术,并用实际案例说明如何用SPSS使用这三种相关性分析技术。三种相关性检验技术,Pearson相关性的精确度最高,但对原始数据的要求最高。Spearman等级相关和Kendall一致性相关的使用范围更广,但精确度较差。
Pearson相关
皮尔逊相关是利用相关系数来判定数据之间的线性相关性,相关系数r的公式如下:
数据要求
正态分布的定距变量;
两个数据序列的数据要一一对应,等间距等比例。数据序列通常来自对同一组样本的多次测量或不同视角的测量。
结论分析
在皮尔逊相关性分析中,能够得到两个数值:相关系数(r)和检验概率(Sig.)。对于相关系数r,有以下判定惯例:当r的绝对值大于0.6,表示高度相关;在0.4到0.6之间,表示相关;小于0.4,表示不相关。r大于0,表示正相关;r小于0,表示负相关。虽然相关系数能够判别数据的相关性,但是还是要结合检验概率和实际情况进行判定,当检验概率小于0.05时,表示两列数据之间存在相关性。
Spearman相关
当定距数据不满足正态分布,不能使用皮尔逊相关分析,这时,可以在相关分析中引入秩分,借助秩分实现相关性检验,即先分别计算两个序列的秩分,然后以秩分值代替原始数据,代入到皮尔逊相关系数公式中,得到斯皮尔曼相关系数公式:
数据要求
不明分布类型的定距数据;
两个数据序列的数据一一对应,等间距等比例。数据序列通常来自对同一组样本的多次测量或不同视角的测量。
结论分析
在斯皮尔曼相关性分析中,也能够得到相关系数(r)和检验概率(Sig.),当检验概率小于0.05时,表示两列数据之间存在相关性。
Kendall相关
当既不满足正态分布,也不是等间距的定距数据,而是不明分布的定序数据时,不能使用Pearson相关和Spearman相关。此时,在相关分析中引入“一致对”的概念,借助“一致对”在“总对数”中的比例分析其相关性水平。Kendall相关系数计算公式如下:
Kendall相关实质上是基于查看序列中有多少个顺序一致的对子的这个思路来判断数据的相关性水平。在Kendall相关性检验中,其核心思想是检验两个序列的秩分是否一致增减。因此,统计两序列中的“一致对”和“非一致对”的数量就非常重要。下面举例说明Kendall相关系数的计算过程:
假设有两个数据序列A和B的秩分序列分别是{2,4,3,5,1},{3,4,1,5,2},即相对应的秩对为(2,3)(4,4)(3,1)(5,5)(1,2)。在按照A的秩分排序后,得到新的秩对(1,2)(2,3)(3,1)(4,4)(5,5),此时B的秩分序列变成了{2,3,1,4,5}。在这种情况下,针对第一个B值2,后面有3,4,5比它大,有1比它小,所以一致对为3,非一致对为1;第二个数字3,有4,5比它大,有1比它小,所以一致对为2,非一致对为1;依次类推,总共有8个一致对,2个非一致对。即Nc=8,Nd=2。
数据要求
适用于不明分布的定序数据;
Pearson相关适用于正态分布定距数据;Spearman相关适用于不明分布定距数据;Kendall相关适用于不明分布定序数据。
结论分析
在肯德尔相关性分析中,能够得到两个数值:相关系数(r)和检验概率(Sig.),当检验概率小于0.05时,表示两列数据之间存在相关性。
案例分析
现在有一份《学生成绩数据》,如下图所示。请分析其中的语文、数学、英语、历史、地理成绩之间的相关性。
解题思路
观察图中数据可知,需要分析的数据都是定距数据,而且它们来自同一组样本(同一批学生)的多次多视角测试(不同学科考试),可以使用Pearson相关分析和Spearman相关分析。先对原始数据进行正态分布检验,对于满足正态分布检验的变量使用Pearson相关性分析,不满足正态分布检验的变量则使用Spearman等级相关检验。
解题步骤
1、利用【分析】-【非参数检验】-【旧对话框】-【1样本K-S】命令对语文、数学、英语、历史和地理成绩进行正态分布检验。
2、利用【分析】-【相关】-【双变量】命令,在相关系数中选择【Pearson】,对语文、数学、英语和地理成绩进行Pearson相关性检验。
3、利用【分析】-【相关】-【双变量】命令,在相关系数中选择【Spearman】,对历史、语文、数学、英语和地理成绩进行Spearman相关性检验。
结果解读
1、正态性检验结果;
发现除历史以外,其它数据变量的检验概率都大于0.05,都符合正态分布。
2、在皮尔逊相关分析中,语文、数学、英语和地理成绩之间的所有检验概率都大于0.05,说明它们之间都不存在相关性;同时,皮尔逊相关系数都小于0.4,也证明了它们之间没有相关性。
3、在斯皮尔曼相关分析中,历史、语文、数学、英语和地理之间的检验概率除了地理和语文之间小于0.05以外,其它都大于0.05。但这不能说明地理与语文成绩之间存在相关性。观察它们的相关系数为0.263,这说明它们之间也不存在相关性。在确定变量之间相关性时,应该结合检验概率与相关系数进行分析。不能只看其中一个数值就确定变量之间的相关性。
数据分析咨询请扫描二维码
统计学基础 - 理解统计学的基本概念和方法是数据分析师必备的技能之一。统计学为他们提供了处理数据、进行推断和建模的基础。 数 ...
2024-11-25数据分析师在如今信息爆炸的时代扮演着至关重要的角色。他们不仅需要具备扎实的数据分析技能,还需要不断学习和适应不断发展的技 ...
2024-11-25数据分析师的工作职责涉及多个关键方面,从数据的获取到处理、分析再到可视化,旨在为企业的决策提供有力支持。让我们深入了解数 ...
2024-11-25数据分析师:洞察力量的引擎 数据分析师的兴起 数据分析师行业目前正处于快速发展阶段,市场需求持续增长,薪资水平也有所提升。 ...
2024-11-25数据收集与整理 - 从各种来源收集数据,清洗和整理以确保数据质量和可用性。 数据分析与建模 - 运用统计学方法和机器学习模型对 ...
2024-11-25数据分析是当今社会中不可或缺的一项技能,涵盖了广泛的工具和技术。其中,掌握各种数据处理函数对于数据分析师至关重要。本文将 ...
2024-11-25“大数据治理”是一个涵盖广泛的复杂概念,其核心在于确保大规模、多样化的数据资源能够被有效管理和利用。不仅涉及数据的采集、 ...
2024-11-25一、引言 背景介绍 随着信息技术的快速发展和互联网的普及,大数据已经成为现代社会的重要资产。大数据的兴起不仅推动了各行各业 ...
2024-11-25《Python数据分析极简入门》 第2节 7 Pandas分组聚合 分组聚合(group by)顾名思义就是分2步: 先分组:根据某列数据的值进行 ...
2024-11-25数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容: 数学和统计学 ...
2024-11-24数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力: 统计 ...
2024-11-24数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需 ...
2024-11-24《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22