SPSS分析技术：Pearson相关、Spearman相关及Kendall相关-CDA数据分析师官网

热线电话：13121318867

首页大数据时代SPSS分析技术：Pearson相关、Spearman相关及Kendall相关

SPSS分析技术：Pearson相关、Spearman相关及Kendall相关

2017-02-28

SPSS分析技术：Pearson相关、Spearman相关及Kendall相关

通过文章（点击蓝字即可回顾阅读）：数据分析技术：数据关联性分析综述，我们知道数据的关联性分析可以分为两个大类：相关性分析和回归分析。根据数据种类的不同（定距、定序和定类），它们又有不同的分析方法。可以通过下面的思维导图帮助记忆：

常用的相关性分析包括：皮尔逊（Pearson）相关、斯皮尔曼（Spearman）相关、肯德尔（Kendall）相关和偏相关。下面介绍前三种相关分析技术，并用实际案例说明如何用SPSS使用这三种相关性分析技术。三种相关性检验技术，Pearson相关性的精确度最高，但对原始数据的要求最高。Spearman等级相关和Kendall一致性相关的使用范围更广，但精确度较差。

Pearson相关

皮尔逊相关是利用相关系数来判定数据之间的线性相关性，相关系数r的公式如下：

数据要求

正态分布的定距变量；

两个数据序列的数据要一一对应，等间距等比例。数据序列通常来自对同一组样本的多次测量或不同视角的测量。

结论分析

在皮尔逊相关性分析中，能够得到两个数值：相关系数（r）和检验概率（Sig.）。对于相关系数r，有以下判定惯例：当r的绝对值大于0.6，表示高度相关；在0.4到0.6之间，表示相关；小于0.4，表示不相关。r大于0，表示正相关；r小于0，表示负相关。虽然相关系数能够判别数据的相关性，但是还是要结合检验概率和实际情况进行判定，当检验概率小于0.05时，表示两列数据之间存在相关性。

Spearman相关

当定距数据不满足正态分布，不能使用皮尔逊相关分析，这时，可以在相关分析中引入秩分，借助秩分实现相关性检验，即先分别计算两个序列的秩分，然后以秩分值代替原始数据，代入到皮尔逊相关系数公式中，得到斯皮尔曼相关系数公式：

数据要求

不明分布类型的定距数据；

两个数据序列的数据一一对应，等间距等比例。数据序列通常来自对同一组样本的多次测量或不同视角的测量。

结论分析

在斯皮尔曼相关性分析中，也能够得到相关系数（r）和检验概率（Sig.），当检验概率小于0.05时，表示两列数据之间存在相关性。

Kendall相关

当既不满足正态分布，也不是等间距的定距数据，而是不明分布的定序数据时，不能使用Pearson相关和Spearman相关。此时，在相关分析中引入“一致对”的概念，借助“一致对”在“总对数”中的比例分析其相关性水平。Kendall相关系数计算公式如下：

Kendall相关实质上是基于查看序列中有多少个顺序一致的对子的这个思路来判断数据的相关性水平。在Kendall相关性检验中，其核心思想是检验两个序列的秩分是否一致增减。因此，统计两序列中的“一致对”和“非一致对”的数量就非常重要。下面举例说明Kendall相关系数的计算过程：

假设有两个数据序列A和B的秩分序列分别是{2,4,3,5,1}，{3,4,1,5,2}，即相对应的秩对为(2,3)(4,4)(3,1)(5,5)(1,2)。在按照A的秩分排序后，得到新的秩对(1,2)(2,3)(3,1)(4,4)(5,5)，此时B的秩分序列变成了{2,3,1,4,5}。在这种情况下，针对第一个B值2，后面有3,4,5比它大，有1比它小，所以一致对为3，非一致对为1；第二个数字3，有4,5比它大，有1比它小，所以一致对为2，非一致对为1；依次类推，总共有8个一致对，2个非一致对。即Nc=8，Nd=2。

数据要求

适用于不明分布的定序数据；

Pearson相关适用于正态分布定距数据；Spearman相关适用于不明分布定距数据；Kendall相关适用于不明分布定序数据。

结论分析

在肯德尔相关性分析中，能够得到两个数值：相关系数（r）和检验概率（Sig.），当检验概率小于0.05时，表示两列数据之间存在相关性。

案例分析

现在有一份《学生成绩数据》，如下图所示。请分析其中的语文、数学、英语、历史、地理成绩之间的相关性。

解题思路

观察图中数据可知，需要分析的数据都是定距数据，而且它们来自同一组样本（同一批学生）的多次多视角测试（不同学科考试），可以使用Pearson相关分析和Spearman相关分析。先对原始数据进行正态分布检验，对于满足正态分布检验的变量使用Pearson相关性分析，不满足正态分布检验的变量则使用Spearman等级相关检验。

解题步骤

1、利用【分析】-【非参数检验】-【旧对话框】-【1样本K-S】命令对语文、数学、英语、历史和地理成绩进行正态分布检验。

2、利用【分析】-【相关】-【双变量】命令，在相关系数中选择【Pearson】，对语文、数学、英语和地理成绩进行Pearson相关性检验。

3、利用【分析】-【相关】-【双变量】命令，在相关系数中选择【Spearman】，对历史、语文、数学、英语和地理成绩进行Spearman相关性检验。

结果解读

1、正态性检验结果；

发现除历史以外，其它数据变量的检验概率都大于0.05，都符合正态分布。

2、在皮尔逊相关分析中，语文、数学、英语和地理成绩之间的所有检验概率都大于0.05，说明它们之间都不存在相关性；同时，皮尔逊相关系数都小于0.4，也证明了它们之间没有相关性。

3、在斯皮尔曼相关分析中，历史、语文、数学、英语和地理之间的检验概率除了地理和语文之间小于0.05以外，其它都大于0.05。但这不能说明地理与语文成绩之间存在相关性。观察它们的相关系数为0.263，这说明它们之间也不存在相关性。在确定变量之间相关性时，应该结合检验概率与相关系数进行分析。不能只看其中一个数值就确定变量之间的相关性。