SPSS分析技术:典型相关分析;化繁为简,典型相关分析帮助分析者理清思路
之前介绍过的相关分析有两个变量之间的线性相关关系,用的是简单相关系数r;还有复相关系数,用来表示一个变量与多个变量组成的整体之间的线性相关关系;很多人会问,如果想研究两组变量之间的相关关系,该使用什么方法呢?今天介绍的典型相关分析就是用于解决这个问题的分析方法。
在实际生活当中,关于两组变量之间的相关关系研究很多。例如,某个城市的经济发展水平(GDP、货物周转量、生产建设投资等)与居民生活水平(居民人均年收入、居民财产性收入、恩格尔系数等)间的相关关系;大学生毕业时的成绩(各种科目成绩)和入学时成绩的相关关系;公司内不同职位与员工工作满意度之间的相关关系;领导者的领导能力与情绪智力的相关关系等。典型相关分析在实证研究中有广泛的运用,常常被作为结构方程模型研究的基础步骤。
上方左图是典型相关分析的结果展示图,这和右边的拔河图有异曲同工之处。两个环境中的每个参与者(变量)都是决定结果的因子。
典型相关关系
学习过前面介绍的因子分析的朋友应该很容易想到:是否能够从两组变量中提取公因子,然后用公因子之间的线性相关关系表示两组变量之间的相关关系呢?如果能想到这一点,说明已经拥有知识点拓展和触类旁通的数据分析能力。典型相关分析就是借用了主成分分析的分析逻辑,通过原始变量的线性组合,找到一个或几个综合变量来替代原始变量,从而将两组原始变量的相关关系研究转换成少数几对综合变量的相关关系研究。
典型相关分析首先对两组变量进行线性组合,找到一对综合变量,使这对综合变量具有最大相关性;然后再通过线性组合找出第二对综合变量,它们之间的相关关系会小于第一对综合变量;重复以上操作,直到两组变量的数据信息提取完成为止。提取的综合变量被称为典型变量或典则变量,它们之间的相关系数称为典型相关系数。与主成分分析相似,只需提取少数几对综合变量就可以概括两组变量的数据信息。典型相关分析与因子分析虽然都是通过原始变量的线性组合实现数据信息的浓缩,但是二者还是有不同的,不同之处在于变量线性组合的标准不一样。
因子分析的目的是简化分析局面。基于一组变量的相关关系,用少数几个公因子代替整个变量组的信息(数据的变异),实现变量降维,简化数据分析局面。因此,因子分析在做原始变量线性组合时,寻找公因子的标准是数据变异或波动最大的方向。而典型相关分析的目的是研究两组变量之间的相关关系,因此在做原始变量的线性组合时(提取公因子),考虑的重点在于寻找相关关系最强的典型变量对,简化两组变量之间错综复杂的相关关系网。
案例分析
我们国家是个人口大国,最近一次人口普查结果显示我们国家的人口数达到13.3亿人,农村人口数达到50.32%,因此提高农村居民的生活水平一直以来都是国家管理的重要内容。农村居民的收入和支出能够很好地反映农村居民的生活水平。现在有一份数据,收集了全国30个省市自治区直辖市的农村居民收入和支出情况,包括四项收入数据和8项支出数据:分别是劳动收入(X1)、经营收入(X2)、转移收入(X3)、财产收入(X4);食品支出(Y1)、衣着支出(Y2)、居住支出(Y3)、家庭设备和服务支出(Y4)、医疗保健支出(Y5)、交通通讯支出(Y6)、文教娱乐支出(Y7)、其它支出(Y8)。SPSS数据如下图所示:
操作须知
SPSS没有为典型相关分析设置专门的操作菜单,只提供了一份名为Canonical correlation.sps的宏程序文件,这个文件存放在SPSS安装文件夹\Samples文件夹内。只需在使用时调用,并输入参数语句即可调用输出结果。
分析步骤
点击菜单【文件】-【新建】-【数据】,跳出语法编辑器窗口,输入以下内容。点击确定,输出结果。
结果解释
1、相关系数矩阵;结果输出了三个相关系数矩阵,分别是第一组变量、第二组变量、第一组与第二组之间的相关系数矩阵。变量线性组合的基础就是相关系数矩阵。从前两个相关系数矩阵可以发现,两组变量内部,变量之间的相关系数都非常大,说明它们反映的收入和支出因素是类似的,所以不能很好的反映影响农民收入和支出水平的整体情况。
2、线性相关系数及显著性检验。本案例中提取了4对典型变量(每组变量提取4个公因子),这四对变量之间的相关系数依次降低,从0.980减少到0.561。显著性检验结果显示只有前面两对典型变量的相关系数有统计学意义。
3、典型变量系数;下面有四个表格,第一行的两个表是第一组变量抽取典型变量的结果,作图使用标准化的原始变量数据,右图直接使用原始变量数据;第二行的两个表格则是第二组变量抽取典型变量的结果。根据这些表格的数据可以写出典型变量的计算公式。
第二步的典型变量相关系数的检验结果显示,只有前面两对典型变量的相关系数有统计学意义,U1与V1的相关系数为0.980,U2与V2的相关系数为0.908,因此下面只写出这两对典型变量由标准化数据组成的计算公式:
可以发现,因为两组变量的系数很多都是负的,所以这两对典型变量的现实含义不好解释,原因就在于前面提到的两组变量内部的相关关系太强,无法表示农村居民收入的综合情况。本案例数据建立的典型相关模型的效果很差,应该重新选择能够充分反映农村居民收入水平的变量。
4、相关系数结果;下图四个表是相关系数表,第一列是本组变量与本组产生的典型变量的相关系数;第二列是本组变量与另一组变量产生的典型变量之间的相关系数。
根据相关系数数据,可以做出两对典型变量的相关系数结构图,由于作图的方式是一样的,因此用第一对典型变量为例进行说明。从结构图同样可以知道,四个收入变量与公因子U1的相关系数都是负数,而8个支出变量与公因子V1的相关系数也都为负数,同样说明了本案例的典型相关模型效果很差,不能用现实含义来解释。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16