SPSS分析技术:典型相关分析;化繁为简,典型相关分析帮助分析者理清思路
之前介绍过的相关分析有两个变量之间的线性相关关系,用的是简单相关系数r;还有复相关系数,用来表示一个变量与多个变量组成的整体之间的线性相关关系;很多人会问,如果想研究两组变量之间的相关关系,该使用什么方法呢?今天介绍的典型相关分析就是用于解决这个问题的分析方法。
在实际生活当中,关于两组变量之间的相关关系研究很多。例如,某个城市的经济发展水平(GDP、货物周转量、生产建设投资等)与居民生活水平(居民人均年收入、居民财产性收入、恩格尔系数等)间的相关关系;大学生毕业时的成绩(各种科目成绩)和入学时成绩的相关关系;公司内不同职位与员工工作满意度之间的相关关系;领导者的领导能力与情绪智力的相关关系等。典型相关分析在实证研究中有广泛的运用,常常被作为结构方程模型研究的基础步骤。
上方左图是典型相关分析的结果展示图,这和右边的拔河图有异曲同工之处。两个环境中的每个参与者(变量)都是决定结果的因子。
典型相关关系
学习过前面介绍的因子分析的朋友应该很容易想到:是否能够从两组变量中提取公因子,然后用公因子之间的线性相关关系表示两组变量之间的相关关系呢?如果能想到这一点,说明已经拥有知识点拓展和触类旁通的数据分析能力。典型相关分析就是借用了主成分分析的分析逻辑,通过原始变量的线性组合,找到一个或几个综合变量来替代原始变量,从而将两组原始变量的相关关系研究转换成少数几对综合变量的相关关系研究。
典型相关分析首先对两组变量进行线性组合,找到一对综合变量,使这对综合变量具有最大相关性;然后再通过线性组合找出第二对综合变量,它们之间的相关关系会小于第一对综合变量;重复以上操作,直到两组变量的数据信息提取完成为止。提取的综合变量被称为典型变量或典则变量,它们之间的相关系数称为典型相关系数。与主成分分析相似,只需提取少数几对综合变量就可以概括两组变量的数据信息。典型相关分析与因子分析虽然都是通过原始变量的线性组合实现数据信息的浓缩,但是二者还是有不同的,不同之处在于变量线性组合的标准不一样。
因子分析的目的是简化分析局面。基于一组变量的相关关系,用少数几个公因子代替整个变量组的信息(数据的变异),实现变量降维,简化数据分析局面。因此,因子分析在做原始变量线性组合时,寻找公因子的标准是数据变异或波动最大的方向。而典型相关分析的目的是研究两组变量之间的相关关系,因此在做原始变量的线性组合时(提取公因子),考虑的重点在于寻找相关关系最强的典型变量对,简化两组变量之间错综复杂的相关关系网。
案例分析
我们国家是个人口大国,最近一次人口普查结果显示我们国家的人口数达到13.3亿人,农村人口数达到50.32%,因此提高农村居民的生活水平一直以来都是国家管理的重要内容。农村居民的收入和支出能够很好地反映农村居民的生活水平。现在有一份数据,收集了全国30个省市自治区直辖市的农村居民收入和支出情况,包括四项收入数据和8项支出数据:分别是劳动收入(X1)、经营收入(X2)、转移收入(X3)、财产收入(X4);食品支出(Y1)、衣着支出(Y2)、居住支出(Y3)、家庭设备和服务支出(Y4)、医疗保健支出(Y5)、交通通讯支出(Y6)、文教娱乐支出(Y7)、其它支出(Y8)。SPSS数据如下图所示:
操作须知
SPSS没有为典型相关分析设置专门的操作菜单,只提供了一份名为Canonical correlation.sps的宏程序文件,这个文件存放在SPSS安装文件夹\Samples文件夹内。只需在使用时调用,并输入参数语句即可调用输出结果。
分析步骤
点击菜单【文件】-【新建】-【数据】,跳出语法编辑器窗口,输入以下内容。点击确定,输出结果。
结果解释
1、相关系数矩阵;结果输出了三个相关系数矩阵,分别是第一组变量、第二组变量、第一组与第二组之间的相关系数矩阵。变量线性组合的基础就是相关系数矩阵。从前两个相关系数矩阵可以发现,两组变量内部,变量之间的相关系数都非常大,说明它们反映的收入和支出因素是类似的,所以不能很好的反映影响农民收入和支出水平的整体情况。
2、线性相关系数及显著性检验。本案例中提取了4对典型变量(每组变量提取4个公因子),这四对变量之间的相关系数依次降低,从0.980减少到0.561。显著性检验结果显示只有前面两对典型变量的相关系数有统计学意义。
3、典型变量系数;下面有四个表格,第一行的两个表是第一组变量抽取典型变量的结果,作图使用标准化的原始变量数据,右图直接使用原始变量数据;第二行的两个表格则是第二组变量抽取典型变量的结果。根据这些表格的数据可以写出典型变量的计算公式。
第二步的典型变量相关系数的检验结果显示,只有前面两对典型变量的相关系数有统计学意义,U1与V1的相关系数为0.980,U2与V2的相关系数为0.908,因此下面只写出这两对典型变量由标准化数据组成的计算公式:
可以发现,因为两组变量的系数很多都是负的,所以这两对典型变量的现实含义不好解释,原因就在于前面提到的两组变量内部的相关关系太强,无法表示农村居民收入的综合情况。本案例数据建立的典型相关模型的效果很差,应该重新选择能够充分反映农村居民收入水平的变量。
4、相关系数结果;下图四个表是相关系数表,第一列是本组变量与本组产生的典型变量的相关系数;第二列是本组变量与另一组变量产生的典型变量之间的相关系数。
根据相关系数数据,可以做出两对典型变量的相关系数结构图,由于作图的方式是一样的,因此用第一对典型变量为例进行说明。从结构图同样可以知道,四个收入变量与公因子U1的相关系数都是负数,而8个支出变量与公因子V1的相关系数也都为负数,同样说明了本案例的典型相关模型效果很差,不能用现实含义来解释。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据驱动决策的时代,掌握多样的数据分析方法,就如同拥有了开启宝藏的多把钥匙,能帮助我们从海量数据中挖掘出关键信息,本 ...
2025-03-06在备考 CDA 考试的漫漫征途上,拥有一套契合考试大纲的优质模拟题库,其重要性不言而喻。它恰似黑夜里熠熠生辉的启明星,为每一 ...
2025-03-05“纲举目张,执本末从。”若想在数据分析领域有所收获,一套合适的学习教材至关重要。一套优质且契合需求的学习教材无疑是那关 ...
2025-03-04以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-04在现代商业环境中,数据分析师的角色愈发重要。数据分析师通过解读数据,帮助企业做出更明智的决策。因此,考取数据分析师证书成为了许多人提升职业竞争力的选择。本文将详细介绍考取数据分析师证书的过程,包括了解证书种类和 ...
2025-03-03在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2025-03-03数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-03-032025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-03-03大数据分析师培训旨在培养学员掌握大数据分析的基础知识、技术及应用能力,以适应企业对数据分析人才的需求。根据不同的培训需求 ...
2025-03-03小伙伴们,最近被《哪吒2》刷屏了吧!这部电影不仅在国内掀起观影热潮,还在全球范围内引发了关注,成为中国电影崛起的又一里程 ...
2025-03-03以下的文章内容来源于张彦存老师的专栏,如果您想阅读专栏《Python 数据可视化 18 讲(PyEcharts、Matplotlib、Seaborn)》,点 ...
2025-02-28最近,国产AI模型DeepSeek爆火,其创始人梁文峰走进大众视野。《黑神话:悟空》制作人冯骥盛赞DeepSeek为“国运级别的科技成果” ...
2025-02-271.统计学简介 听说你已经被统计学劝退,被Python唬住……先别着急划走,看完这篇再说! 先说结论,大多数情况下的学不会都不是知 ...
2025-02-27“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩稳定, ...
2025-02-26在数据分析工作中,你可能经常遇到这样的问题: 从浏览到消费的转化率一直很低,那到底该优化哪里呢? 如果你要投放广告该怎么 ...
2025-02-25近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的,尤 ...
2025-02-25挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-25在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-25以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-25“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-25