SPSS统计分析案例:对应分析
两个分类变量间的关系,无法直接使用常见的皮尔逊相关系数来表述,多采用频数统计、交叉表卡方检验等过程进行处理,当分类变量的取值较多时,列联表频数的形式就变得更为复杂,很难从中归纳出变量间的关系。
对应分析,则是解决分类变量间关系这个复杂问题的有力武器。也称为相应分析,是一种多元统计分析方法,目的是在同时描述各变量分类间关系时,在一个低维度空间中对对应表中的两个分类变量进行关系的描述。
常见应用领域如市场研究分析、竞争分析等。
一先看一个案例
对于男性而言,个人职位是否与吸烟有关,假设有人收集了这样的一组数据,如下:
数字表示人数,仅从交叉表内数据大小按照热度区分的话,效果大概是这个样子,红色越深的格子表示人数越多:
我们发现初级雇员普遍吸烟,中度最多,其他的表现并不明显,总体上很难发现什么规律。
除了热图之外,还可以考虑常见的条形图,效果如下:
可视化的效果要比前面热图好很多,给人的直观感觉是,职位较高的男性,重度吸烟的比例较低,多数从不吸烟。
经过以上两种图示化方法的预处理,我们能从其中总结职位和吸烟关系的把握并不大。
二SPSS交叉表卡方检验
熟悉SPSS统计分析的人可能还会想到,是否可以先采用交叉表卡方检验来观察职位和吸烟之间的关系呢?
在SPSS的数据视图下,对数据按频数变量进行加权,然后依次点击【分析】→【描述统计】→【交叉表】,在【交叉表:统计】对话框内勾选【卡方】,其他参数默认设置。来看结果:
原假设职位和吸烟两个变量间相互独立,渐进显著性小于0.01,说明两个变量间不完全独立,不同职位其吸烟程度有着显著差别。
卡方检验的结果给我们吃下一颗放心丸子,职位和吸烟之间的关系值得深入研究,但它们之间的关系到底应该如何描述呢?前面尝试的热力图、条形图、交叉表卡方检验均没有给出完美结论。
三SPSS简单对应分析
之所以前面先讲述三种方法,主要目的是告诉大家,对应分析实际上也是一种数据可视化的技术,同时它也能输出卡方检验,下面具体来看。
步骤1:案例数据导入SPSS软件
SPSS对应分析对数据的要求是按变量存储,一般包括三个变量,两个名义变量和一个频数变量,如果原始数据在Excel文件中是一个二维表,需要首先将其转换为一维表格,再导入SPSS软件。
小蚊子老师主编的畅销书《谁说菜鸟不会数据分析》(P164)中介绍过实用方法,在Excel数据文件中,采用【数据透视表向导】功能,利用【多重合并计算数据区域】的方法,快速地实现二维表转为一维表,我在 SPSS常见问题答疑电子书 中也有类似的讲述,对此感兴趣的可以参考学习。
数据较少时,最简单的方法就是复制粘贴,也可以快速实现二维表转一维表。不管如何处理,最终导入SPSS的数据文件长这样:
步骤2:数据加权
我们的分析任务是搞清楚职位和吸烟程度两个名义变量的关系,要对他们进行量化考察,需要用频数数据加权,SPSS数据视图下,依次点击菜单【数据】→【个案加权】,将频数数据移入右侧【频率变量】框内,对职位和吸烟两个变量进行加权。
步骤3:对应分析主面板参数设置
菜单栏中依次点击【分析】→【降维】→【对应分析】,打开对应分析主面板,依次将【不同职位】【吸烟程度】两个名义变量移入行和列框内。
点击下方【定义范围】按钮,以定义行范围为例,行变量【不同职位】有5个分类水平,标签值从小到到依次为1-5,所以最小值输入数字“1”,最大值输入数字“5”,然后点击右侧【更新】按钮,此时下方的【类别约束】框内自动出现1-5一个序列,类似操作,完成对列变量范围的定义。点击【继续】返回主面板。
步骤4:对应分析模型参数设置
在主面板上点击【模型】按钮,打开模型对话框。
一般默认采取2维,距离测量勾选【卡方】。对应分析也是一种降维技术,通常选择在一个二维表和二维图形中考察分类变量间的关系。
行和列变量间的距离测度软件默认选择【卡方】,当用卡方测量距离时,SPSS软件只默认选择【除去行列平均值】作为标准化方法。
最底部的【正态化方法】相对比较复杂,理解起来有一定难度,建议选择软件默认选项【对称】,检查两个变量分类间的差异或相似。
点击【继续】按钮,返回主面板。
步骤5:对应分析统计参数设置
软件默认勾选【对应表】【行点概述】【列点概述】,点击【继续】按钮,返回主面板。
步骤6:对应分析图参数设置
对应分析最重要的结果之一,就是对应图,主面板上点击【图】按钮,打开图对话框,散点图选项中默认勾选【双标图】,也就是我们最终想要的对应图了。其他默认设置,点击【继续】按钮,返回主面板。
最后在主面板中点击【确定】按钮,SPSS软件开始执行对应分析。
四SPSS对应分析结果解读
结果1、对应表
对应表实际上就是交叉表,行与列交叉的单元格显示为频数,行与列的活动边际,具体为对应行和列的和。对应表看看即可,了解一下,不用深究。
结果2、模型摘要表
模型摘要表是关键结果之一,重点考察。
此表类似于因子分析的总方差表,第一列【维】较抽象,可以理解为因子分析的因子,第2-5列分别为奇异值、惯量、卡方值及sig值,随后给出各个维度所能解释两个变量关系的百分比。
首先来看卡方检验的结果,卡方值=164.416,显著性Sig值=0.000<0.01,表明此次分析的两个名义变量,职位和吸烟程度不完全独立,存在一定关系,这和前面交叉表卡方检验结果一致。
卡方检验通过之后,再来解读对应分析的其他结果更有意义。
摘要表数据表明,前两个维度累积惯量可解释99.5%的信息,效果非常不错,此次分析较成功。
结果3、行/列点总览
这两个表格,主要输出各类别在各维度上的得分,后续最重要的对应图,将依据这两组维度得分进行绘制。
结果4、对应图
对应分析关键结果之一,重点考察。
模型摘要表中,我们已经确认前两个维度解释能力很棒,那么SPSS软件默认将采用这两个维度的得分制作二维散点图,也就是现在的对应图。
此时我们可以看到,不同职位的5个类别和吸烟程度的4个类别被标记为不同的颜色进行区分,职位点和吸烟点间距离有远有近,距离的远近包含了它们之间的关系。
总体观察来看,容易发现初级雇员和中度距离较近,可以理解为初级雇员多为中度吸烟;而高级雇员和从不吸烟的距离比较近,说明高级别雇员很少吸烟。此外职别最低的初级工程师和重度吸烟较近,说明这个级别的职工重度吸烟居多。
对应分析对应图的解读做过总结,一共有7种解读的方式,按照四象限以及市场定位的方法,本例分析的对应图可以作出如下优化:
以维度1原点为界,吸烟程度中的轻度、中度、重度均在左侧,而从不吸烟则单独出现在右侧,说明从不吸烟和其他三种类别区别较大,与此对应的是,高级工程师和高级雇员这三个职位也集中在右侧,可以理解为职别较高的人最有可能是从不吸烟。采用同样的方式,容易发现,初级雇员与轻度和中度吸烟距离较近,职别最低的初级工程师与重度吸烟距离近,这和总体观察时的结论一致。数据分析师培训
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31