SPSS—描述性统计分析—列联表-CDA数据分析师官网

SPSS—描述性统计分析—列联表

2018-01-09

什么是列联表

列联表又称交互分类表，所谓交互分类，是指同时依据两个变量的值，将所研究的个案分类。交互分类的目的是将两变量分组，然后比较各组的分布状况，以寻找变量间的关系。

这里是按两个变量交叉分类的，该列联表称为两维列联表，若按3个变量交叉分类，所得的列联表称为3维列联表，依次类推。3维及以上的列联表通常称为“多维列联表”或“高维列联表”，而一维列联表就是频数分布表。

列联表的结构

二维列联表

r * c 列联表

观察值的分布

百分比分布

期望频数的分布

假设检验

独立性检验

假设观察频数与期望频数没有差别，而统计量χ2值表示二者间的偏离程度。

相关系数

ψ相关系数

皮尔逊定义的列联系数

V相关系数

Fisher精确检验

卡方统计量是近似的，而Fisher精确检验使用的是超几何分布。

相对危险度（Relative Risk, RR）

参考下面的SPSS实例

优势比(Odds Ratio, OR)

参考下面的SPSS实例

Kappa一致性检验

在数据分析中，比较两种预测方法预测结果的一致性用到Kappa检验。

配对χ2检验

通过Kappa检验，解决了两种测量间究竟有无关联的问题，但是通过列联表的观察，发现两位顾问的评价是否不太一致，这种假设又如何来加以分析呢？

McNemar配对χ2检验就是经典的配对检验，专门用于解决这类问题。

分层χ2检验

分层χ2检验是把研究对象分解成不同层次，按各层对象来进行行变量与列变量的独立性研究。Statistics中Cochran’s and Mantel-Haenszel statistics会自动给出结果。

分层χ2检验是一种很好的控制其他因素的方法，使分析者能得到更准确的结果。如果数据量足够大，还可以引入更多的分层因素加以控制。但是，和SAS中的CMH χ2不同，SPSS提供的CMH χ2检验只能进行二分类变量的检验，而不能进行多分类变量的检验。

检验比较

χ2检验
假设观察频数与期望频数没有差别，而统计量χ2值表示二者间的偏离程度。
卡方检验方法的适用条件

关联程度的度量

χ2检验从定性的角度分析是否存在相关行，而各种关联指标（相对危险度RR与优势比OR）从定量的角度分析相关的程度如何。

Kappa一致性检验与配对χ2检验

Kappa一致性检验对两种方法结果的一致程度进行评价，而配对χ2检验则用于分析两种分类方法的分类结果是否有差异。

分层χ2检验

SPSS分析

菜单

Analyze -> Descriptive Statistics -> Crosstabs

实例一：卡方检验和风险评估

数据集（site.sav）

某公司实行数据库营销，其杂志销售部每个月向数据库中的人们发送征订邮件，但是回应率极低。他们希望找到一种好的方法来定位潜在的客户，只向这些客户发放邮件，从而节省人力物力。数据库中的资料包括：个人一般信息（年龄、性别、婚姻状况、收入、受教育水平及是否退休等），个人行为特征（主要交通工具、有无手机、呼机、电视、CD及是否订阅报纸）。另外，在发送邮件后，还有一个变量也加入到了数据库中：是否对邮件进行回应，即是否在邮件的提示性进行杂志购买。经研究发现，报纸订阅与邮件发送有相关性。该部门经理想了解报纸订阅者回应邮件的概率是非订阅者的几倍。

参数设置

统计量

结果分析

交叉制表

列联表分析表明，并没有太多人对杂志的邮件做出回应，但是其中订阅人占了较大比例。

卡方检验

p值为0.000，故认为订阅报纸与邮件回应是相关的。那么报纸订阅者的回应概率是未订阅者的多少倍呢？通过计算RR来解决。

风险估计

对于报纸订阅者而言，邮件响应的相对危险度是其回应概率与非报纸订阅者的回应概率的比值，其估计值是(380/2768) / (299/3632) = 13.7% / 8.2%=1.668，表明报纸订阅者对邮件的响应概率是非报纸订阅者的1.668倍。或者说报纸订阅者对邮件的无响应的概率是非报纸订阅者的0.94倍。

而优势比即一个事件的Odds Ratio是它发生的概率除以不发生的概率

实例二：Kappa一致性检验和配对卡方检验

数据集（site.sav）

某公司期望扩展业务，增开几家分店，但对开店地址不太确定。于是选了20个地址，请两位资深顾问分别对20个地址作了一个评价，把它们评为好、中、差三个等级，以便确定应对哪些地址进行更进一步调查，那么这两位资深顾问的评价结果是否一致。

参数设置

统计量

结果分析

交叉制表

Kappa一致性检验

Kappa检验的原假设：Kappa=0，即两者完全无关。结果显示Kappa=0.478，P<0.05，拒绝原假设，认为两位顾问的评价结果存在一致性。

配对卡方检验

Kappa一致性检验对两种方法结果的一致程度进行评价，而配对χ2检验则用于分析两种分类方法的分类结果是否有差异。

此处原假设：两顾问的评价结果无差别，而p=0.072>0.05，故接受原假设，认为基本上相同

实例三：分层卡方检验

数据集（cmh.sav）

某零售连锁店对3家分店的客户满意度进行了调查，数据见cmh.sav，其中一项指标是在购物时是否经常向店员寻求帮助，现希望分析寻求帮助与性别有无联系。

统计结果

未分层的卡方检验

将gender和contact分别作为行变量和列变量，并做χ2检验，p<0.05，认为两者间有联系。

因为每家分店的结果可能不一样，上面的卡方检验收到分店因素的影响可能不准确，需要根据分店进行分层统计。

但是分层因素在几个组之间的分布不均，既可能削弱了原本存在的行变量与列变量间的关系，也可能使得原本不存在关系的两个变量关系呈现统计学显著性。

按分店分层卡方检验

可以看到分店的卡方检验并无显著性（p > 0.05），说明每个分店的寻求帮助与性别之间没有强关联。

但是，由于分层后样本量大大减小，这究竟是因为检验效能不足导致的无差异，还是真的无差异？

为此可以使用Cochran’s and Mantel-Haenszel χ2检验来分析。这种方法可以在考虑了分层因素的影响后给出检验结果。

Cochran’s and Mantel-Haenszel χ2检验

首先给出的是层间差异的检验，即考察不同层间gender与contact的联系是否相同。

原假设H0: 分店之间的联系是相同的。

p = 0.638说明，在不同分店层间， gender与contact的联系是相同的。

调整了分层因素作用后的综合OR值=0.636，即去除了不同分店的混杂效应后，和女性相比，男性顾客寻求帮助的优势比为0.636，或者说更不容易寻求帮助。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

特征假设检验数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇SPSS—描述性统计分析—频数分析

下一篇五分钟带你看懂什么是区块链

SPSS—描述性统计分析—列联表

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...