如何使用spss进行交叉列联表分析_数据分析师-CDA数据分析师官网

如何使用spss进行交叉列联表分析_数据分析师

2015-01-06

如何使用spss进行交叉列联表分析_数据分析师

在实际分析中，除了需要对单个变量的数据分布情况进行分析外，还需要掌握多个变量在不同取值情况下的数据分布情况，从而进一步深入分析变量之间的相互影响和关系，这种分析就称为交叉列联表分析。

当所观察的现象同时与两个因素有关时，如某种服装的销量受价格和居民收入的影响，某种产品的生产成本受原材料价格和产量的影响等，通过交叉列联表分析，可以较好地反映出这两个因素之间有无关联性及两个因素与所观察现象之间的相关关系。

因此，数据交叉列联表分析主要包括两个基本任务：一是根据收集的样本数据，产生二维或多维交叉列联表；二是在交叉列联表的基础上，对两个变量间是否存在相关性进行检验。要获得变量之间的相关性，仅仅靠描述性统计的数据是不够的，还需要借助一些表示变量间相关程度的统计量和一些非参数检验的方法。

常用的衡量变量间相关程度的统计量是简单相关系数，但在交叉列联表分析中，由于行列变量往往不是连续变量，不符合计算简单相关系数的前提条件。因此，需要根据变量的性质选择其他的相关系数，如Kendall等级相关系数、Eta值等。

SPSS提供了多种适用于不同类型数据的相关系数表达，这些相关性检验的零假设都是：行和列变量之间相互独立，不存在显著的相关关系。根据SPSS检验后得出的相伴概率（Concomitant Significance）判断是否存在相关关系。如果相伴概率小于显著性水平0.05，那么拒绝零假设，行列变量之间彼此相关；如果相伴概率大于显著性水平0.05，那么接受原假设，行列变量之间彼此独立。

在交叉列联表分析中，SPSS所提供的相关关系的检验方法主要有以下3种：

（1）卡方（χ2）统计检验：常用于检验行列变量之间是否相关。计算公式为：

如何使用spss进行交叉列联表分析

其中，f0表示实际观察频数，fe表示期望频数。

卡方统计量服从（行数 1）（列数 1）个自由度的卡方统计。SPSS在计算卡方统计量时，同时给出相应的相伴概率，由此判断行列变量之间是否相关。

（2）列联系数（Contingency coefficient）：常用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得，公式如下：

如何使用spss进行交叉列联表分析

（3）系数（Phi and Cramer's V）：常用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得，公式如下：

如何使用spss进行交叉列联表分析

系数介于0和1之间，其中，K为行数和列数较小的实际数。

交叉列联表分析的具体操作步骤如下：

打开数据文件，选择【分析】（Analyze）菜单，单击【描述统计】（Descriptive Statistics）命令下的【交叉表】（Crosstabs）命令。"交叉表"（Crosstabs）主对话框如图3-13所示。

如何使用spss进行交叉列联表分析

在该主对话框中，左边的变量列表为原变量列表，通过单击按钮可选择一个或者几个变量进入右边的"行"（Row(s)）变量列表框、"列"（Column(s)）变量列表框和"层"（Layer）变量列表框中。

如果是二维列联表分析，只需选择行列变量即可，但如进行三维以上的列联表分析，可以将其他变量作为控制变量选到"层"（Layer）变量列表框中。有多个层控制变量时，可以根据实际的分析要求确定它们的层次，既可以是同层次的也可以是逐层叠加的。

在"交叉表"对话框底端有两个可选择项：

显示复式条形图（Display clustered bar chart）：指定绘制各个变量不同交叉取值下关于频数分布的柱形图；

取消表格（Suppress table）：不输出列联表的具体表格，而直接显示交叉列联表分析过程中的统计量，如果没有选中统计量，则不产生任何结果。所以，一般情况下，只有在分析行列变量间关系时选择此项。

该对话框的右端有4个按钮，从上到下依次为【精确】（Exact）按钮、【统计量】（Statistics）按钮、【单元格】（Cells）按钮和【格式】（Format）按钮。单击可进入对应的对话框。

单击【精确】（Exact）按钮，打开"精确检验"（Exact Tests）对话框，如图3-14所示。

该对话框提供了3种用于不同条件的检验方式来检验行列变量的相关性。用户可选择以下3种检验方式之一：

仅渐近法（Asymptotic only）：适用于具有渐近分布的大样本数据，SPSS默认选择该项。

Monte Carlo（蒙特卡罗法）：此项为精确显著性水平值的无偏估计，无需数据具有渐近分布的假设，是一种非常有效的计算确切显著性水平的方法。在"置信水平"（Confidence Level）参数框内输入数据，可以确定置信区间的大小，一般为90、95、99。在"样本数"（Number of samples）参数框中可以输入数据的样本容量。

精确（Exact）：观察结果概率，同时在下面的"每个检验的时间限制为"（Time limit per test）的参数框内，选择进行精确检验的最大时间限度。

用户在本对话框内进行选择后，单击【继续】（Continue）按钮即可返回"交叉表"主对话框。一般情况下，"精确检验"（Exact Tests）对话框的选项都默认为系统默认值，不作调整。

如何使用spss进行交叉列联表分析

单击【统计量】（Statistics）按钮，打开"交叉表：统计量"（Crosstabs：Statistics）对话框，如图3-15所示。

在该对话框中，用户可以选择输出合适的统计检验统计量。对话框中各选项的意义如下：

（1）卡方（Chi-square）检验复选框：检验列联表行列变量的独立性检验，也被称为Pearson chi-square检验、χ2检验。

（2）相关性（Correlations）检验复选框：输出列联表行列变量的Pearson相关系数或Spearman相关系数。

（3）名义（Nominal）栏：适用于名称变量统计量。

相依系数（Contingency coefficient）：即Pearson相关系数或Spearman相关系数。

Phi 和Cramer变量（系数）：常用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得，如公式（3.13）所示。ψ系数介于0和1之间，其中，K为行数和列数较小的实际数。

Lambda（λ系数）：在自变量预测中用于反映比例缩减误差，其值为1时表明自变量预测因变量好，为0时表明自变量预测因变量差。

不定性系数（Uncertainty coefficient）：以熵为标准的比例缩减误差，其值接近1时表明后一变量的信息很大程度上来自前一变量，其值接近0时表明后一变量的信息与前一变量无关。

如何使用spss进行交叉列联表分析

（4）有序（Ordinal）栏：适用于有序变量的统计量。

Gamma（伽马系数，γ系数）：两有序变量之间的关联性的对称检验。其数值界于0和1之间，所有观察实际数集中于左上角和右下角时，取值为1，表示两个变量之间有很强的相关；取值为0时，表示两个变量之间相互独立。

Somers'd值：两有序变量之间的关联性的检验，取值范围为[-1，1]。

Kendall s tau-b值：考虑有结的秩或等级变量关联性的非参数检验，相同的观察值选入计算过程中，取值范围为[-1，1]。

Kendall s tau-c值：忽略有结的秩或等级变量关联性的非参数检验，相同的观察值不选入计算过程，取值范围界为[-1，1]。

（5）按区间标定（Nominal by interval）栏：适用于一个名义变量与一个等距变量的相关性检验。

Kappa系数：检验数据内部的一致性，仅适用于具有相同分类值和相同分类数量的变量交叉表。

Eta值：其平方值可认为是因变量受不同因素影响所致方差的比例。

风险（相对危险度）：检验事件发生和某因素之间的关联性。

McNemar检验：主要用于检验配对的资料率（相当于配对卡方检验）。

（6）Cochran's and Mantel-Haenszel统计量复选框：适用于在一个二值因素变量和一个二值响应变量之间的独立性检验。

用户在"交叉表：统计量"对话框中进行选择后，单击【继续】（Continue），即可返回"交叉表"（Crosstabs）主对话框。一般情况下，对"交叉表：统计量"对话框内的选项不作选择或选择较为常用的卡方检验。

单击【单元格】（Cells）按钮，打开"交叉表：单元显示"（Crosstabs：Cell Display）对话框，如图3-16所示。

如何使用spss进行交叉列联表分析

在该对话框中，用户可以指定列联表单元格中的输出内容。SPSS17.0默认在交叉列联表中输出实际的观察值，但观察值有时候不能确切地反映事物的实质，因此还需要输出其他的数据项。对话框中各选项的具体意义如下：

（1）计数（Counts）栏：

观察值（Observed）：系统默认选项，表示输出为实际观察值。

期望值（Expected）：表示输出为理论值。

（2）百分比（Percentages）栏：

行（Row）百分比：以行为单元，统计行变量的百分比。

列（Column）百分比：以列为单元，统计列变量的百分比。

总计（Total）百分比：行列变量的百分比都进行输出。

（3）残差（Residuals）栏：

未标准化（Unstandardized）：输出非标准化残差，为实际数与理论数的差值。

标准化（Standardized）：输出标准化残差，为实际数与理论数的差值除以理论数。

调节的标准化（Adjusted standardized）：输出修正标准化残差，为标准误确定的单元格残差。

（4）非整数权重（Noninteger Weights）栏：

四舍五入单元格计数（Round cell counts，系统默认）：将单元格计数的非整数部分的尾数四舍五入为整数。

截短单元格计数（Truncate cell counts）：将单元格计数的非整数部分的尾数舍去，直接化为整数。

四舍五入个案权重（Round case Weights）：将观测量权数的非整数部分的尾数四舍五入为整数。

截短个案权重（Truncate case Weights）：将观测量权数的非整数部分的尾数舍去，化为整数。

无调节（No adjustments）：不对计数数据进行调整。

用户在"交叉表：单元显示"对话框中进行选择后，单击【继续】（Continue）按钮，即可返回"交叉表"主对话框。一般情况下，对"交叉表：单元显示"对话框的选项都默认为系统默认值，不作调整。

单击【格式】（Format）按钮，打开"交叉表：表格格式"（Crosstabs：Table Format）对话框，如图3-17所示。

如何使用spss进行交叉列联表分析

在该对话框中，用户可以指定列联表的输出排列顺序。对话框中各选项的具体意义如下：

在行序（Row Order）栏中有如下两个选项：

升序（Ascending）：系统默认，以升序显示各变量值；

降序（Descending）：以降序显示各变量值。

用户在该对话框中进行选择后，单击【继续】（Continue）按钮，即可返回"交叉表"主对话框。

在"交叉表"对话框中单击【确定】（OK）按钮，可在输出窗口中得到数据概述、交叉列联表、卡方检验表、交叉分组下频率分布柱形图、相对危险性估计等图表。更多相关文章:CDA数据分析师官网

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

交叉表数据分析条形图

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

如何使用spss进行交叉列联表分析_数据分析师

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...