CDA LEVEL 1 考试，知识点汇总《分类分析》

2024-08-13

一、相关性检验

列联表和卡方检验分类变量之间的相关性一般可以采用列联表分析或卡方检验的方法来进行验证。列联表是两个分类变量的分类水平之间形成的交叉频数表，通过计算行百分比或列百分比，对实际频率和期望频率进行对比分析，例如一个典型的列联表如下：

对于表中频数、期望频数、行/列百分比的解读方法要熟练掌握。比如98代表的是头发颜色为金色，眼睛颜色为深色的样本数量。而355.2则是期望的数量。6.7%是行百分比，也就是在所有头发颜色为金色的样本中，眼睛颜色为深色的占比。

列联表是一种比较简单的描述性统计方法，而卡方检验则可以通过量化的方法对两个分类变量的相关性进行检验，卡方统计量如下：

二、逻辑回归

在掌握了列联表分析和卡方检验的基础上，可以学习使用逻辑回归对分类变量进行预测。逻辑回归主要处理的就是分类问题。事实上，也可以把他看作是线性回归一种延伸。我们面对的因变量，也就是模型输出结果不再是一个连续变量，而是一个分类变量。最常见的逻辑回归就是二分类变量逻辑回归，通常我们可以使用这种方法来寻找目标客户。

三、逻辑回归，变量筛选

1.进行逻辑回归时，我们希望选择的变量尽可能地有效，避免冗余。常用的变量筛选方法有如下几种：

Wald检验：通过Wald统计量，来检验自变量对因变量的影响能力。Wald越大，说明自变量的相关性越大，越应该保留。

似然比检验(Likehood Ratio)：也是逻辑回归非常常用的一种检验方法。逻辑回归模型的估计一般是使用最大似然估计，也就是说找到一个似然函数L，使其达到最大值。L越大，也就说明模型的预测效果越好。因此似然比检验本质上是对包含或者不包含某一个或者几个变量的模型L值进行比较，从而做出判断。

比分检验(Score Test)：以包含某个或者某几个变量的模型作为基础，加入系数为0的新变量，通过计算似然函数的一阶偏导数和信息矩阵，取两者的乘积作为最终的统计量。

这三种方法中，似然比检验是最可靠，也是最常用的一种变量筛选方法。在变量存在共线性时，Wald检验结果不可靠。另外，实际应用是以上三种方法，都可以采用向前或者向后逐步的方式进行变量筛选。

另外在逻辑回归模型里，我们需要使得自变量和因变量的对数存在线性关系。如果发现实际的变量不符合，可以通过筛选变量，变量转换等方式进行调整。另外变量转换也可以避免异常值对结果造成偏差。

前面提到，逻辑回归的模型参数估计通常采用的是最大似然函数法，因此理论上需要有一定量的样本才能采用这种方法，否则检验公式就是不合理的。另外也需要注意的是，逻辑回归的模型无法解决多重共线性的问题，因此在输入变量前，对变量进行检验和清洗是非常必要的。得到模型后，我们可以通过混淆矩阵和ROC曲线来评判模型的效果。

2.混淆矩阵——灵敏度和特异度

灵敏度指的是模型“击中”的概率，也就是对于实际发生（取值为1）的样本，模型预测为1的概率。对应上图的公式为 A/(A+B)。

特异度指的是模型“正确否定”的概率，也就是说对于实际没发生（取值为0）的样本，模型预测为0的概率。对应上图的公式为D/(C+D)。

因此，可以看到不管是灵敏度还是特异度，都是越高，说明我们的模型越有效。在实际应用中，由于逻辑回归模型计算的结果其实是一个相对可能性p，因此我们可以根据实际情况调整判断取值为1的p的标准。更有侧重性地提高灵敏度或者特异度。

3.ROC曲线

除了使用混淆矩阵，我们还可以通过ROC曲线的方式来图形化地判断模型效果。

ROC曲线也是基于灵敏度和特异度来进行判断的。曲线下面积AUC 指的是ROC曲线、底线和右侧线围成的面积。ROC曲线的面积一般在0.5-1之间。这个数值越接近1，表明模型预测能力越强。当AUC 在0.7-0.9时，我们认为模型有较高的判断作用。而AUC接近0.5的时候，我们人为这个模型是无效的。

在实际业务中，我们一般利用二分类逻辑回归作为筛选目标客户的主要手段。不管是识别明星客户、流失客户，甚至是可能存在违约或者欺诈行为的客户，都可以采用这种方法。

四、例题精讲

1. 某客户为欺诈的概率为0.4，则优势odds为（）？

A. 0.4

B .2 / 3

C. 3 / 2

D. 0.6

答案：B 解析：该题考核了二分类变量分析的基础知识。Odds的定义是显性结果的概率比上非显性结果的概率，因此为0.4 / 0.6，等于2 / 3。

2. 建立逻辑回归时，为什么有时候需要对连续变量进行分箱处理?

A. 避免变量的共线性

B. 捕获原始连续变量和被解释变量之间非线性关系

C. 避免异常值影响

D. 修正残差非正态分布

答案：BC 解析：如果发现解释变量与反应变量之间相关，但又不呈现线性关系时，往往会对解释变量进行分箱，同时分箱也能够消除极端值。因此选BC。

点击CDA题库链接，获取免费版CDA题库入口，祝考试顺利，快速拿证！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

逻辑回归 ROC曲线特异度混淆矩阵二分类 AUC 列联表分析异常值

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇什么是业务分析模型，如何搭建业务模型？

下一篇大厂急需，人才空缺2000万，这个职业今年又火了！

CDA LEVEL 1 考试，知识点汇总《分类分析》

一、相关性检验

二、逻辑回归

三、逻辑回归，变量筛选

四、例题精讲

CDA考试动态

CDA报考指南

热门栏目

最新资讯

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...