不平衡学习算法的评估指标-CDA数据分析师官网

不平衡学习算法的评估指标

2018-04-05

不平衡学习算法的评估指标

先来看下类不平衡的定义：对于二元分类问题，存在类别分布不平衡的问题，即某一类别的样本数量远远多于另一类（分别称为多数类和少数类）。具有这样特征的二元分类数据集被称为不平衡的（Imbalanced Data），有时候也称（skewed data）。

分类错误率作为传统分类学习的评估指标，显然无法适应于不平衡分类问题。至于为什么，这里给大家举个例子解释一下：

看上面这个例子，使用的逻辑回归模型的测试集上的分类正确率能够达到99%，我们会认为在这是一个相当不错的性能，但是如果考虑到测试集上只有0.5%的人真的有癌症，那么如果我直接让所有的预测结果都为y=0，即整个测试集都预测为没有癌症，那么分类的正确率会高达99.5%，但是显然这个模型泛化能力巨差。

一、评估指标一：precision、recall、F-Measure

那么就需要新的评估指标来评估这个模型的性能，下面介绍precision（精度，又叫查准率）和recall（召回率，又叫查全率）。

对于一个二元分类问题，称少数类为P（positive），即正类，多数类为N（negative），即负类。那么根据实际类别和预测类别存在一个混淆矩阵（confusion matrix），如下：

根据上述混淆矩阵，可得精度和召回率的定义：

其中，true positive（TP）称为真正，就是实际类别为正，预测类别也为正。false positive（FP）称为假正，其为实际类别为负，预测类别为正，因为是假正。true negative为真负，false negative为假负。

但是有了这两个指标，该如何利用这两个指标去评估模型的性能呢，因为这两个指标往往不能同时兼顾，有时一个分类器可能有很高的精度但召回率很低，又或有很高的召回率但是精度很差。看如下一个例子：

那么，这三个算法中该如何选择呢？因此，为了折中precision和recall，引进了一个新的评估指标F-Measure，其定义如下：

通常取值为1，因此就有了常用的

，其定义如下：

因此，能够看出F-Measure是对precision和recall的折中。一般来说，F-Measure的值越高，认为分类器性能越好。

二、评估指标二：接受者操作特征曲线（ROC）

如上图所示的ROC示意图，其以假正率（False Positive Rate）为x轴，真正率（True Positive Rate）为y轴。如上图所示，其中点D(0，1)代表最理想的分类器性能，分布在对角线上的点，如点F代表随机猜测的分类器，而在对角线下方的点表示其分类器性能比随机猜测还要差。当分类器输出一系列连续值时能够画出ROC曲线如L1、L2，曲线下方的面积即AUC(areas under the curve）可以用于评估一个分类器的性能，AUC的值越大代表分类其性能越好。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

召回率特征混淆矩阵逻辑回归泛化能力

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇教你用Python实现简单监督学习算法

下一篇Python温度转换实例分析

不平衡学习算法的评估指标

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...