机器学习中非平衡数据集的常用处理方法-CDA数据分析师官网

机器学习中非平衡数据集的常用处理方法

2018-03-25

机器学习中非平衡数据集的常用处理方法

不平衡数据集：

在分类等问题中，正负样本，或者各个类别的样本数目不一致。

：在人脸检测中，比如训练库有10万张人脸图像，其中9万没有包含人脸，1万包含人脸，这个数据集就是典型的不平衡数据集。
直观的影响就是，用这些不平衡的数据训练出来的模型，其预测结果偏向于训练数据中数据比较多的那一类，在人脸检测的例子中，就是检测器的检测结果大部分都偏向于没有检测到人脸图像。

另外一个不平衡数据集，就是信用卡欺诈交易，如果平均的抽取数据，则大部分的数据都是非欺诈交易，只有非常少的部分数据是欺诈交易

影响：不平衡的数据集上做训练和测试，其得到的准确率是虚高的，比如在不平衡数据中，正负样本的比例为9：1时，当它的精度为90%时，我们很有理由怀疑它将所有的类别都判断为数据多的那一类。

解决方法：8种

1.收集更多的数据：

好处：更够揭露数据类别的本质差别，增加样本少的数目以便后面的数据重采样。
（这个是最好的方法，但是一般比较难，通常处理的数据是难以收集的。）

2.尝试改变性能评价标准：

当数据不平衡时，准确度已经失去了它原有的意义，
可以参考的度量标准有：
1> 混淆矩阵CM
2>精度
3>召回率
4>F1 分数（权衡精度和召回率）
5>Kappa
6>ROC曲线

3.重采样数据：

1，拷贝一部分样本偏少的数据多分，已达到平衡（过采样）；
2，删除一部分样本偏多的数据，以使得达到平衡（欠采样）；
在实际中，过采样和欠采样都会使用的。
在测试中，如果样本总数比较多，可以用欠采样的数据进行测试，如果样本总数比较少，可以用过采样的数据进行测试；另外应该测试随机采样的数据和非随机采样的数据，同时，测试不同比例正负样本的数据。

4.生成合成数据：

最简单的是，随机采样样本数目比较少的属性，
另外一个比较出名的方法为：SMOTE
它是一种过采样的方法，它从样本比较少的类别中创建新的样本实例，一般，它从相近的几个样本中，随机的扰动一个特征，

5.使用不同的算法：

不要试图用一个方法解所有的问题，尝试一些其他不同的方法，比如决策树一般在不平衡数据集上表现的比较的好。

6.尝试惩罚模型:

意思就是添加新的惩罚项到cost函数中，以使得小样本的类别被判断错误的cost更大，迫使模型重视小样本的数据。
比如：带惩罚项的SVM

7.使用不同的视角：

不平衡的数据集，有专门的邻域和算法做这个，可以参考他们的做法和术语。
比如：异常检测。

8.尝试新的改进：

比如：1.把样本比较多的类别，分解为一些更多的小类别，
比如：原始我们想区分数字0和其它数字这二分类问题，我们可以把其它数字在分为9类，变成0–9的分类问题.

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

过采样召回率决策树 SVM 特征混淆矩阵机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇如何踏上人工智能与数据科学之路(机器学习篇)

下一篇机器学习中常见的几种最优化方法

机器学习中非平衡数据集的常用处理方法

CDA考试动态

CDA报考指南

热门栏目

最新资讯

Youtube百万粉丝大佬：数据分析师职业发展路径 ...

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...