过拟合是如何产生的？有什么好的解决方法？-CDA数据分析师官网

过拟合是如何产生的？有什么好的解决方法？

2020-07-23

在机器学习中，相对于欠拟合，过拟合出现的频次更高。这是因为，假设某一数据集其对应的模型为‘真’模型，我们通常是采用提高模型的复杂度的方法，来避免欠拟合现象的产生，但与此同时，我们又很难把网络设计成和‘真’模型一样，所以最终网络模型会因为复杂度太高而产生过拟合。今天小编就给大家整理了过拟合产生的原因及一些相应的解决方法，希望对大家机器学习中解决过拟合问题有所帮助。

一、什么是过拟合

过拟合定义：给定一个假设空间H，一个假设h属于H，如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小，但在整个实例分布上h’比h的错误率小，那么就说假设h过度拟合训练数据。

过拟合(overfiting / high variance)表现为：模型在训练集上表现很好，但是在测试集上表现较差。也就是说模型的泛化能力弱。

简单理解过拟合，就是模型对训练数据的信息提取过多，不仅学习到了数据背后的规律，连数据噪声都当做规律学习了。

对比欠拟合理解起来会更容易：

二、过拟合产生原因

三、过拟合处理办法

1、重新清洗数据，过拟合出现也有可能是数据不纯，这种情况下我们需要重新清洗数据。

2、数据增强，也就是获取和使用更多的数据集。给与模型足够多的数据集，让它在尽可能多的数据上进行“观察”和拟合，从而进行不断修正。但是需要注意的是，我们是不可能收集无限多的数据集的，所以通常的方法，就是对已有的数据进行，添加大量的“噪音”，或者对图像进行锐化、对旋转、明暗度进行调整等。

3、采用正则化方法。加入正则化项就是在原来目标函数的基础上加入了约束。常用的正则化项有L1.L2.当目标函数的等高线和L1.L2正则化损失函数第一次相交时，得到最优解。

L1正则化项约束后的解空间为多边形，这些多边形的角和目标函数的接触机会远大于其他部分。就会造成最优值出现在坐标轴上，因此就会导致某一维的权重为0 ，产生稀疏权重矩阵，进而防止过拟合。

L2正则化项约束后的解空间为圆形，图像上的棱角圆滑了很多。一般最优值不会在坐标轴上出现。在最小化正则项时，参数不断趋向于0.最后得到的就是很小的参数。

4、采用dropout方法。

运用了dropout方法，就相当于训练了非常多的，仅仅只有部分隐层单元的神经网络，每一个这种半数网络，都能够给出一个分类结果，这些结果中，有正确的，也有错误的。随着训练的进行，大多数半数网络都能给出正确的分类结果。这样一来，那些少数的错误分类结果对于最终结果就不会哦造成大的影响。而且dropout通过减少神经元之间复杂的共适应关系，从而也提高了模型的泛化能力。

5、提前结束训练

也就是early stopping，在模型迭代训练时，对训练精度(损失)和验证精度(损失)进行记录，如果模型训练的效果不能够再提高，例如训练误差一直降低，但是验证误差却不再降低甚至上升的情况，我们可以采用结束模型训练的方法。

6、集成学习

集成学习算法也可以有效的减轻过拟合。Bagging通过平均多个模型的结果，来降低模型的方差。Boosting不仅能够减小偏差，还能减小方差。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

过拟合欠拟合泛化能力集成学习机器学习损失函数偏差神经网络

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇欠拟合产生的原因有哪些？应该如何解决？

下一篇CNN、RNN、GAN都是什么？终于有人讲明白了

过拟合是如何产生的？有什么好的解决方法？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...