为什么说朴素贝叶斯是高偏差低方差？-CDA数据分析师官网

为什么说朴素贝叶斯是高偏差低方差？

2019-04-04

大家在学习机器学习的时候可能听说过一种算法，这种算法就是朴素贝叶斯算法，而很多人说朴素贝叶斯算法是高偏差低方差，在这篇文章中我们就详细的为大家介绍一下朴素贝叶斯为什么被说高偏差低方差的原因。

首先，我们假设知道训练集和测试集的关系。简单来讲是我们要在训练集上学习一个模型，然后拿到测试集去用，效果好不好要根据测试集的错误率来衡量。但很多时候，我们只能假设测试集和训练集的是符合同一个数据分布的，但是我们却拿不到真正的测试数据。那么问题来了，怎么在只看到训练错误率的情况下，去衡量测试错误率呢？

而由于训练样本很少，因此通过训练集得到的模型，不是真正正确的。而且，在实际中，训练样本往往还有一定的噪音误差，所以如果太追求在训练集上的完美而采用一个很复杂的模型，会使得模型把训练集里面的误差都当成了真实的数据分布特征，从而得到错误的数据分布估计。如果按照这样的结果，到了真正的测试集上就错的很明显了。但是也不能用太简单的模型，否则在数据分布比较复杂的时候，模型就不足以刻画数据分布，而体现为连在训练集上的错误率都很高，这种现象较欠拟合。过拟合表明采用的模型比真实的数据分布更复杂，而欠拟合表示采用的模型比真实的数据分布要简单。

当然，在统计学习框架下，大家刻画模型复杂度的时候，很多人认为模型的预测错误率是有两部分组成的，一部分是由于模型太简单而带来的估计不准确的部分，另一部分是由于模型太复杂而带来的更大的变化空间和不确定性。其实这样的想法是正确的，所以说，这样就容易分析朴素贝叶斯了。它简单的假设了各个数据之间是无关的，是一个被严重简化了的模型。所以，对于这样一个简单模型，大部分场合都会不准确部分大于不确定部分，也就是说高偏差而低方差。所以说在实际中，为了让错误率尽量小，我们在选择模型的时候需要平衡不准确和不确定性所占的比例，这样当模型复杂度上升的时候，偏差会逐渐变小，而方差会逐渐变大。

相信大家看了这篇文章以后已经知道了为什么说朴素贝叶斯是高偏差低方差的原因了吧？大家在进行机器学习的时候一定要做到对每个算法有比较深入的了解。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

朴素贝叶斯偏差欠拟合机器学习特征过拟合

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇机器学习的常见错误——只有模型没有系统

下一篇数据分析与数据挖掘的不同之处

为什么说朴素贝叶斯是高偏差低方差？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

单因素方差分析结果与多重比较

【CDA干货】13年国企财务：这样使用财务数据分析模 ...

Youtube百万粉丝大佬：数据分析师职业发展路径 ...

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...