集成学习是什么？有哪些分类？-CDA数据分析师官网

集成学习是什么？有哪些分类？

2020-07-03

今天小编给大家带来的是现在非常火爆的机器学习方法——集成学习。集成学习，顾名思义，通过将多个单个学习器集成/组合在一起，使它们共同完成学习任务，有时也被称为“多分类器系统(multi-classifier system)”、基于委员会的学习(Committee-based learning)。

它本身不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成，回归问题集成，特征选取集成，异常点检测集成等等，可以说所有的机器学习领域都可以看到集成学习的身影。

一般集成学习会通过重采样获得一定数量的样本，然后训练多个弱学习器(分类精度稍大于50%)，采用投票法，即“少数服从多数”原则来选择分类结果，当少数学习器出现错误时，也可以通过多数学习器来纠正结果。

集成学习分类

目前根据个体学习器的生成方式，集成学习可以分为两大类：

1)个体学习器之间存在较强的依赖性，必须串行生成的序列化方法：boosting类算法;

Boosting是一簇可将弱学习器提升为强学习器的算法。其工作机制为：先从初始训练集训练出一个基学习器，再根据基学习器的表现对样本分布进行调整，使得先前的基学习器做错的训练样本在后续收到更多的关注，然后基于调整后的样本分布来训练下一个基学习器;如此重复进行，直至基学习器数目达到实现指定的值T，或整个集成结果达到退出条件，然后将这些学习器进行加权结合。

2)个体学习器之间不存在强依赖关系，可以并行生成学习器：bagging和随机森林

Bagging的算法原理和 boosting不同，它的弱学习器之间没有依赖关系，可以并行生成。

Bagging的基本流程：

1.经过T轮自助采样，可以得到T个包含m个训练样本的采样集。

2.然后基于每个采样集训练出一个基学习器。

3.最后将这T个基学习器进行组合，得到集成模型。

随机森林(Random Forest，简称RF) 是Bagging的一个扩展变体。

随机森林对Bagging做了小改动：

1.Bagging中基学习器的“多样性”来自于样本扰动。样本扰动来自于对初始训练集的随机采样。

2.随机森林中的基学习器的多样性不仅来自样本扰动，还来自属性扰动。

3.这就是使得最终集成的泛化性能可以通过个体学习器之间差异度的增加而进一步提升。

4.随机森林在以决策树为基学习器构建Bagging集成模型的基础上，进一步在决策树的训练过程中引入了随机属性选择。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

集成学习随机森林机器学习决策树特征

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇逻辑回归（Logistic Regression）有哪些优缺点?

下一篇机器学习中的泛化能力指的是什么？

集成学习是什么？有哪些分类？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...