3种常见集成算法模型的详细理解-CDA数据分析师官网

3种常见集成算法模型的详细理解

2020-07-08

集成算法（Emseble Learning）是构建多个学习器，然后通过一定策略将这些学习器组合起来，让它们来完成学习任务的，通常可以获得比单一学习显著优越的学习器。

常见的集成算法模型有：Bagging、Boosting、Stacking。下面小编对这三种模型进行简单的介绍。

1.Bagging的原理首先是在自助采样法(bootstrap sampling)的基础上，随机得到一些样本集训练，分别对不同的基学习器进行训练，然后对不同的基学习器得到的结果投票，从而得出最终的分类结果。自助采样法得到的样本大概会有63%的数据样本被使用，剩下的可以用来做验证集。

Bagging最典型代表是：随机森林

随机森林，需要分为随机和森林来进行理解

随机就是每个分类器的数据采样和选择特征都是随机的，但是数量都是一样的,而且都是有放回的选取

森林，就是决策树，多个决策树也就构成了森林。

2.Boosting 串行：以一个弱分类器开始，然后不断增加分类器，以权重参数表示其重要性

本思想是“逐步强化”。计算过程为：

所有样本权重相同，训练得到第一个弱分类器。

根据上一轮的分类效果，调整样本的权重，上一轮分错的样本权重提高，重新进行训练。

重复以上步骤，直到达到约定的轮数结束。

由于处于分类边界的点容易分错，因此会得到更高的权重。

典型代表是AdaBoost、XgBoost算法。

3.Stacking 堆叠：聚合使用多个分类器

计算过程：

使用多个分类器各自独立进行第一轮的的训练，然后测试得到第一轮的结果，

紧接着将第一轮的训练结果作为第二轮的训练输入，得出结果

不断迭代，直到达到迭代的次数限制为止。

优点：

Stacking综合使用了多个分类器，准确率很高，

第一轮中多个分类器独立训练，较好地避免了过拟合的现象出现。

缺点：效率非常低

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

集成算法随机森林决策树特征过拟合

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇这3种数据标准化方法，你知道吗？

下一篇应该怎样看待数据分析？是技能还是职业？

3种常见集成算法模型的详细理解

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...