机器学习故事汇-集成算法-CDA数据分析师官网

机器学习故事汇-集成算法

2018-03-21

【咱们的目标】系列算法讲解旨在用最简单易懂的故事情节帮助大家掌握晦涩无趣的机器学习，适合对数学很头疼的同学们，小板凳走起！

今天咱们就来讨论一下传说中的集成算法，之前咱们讲的算法都是单兵作战的（单个模型得到结果），但是回过头来想一想现在是不是干啥都讲究个合作共赢，所以咱们的模型也是如此。单个算法确实势单力薄，假如我们可以把它们组合起来会不会得到更好的效果呢？（算法们要揭竿起义了，今亡亦死举大计亦死。。。编不下去了）

在集成算法中，有三个核心模块，咱们就一一道来，先来概述一下：

Bagging集成：并行的构造多个基础模型（随机森林），每一个基础模型都各自为政，然后把它们的结果求一个平均就好！

Boosting集成：串行的构造多个基础模型（Xgboost），每一个基础模型都要严格筛选，在前面的基础上加进来的新模型后，它们整体的效果起码得没加这个新的基础模型前要强吧！

Stacking集成：多种算法群殴一起上！选择多个机器学习算法做同一件事，最后把它们的结果合并就OK啦！

先来看看第一个家伙Bagging模型，其典型代表就是随机森立了，简单来说就是并行的训练一堆树模型，然后求其平均结果，在这里我们要讨论一个问题，就是每个树模型该怎么构造呢？如果不加入任何限制，那每个树模型不都差不多嘛，那最后的平均结果又会有什么变化呢？所以为了结果的泛化能力更强，必须要使得每个树模型表现出多样性，也就是尽可能的让每个树模型都不一样！

这该怎么做呢？什么影响模型呢？数据绝对是最大的影响因子，这里的森林很好理解了，就是把树放在一起，那么随机又是什么呢？为了保证每个树的多样性，在构建模型时，我们做了二重随机（我自创的词。。。）第一重就是对样本的选择，每次随机的有放回的选择部分样本作为一棵树的训练样本（比如选择百分之八十作为训练集）。第二重还要考虑特征了，既然样本数据能随机，那么特征也是一样的，每棵树选择的特征也是不一样的随机选择部分特征来建模！

随机的意义非常重要，这是随机森林的精神所在！

随机森林作为灰常经典的机器学习算法，优势自然少不了，当我们建模完之后，还可以对特征进行重要性评估，其实简单来说一个特征的重要与否可以取决于建模的时候如果把这个特征换成噪音特征再去看看结果的错误率是不是显著上升，如果显著上升，那么这个特征自然很重要，如果没变化，那这个特征就没啥用了，因为它和噪音没啥区别！

随机森林中树的个数是不是越多越好呢？理论上越多的树效果应该会更好吧，但是实际上我们把树的个数增加到一定的时候比如100棵了已经，再往上增加树的个数结果也只会发生小范围的浮动，基本也就稳定了！

Boosting集成中典型的代表就属Xgboost啦，一个大杀器，这个算法由于涉及的数学比较多，咱们后续来一个专题去讲Xgboost，我们先来看看简单些的Adaboost。

Adaboost算法概述来说就是，首选我有一个非常简单的模型，比如深度为1的树模型，然后我去预测一下结果，在结果中我发现某些样本预测错了，这个时候第二个简单的树模型就来了，还是同样的任务只不过数据的权重发生了变换，一开始所有的数据都是相同的权重，但是第二次会把前面那次预测错的数据的权重增大，相对来说预测对的数据的权重就会减小。说白了就是让后面的模型更注重我之前哪些数据分错了，这回好能分对它！（好比我们在考试前都会复习之前做错的题）

最后来看一下堆叠模型吧，社会我Stacking，人狠话不多，不需要多解释，做了一堆算法，然后把它们的结果堆叠起来，每个算法都有自己的预测结果，这些结果组合在一起那不相当于一个新的特征嘛，再把它们结果组成的特征去做一个分类或者回归，又得到了一个唯一的结果。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

特征随机森林机器学习集成算法泛化能力

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇机器学习故事汇-搞定支持向量机（SVM）

下一篇数据告诉你，抖音是怎么在半年之内逆袭的

机器学习故事汇-集成算法

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】你在纳闷用户为啥流失?华为已经用关系分析 ...

【干货】2小时用AI完成的SQL教程也太赞了吧，不推荐 ...

【干货】指标波动归因分析：数据背后的故事 ...

数据分析学习指南：从踩坑到精通的成长之路 ...

数据分析学习指南

Deepseek如何帮助公司深入挖掘用户价值？ ...

【干货】Deepseek教我数据可视化看板实时更新 ...

一秒精通 Deepseek

Deepseek教我自学Python，貌似30天就够了 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【2月】CDA网校2025 数据分析组队打卡学习活动第4期 ...

【干货】画用户画像与找相亲对象一样简单 ...

统计分析与数据挖掘的联系与区别

【干货】5分钟学会数据分析方法之【对比分析法】 ...

【干货】半监督学习（下）Label Spreading ...

【干货】用半监督学习方法处理标签（上）Label Prop ...

【干货】掌握这50个常用Excel函数，你的Excel就无敌 ...

【干货】7类常见的统计分析错误

【干货】“数据敏感”不是天赋！如何培养数据敏感度 ...

【干货】2025年必学技能：想转行数据分析看过来！ ...