机器学习：谈谈决策树-CDA数据分析师官网

机器学习：谈谈决策树

2017-11-27

机器学习：谈谈决策树

今天，我们继续开启分类算法之旅，它是一种高效简介的分类算法，后面有一个集成算法正是基于它之上，它是一个可视化效果很好的算法，这个算法就是决策树。

1 一个例子

有一堆水果，其中有香蕉，苹果，杏这三类，现在要对它们分类，可以选择的特征有两个：形状和大小，其中形状的取值有个：圆形和不规则形，大小的取值有：相对大和相对小。现在要对其做分类，我们可以这样做：

首先根据特征：形状，如果不是圆形，那么一定是香蕉，这个就是叶子节点;

如果是圆形，

再进一步根据大小这个特征判断，如果是相对大的，则是苹果，如果否，则是杏子，至此我们又得到两个叶子节点，并且到此分类位置，都得到了正确划分三种水果的方法。

大家可以体会刚才这个过程，这就是一个决策分类，构建树的一个过程，说成是树，显得有点高大上，再仔细想想就是一些列 if 和 else 的嵌套，说是树只不过是逻辑上的一种神似罢了。

刚才举的这个例子，有两个特征：形状和大小，并且选择了第一个特征：形状作为第一个分裂点，大小作为第二个分裂点，那么不能选择第二个特征作为第一分裂点吗? 这样选择有没有公式依据呢?

2 分裂点选择依据

在上个例子中，有三类水果，现在假设杏都被我们家的宝宝吃完了，现在手里只有香蕉和苹果这两类水果了，并且这个时候要对它们做分类，此时机灵的你，一定会根据特征：形状对它们分类了，因为这样一下就会把它们分开了，此时我们说这类集合的纯度更高，与之前的那三类水果在形状这个特征上。

纯度这个概念是很好的理解的，种类越少纯度越高，自然两类纯度更高。此时有人提出了一个和它相反的但是不那么容易理解的概念：熵。它们是敌对双方：熵越大，纯度越低;熵越小，纯度越高。

这是一种概念，那么如何用公式量化熵呢：

其中 i 等于苹果，香蕉，杏，P(i)是集合中取得某一个水果的概率。

试想一下，如果我们想更好地对某个集合完成分类，会怎么做呢?我们一定会优先选择一个特征，使得以这个特征做分类时，它们能最大程度的降低熵，提高分类的纯度，极限的情况是集合中100个元素(集合中只有两类水果)，根据某个最优特征，直接将分为两类，一类都是苹果，一类都是杏，这样熵直接等于0。

这个特点就是所谓的信息增益，熵降低的越多，信息增益的就越多。很多时候都不会发生上述说的这个极限情况，就像文章一开始举的例子，根据形状划分后，熵变小了，但是未等于0，比如刚开始三类水果的熵等于0.69，现在根据形状分裂后，熵等于了0.4，所以信息增益为0.69 – 0.4 = 0.29 。如果根据大小划分，信息增益为0.1，那么我们回考虑第一个分裂特征：形状。

这种方法有问题吗?

3 信息增益越大，分类效果越好?

这是只根据信息增益选择分裂特征点的bug，请看下面举例。

如果某个特征是水果的唯一标示属性：编号，那么此时如果选择这个特征，共得到100个叶子节点(假设这堆水果一共有100个)，每个叶子节点只含有1个样本，并且此时的信息增益最大为 0.69 – 0 = 0.69 。

但是，这是好的分类吗? 每一个样本作为单独的叶子节点，当来了101号水果，都不知道划分到哪一个叶子节点，也就不知道它属于哪一类了!

因此，这个问题感觉需要除以某个变量，来消除这种情况的存在。

它就是信息增益率，它不光考虑选择了某个分裂点后能获得的信息增益，同时还要除以分裂出来的这些节点的熵值，什么意思呢? 刚才不是分裂出来100个节点吗，那么这些节点自身熵一共等于多少呢：

再除以上面这个数后，往往信息增益率就不会那么大了。这就是传说中的从ID3 到 C4.5 的改进。

4 与熵的概念类似的基尼系数

只需要知道基尼系数和熵差不多的概念就行了，只不过量化的公式不同而已，这就说明理解了，至于公式长什么样子，用的时候去查就行了。

让我们看一下远边的大海，和海边优美的风景，放松一下吧!

5 展望

以上介绍了决策树的一些概念和分裂点选取的基本方法。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

特征决策树 D3 集成算法机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇Excel-漏斗图分析（差异分析）

下一篇大数据分析工程师薪资水平

机器学习：谈谈决策树

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...