为什么决策树中经常用熵作为判别条件而不是基尼不纯度？-CDA数据分析师官网

为什么决策树中经常用熵作为判别条件而不是基尼不纯度？

2023-04-13

决策树是一种常用的机器学习算法，用于分类和回归问题。在决策树构建的过程中，熵和基尼不纯度是两个常用的判别条件，用于选择最优的分裂点。虽然熵和基尼不纯度都可以表示样本集合的混乱程度，但是为什么在决策树中经常使用熵而不是基尼不纯度呢？下面我将详细阐述这个问题。

首先，让我们来看一下熵和基尼不纯度的定义。熵是信息论中一个重要的概念，在信息学、统计学、通信工程等领域得到了广泛应用。它反映了一个随机变量或者信源的不确定性。给定一个样本集合D，其熵可以用以下公式表示：

$$ Ent(D) = -sum_{k=1}^{|mathcal{Y}|}p_klog_2p_k $$

其中，$mathcal{Y}$是样本集合D中所有可能的类别，$p_k$是样本属于类别$k$的概率。可以看出，当样本集合的纯度越高，即只包含同一类别的样本时，其熵越低，反之亦然。

基尼不纯度是衡量节点纯度的另一种指标，它是在决策树算法中比较常用的一个量。给定一个样本集合D，其基尼不纯度可以用以下公式表示：

$$ Gini(D) = sum_{k=1}^{|mathcal{Y}|}sum_{k'neq k}p_kp_{k'} $$

其中，$mathcal{Y}$是样本集合D中所有可能的类别，$p_k$是样本属于类别$k$的概率。可以看出，当样本集合的纯度越高，即只包含同一类别的样本时，其基尼不纯度越低，反之亦然。

虽然熵和基尼不纯度都可以用来衡量节点的纯度，但是它们之间存在一些差异，这些差异也导致了它们在决策树中的应用有所区别。

首先，从计算复杂度上来说，熵的计算涉及到对每个类别的概率进行求对数运算，而对数运算是比较耗时的操作。相比之下，基尼不纯度的计算只涉及乘法和加法，计算复杂度较低。因此，在需要快速构建决策树的场景下，选择基尼不纯度作为判别条件更为合适。

其次，从分类效果上来说，熵在处理离散属性时具有天然的优势。因为熵是基于信息论的概念，它可以很好地处理离散属性的取值问题。例如，对于颜色属性，可以将其取值范围划分成"红、黄、蓝"等几个离散值，然后计算每个值出现的概率，从而得到该属性的熵。相比之下，基尼不纯度更适合处理连续属性，因为连续属性的取值范围是无限的，难以进行有效的分割。此外，熵在处理类别较多的数据集时也具有优势，因为它能够更好地反映样本集合的混乱程度。

最后，考虑到决

最后，考虑到决策树的构建过程是一个递归的过程，如果在每个节点都使用基尼不纯度作为判别条件，可能会导致决策树过于复杂。相比之下，使用熵作为判别条件可以更好地控制决策树的生长，因为熵能够很好地反映节点样本集合的混乱程度，当节点中的样本越来越趋向于同一类别时，熵也会随之降低。

综上所述，在选择判别条件时，需要考虑到计算复杂度、分类效果以及决策树的复杂度控制等因素。虽然熵和基尼不纯度都可以用来衡量节点的纯度，但是它们各有优缺点，在具体应用中需要根据实际情况进行选择。对于离散属性、多分类问题或者需要控制决策树复杂度的场景，使用熵作为判别条件更为合适；而对于连续属性或者需要快速构建决策树的场景，选择基尼不纯度作为判别条件更为合适。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

决策树随机变量多分类机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇怎么理解tensorflow中tf.train.shuffle_batch()函数？

下一篇spss中多重共线性诊断VIF是越大越好还是越小越好？

为什么决策树中经常用熵作为判别条件而不是基尼不纯度？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...