如何计算决策树的各特征重要程度？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代如何计算决策树的各特征重要程度？

如何计算决策树的各特征重要程度？

2023-04-07

决策树是一种常用的机器学习算法，它可以对数据进行分类和预测。在决策树中，特征（或属性）重要性是指每个特征对模型准确性的贡献程度。因此，了解如何计算特征重要性是非常有用的，可以帮助我们选择最相关的特征，进而提高模型的性能。

本文将介绍三种计算特征重要性的方法：基于信息增益、基于基尼不纯度和基于平均减少不纯度。这些方法都可以用来计算特征重要性，并且在实践中都取得了很好的效果。

基于信息增益

信息增益是一种用来评估一个特征对决策树分类能力的重要性的指标。它的定义是：特征A对样本集D的信息增益（Gain(D, A)）等于样本集D的经验熵（H(D)）与特征A条件下的经验熵（H(D|A)）之差，即：

Gain(D, A) = H(D) - H(D|A)

其中，经验熵（H(D)）衡量了样本集D的不确定性，经验熵越大，样本集的不确定性就越高；特征A条件下的经验熵（H(D|A)）衡量的是在特征A给定的情况下，样本集D的不确定性。如果特征A对分类任务有帮助，则H(D|A)会比H(D)小，因此信息增益越大，特征对分类能力的贡献就越大。

在计算信息增益时，我们需要先计算经验熵和条件经验熵。然后，通过计算信息增益来确定每个特征的重要性，从而选择最相关的特征。

基于基尼不纯度

基尼不纯度是另一种评估特征重要性的方法。它衡量的是从样本中随机选择两个样本，其类别不一致的概率。这个概率越低，说明样本的纯度越高，也就是说该特征对分类任务的贡献越大。

具体来说，假设样本集合D中第k类样本所占的比例为pk，则D的基尼指数定义为：

Gini(D) = 1 - ∑(pk)^2

对于样本集合D来说，假设使用特征A对其进行划分，得到了m个子集Di，其中第i个子集的样本数为Di，并且属于第k类的样本在Di中所占的比例为pki，则特征A的基尼指数定义为：

Gini(D, A) = ∑(Di / D) × (1 - ∑(pki)^2)

特征A的重要性可以通过计算基尼指数的减少量来确定。具体来说，我们可以计算使用特征A进行划分前后的基尼指数，然后计算两者之差，即：

ΔGini(D, A) = Gini(D) - Gini(D, A)

如果ΔGini越大，说明特征A对分类任务的贡献越大，因此特征A的重要性就越高。

基于平均减少不纯度

平均减少不纯度（Mean Decrease Impurity，MDI）是一种计算特征重要性的方法，它对应的是决策树算法中的 CART

算法。该方法通过计算每个特征在决策树中被用作分裂标准的次数和该特征分裂所带来的平均减少不纯度，来评估特征的重要程度。

具体来说，对于某个特征A，我们可以计算它在所有节点上的分裂次数和每次分裂所带来的平均减少不纯度（Impurity Decrease，ID）。然后将每个节点的ID加权求和即可得到特征A的MDI。

CART算法使用的是基尼不纯度来评估节点的不纯度，因此其计算方法与基于基尼不纯度的特征重要性计算方法类似。

总结

本文介绍了三种常用的特征重要性计算方法：基于信息增益、基于基尼不纯度和基于平均减少不纯度。这些方法都可以用来计算特征的重要性，并且在实践中都取得了很好的效果。选择哪种方法取决于具体情况和数据集的特点。在实际应用中，我们可以结合多种方法来评估特征的重要性，以获得更全面的结果。

相信读完上文，你对算法已经有了全面认识。若想进一步探索机器学习的前沿知识，强烈推荐机器学习之半监督学习课程。

学习入口：https://edu.cda.cn/goods/show/3826?targetId=6730&preview=0
涵盖核心算法，结合多领域实战案例，还会持续更新，无论是新手入门还是高手进阶都很合适。赶紧点击链接开启学习吧！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

特征决策树机器学习半监督学习半监督监督学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇为什么NLP模型训练1~3个epoch就可以收敛，但是CV模型很多需要训练十几甚至上百个epoch？

下一篇卷积神经网络图像处理卷积时，为啥要旋转180°？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

如何计算决策树的各特征重要程度？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA Level III 认证考试大纲重磅更新并启用（发布于 ...

【CDA干货】字写得不好没关系？Python一键生成专属 ...

【CDA干货】因子分析核心公式解析：得分系数的推导 ...

CDA数据分析师实战核心：数据采集方法全解析与落地 ...

【CDA干货】一文读懂：间接效应为负是什么意思？ ...

【CDA干货】数据透视表两列相乘设置新字段全指南： ...

CDA数据分析师实战指南：量化策略分析全流程拆解与 ...

CDA全国考点信息一览（更新于2025年12月10日） ...

【CDA干货】一文读懂：衡量数据周期性的核心指标与 ...

【CDA干货】数据分析师必备工具全解析：从入门到进 ...

CDA数据分析师实战：量化策略分析框架的构建与落地 ...

CDA中国官网

大数据与审计专业进阶密钥：为何优先考取CDA数据分 ...

【CDA干货】数学界中的统计学高级算法：原理、应用 ...

CDA数据分析师：以数字化时代数据思维，解锁数据核 ...

【CDA干货】一文读懂箱线图上下限：定义、计算方法 ...

【CDA干货】Power BI建模数据预测全指南：从基础搭 ...

CDA数据分析师必备：指标与指标体系管理基础认知与 ...

【CDA干货】金融行业高频SQL场景与实战语句全解析 ...

【CDA干货】一文分清：独立样本t检验与卡方检验的核 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载