京公网安备 11010802034615号
经营许可证编号:京B2-20210330
feature importance,根据含义就能理解,也就是特征重要性,在预测建模项目中起着非常重要作用,能够提供对数据、模型的见解,和如何进行降维和选择特征,并以此来提高预测模型的的效率和有效性。今天小编为大家带来的是如何理解随机森林中的feature importance,希望对大家有所帮助。
一、简单了解feature importance
实际情况中,一个数据集中往往包含数以万计个特征,如何在其中选择出,结果影响最大的几个特征,并通过这种方法缩减建立模型时的特征数,这是我们最为关心的问题。今天要介绍的是:用随机森林来对进行特征筛选。
用随机森林进行特征重要性评估的思想其实非常简单,简单来说,就是观察每个特征在随机森林中的每颗树上做了多少贡献,然后取平均值,最后对比特征之间的贡献大小。
总结一下就是:特征重要性是指,在全部单颗树上此特征重要性的一个平均值,而单颗树上特征重要性计算方法事:根据该特征进行分裂后平方损失的减少量的求和。
二、feature importance评分作用
1.特征重要性分可以凸显出特征与目标的相关相关程度,能够帮助我们了解数据集
2.特征重要性得分可以帮助了解模型
特征重要性得分通常是通过数据集拟合出的预测模型计算的。查看重要性得分能够洞悉此特定模型,以及知道在进行预测时特征的重要程度。
3.特征重要性能够用于改进预测模型
我们可以通过特征重要性得分来选择要删除的特征(即得分最低的特征)或者需要保留的特征(即得分最高的特征)。这其实是一种特征选择,能够简化正在建模的问题,加快建模过程,在某些情况下,还能够改善模型的性能。
三、python实现随机森林feature importances
import xlrd import csv import numpy as np import pandas as pd import matplotlib.pyplot as plt from scipy.interpolate import spline #设置路径 path='/Users/kqq/Documents/postgraduate/烟叶原始光谱2017.4.7数字产地.csv' #读取文件 df = pd.read_csv(path, header = 0) #df.info() #训练随机森林模型 from sklearn.cross_validation import train_test_split from sklearn.ensemble import RandomForestClassifier x, y = df.iloc[:, 1:].values, df.iloc[:, 0].values x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 0) feat_labels = df.columns[1:] forest = RandomForestClassifier(n_estimators=10000, random_state=0, n_jobs=-1) forest.fit(x_train, y_train) #打印特征重要性评分 importances = forest.feature_importances_ #indices = np.argsort(importances)[::-1] imp=[] for f in range(x_train.shape[1]): print(f + 1, feat_labels[f], importances[f]) #将打印的重要性评分copy到featureScore.xlsx中;plot特征重要性 #设置路径 path='/Users/kqq/Documents/postgraduate/实验分析图/featureScore.xlsx' #打开文件 myBook=xlrd.open_workbook(path) #查询工作表 sheet_1_by_index=myBook.sheet_by_index(0) data=[] for i in range(0,sheet_1_by_index.nrows): data.append(sheet_1_by_index.row_values(i)) data=np.array(data) X=data[:1,].ravel() y=data[1:,] plt.figure(1,figsize=(8, 4)) i=0 print(len(y)) while i![]()
相信读完上文,你对算法已经有了全面认识。若想进一步探索机器学习的前沿知识,强烈推荐机器学习之半监督学习课程。
学习入口:https://edu.cda.cn/goods/show/3826?targetId=6730&preview=0
涵盖核心算法,结合多领域实战案例,还会持续更新,无论是新手入门还是高手进阶都很合适。赶紧点击链接开启学习吧!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在分类变量关联分析中(如 “吸烟与肺癌的关系”“性别与疾病发病率的关联”),卡方检验 P 值与 OR 值(比值比,Odds Ratio)是 ...
2025-11-05CDA 数据分析师的核心价值,不在于复杂的模型公式,而在于将数据转化为可落地的商业行动。脱离业务场景的分析只是 “纸上谈兵” ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-04【2025最新版】CDA考试教材:CDA教材一级:商业数据分析(2025)__商业数据分析_cda教材_考试教材 (cdaglobal.com) ...
2025-11-04在数字化时代,数据挖掘不再是实验室里的技术探索,而是驱动商业决策的核心能力 —— 它能从海量数据中挖掘出 “降低成本、提升 ...
2025-11-04在 DDPM(Denoising Diffusion Probabilistic Models)训练过程中,开发者最常困惑的问题莫过于:“我的模型 loss 降到多少才算 ...
2025-11-04在 CDA(Certified Data Analyst)数据分析师的工作中,“无监督样本分组” 是高频需求 —— 例如 “将用户按行为特征分为高价值 ...
2025-11-04当沃尔玛数据分析师首次发现 “啤酒与尿布” 的高频共现规律时,他们揭开了数据挖掘最迷人的面纱 —— 那些隐藏在消费行为背后 ...
2025-11-03这个问题精准切中了配对样本统计检验的核心差异点,理解二者区别是避免统计方法误用的关键。核心结论是:stats.ttest_rel(配对 ...
2025-11-03在 CDA(Certified Data Analyst)数据分析师的工作中,“高维数据的潜在规律挖掘” 是进阶需求 —— 例如用户行为包含 “浏览次 ...
2025-11-03在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29