作者:amitvkulkarni
CDA数据分析师编译
对于任何评估来说,最难的是保持简单易操作,在数据科学中也是如此。在任何数据科学项目中,细化数据、微调模型、部署它们的迭代过程都是一个持续的过程。随着工具、算法的进步,以及随着 MLOps 的出现,事情变得容易了很多,而且未来也会继续发展——技术会优化自己。
业务方面呢?说服客户相信使用先进工具和技术构建的复杂模型的预测能力有多容易?客户是否愿意为项目提供资金并信任我们模型的建议?好吧,不妨试着解释模型的 ROC 曲线,试着用特异性和敏感性指标来说服客户——你会看到的只是眼球在滚动。
但是,如果我们能够在没有复杂指标和技术术语的情况下回答业务问题呢?那么,我们就可能有机会从业务部门那里获得支持。在本文中,我们将看到一个用例,在该用例中,我们仍将构建我们的模型,但以不同的方式对其进行解释——业务方式。
使用 ML 模型提取商业价值的方法
在这篇博客中,我们将探索十分位数的使用,了解各种评估图,如累积增益图和提升图等,以评估 ML 模型的商业价值。该方法将帮助我们解释 ML 模型的预测能力,并使解释模型结果变得很简单。这些图表和指标将使企业能够更有信心地做出明智的决策。
我们将在本文中探索以下主题。
我们将使用来自 UCI 机器学习存储库的公开可用的银行数据 集, zip 文件中有四个数据集,但我们感兴趣的是*bank-additional-full.csv。*所有的属性信息都可以在上面的 URL 中找到。数据来自直接营销电话联系客户,以评估客户是否有兴趣订阅银行定期存款。如果订阅,则为 Yes,否则为 No。本文讨论的是如何评估 ML 模型的商业价值。
让我们加载数据并查看一下以便更好的理解数据。
import wget import zipfile import pandas as pd import numpy as np
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/00222/bank-additional.zip' wget.download(url)
zf = zipfile.ZipFile('bank-additional.zip')
df= pd.read_csv(zf.open('bank-additional/bank-additional-full.csv'), sep=';')
我们可以进行完整的EDA/特征工程/选择重要变量然后构建模型,但为了简单起见,我们将选择很少的变量进行模型构建。
df= df[['y', 'duration', 'campaign', 'pdays', 'previous', 'euribor3m']]
此外,还需要更进一步地探索数据,将目标变量转换为分类变量并对其进行编码。
df.y[df.y == 'yes'] = 'term deposit' df.y = pd.Categorical(df.y)
df['y'] = df.y.cat.codes
df.info()
RangeIndex: 41188 entries, 0 to 41187 Data columns (total 6 columns): # Column Non-Null Count Dtype — —— ————– —– 0 y 41188 non-null int8 1 duration 41188 non-null int64 2 campaign 41188 non-null int64 3 pdays 41188 non-null int64 4 previous 41188 non-null int64 5 euribor3m 41188 non-null float64 dtypes: float64(1), int64(4), int8(1) memory usage: 1.6 MB
df.head() y duration campaign pdays previous euribor3m 0 261 1 999 0 4.857 0 149 1 999 0 4.857 0 226 1 999 0 4.857 0 151 1 999 0 4.857 0 307 1 999 0 4.857
df.describe() y duration campaign pdays previous euribor3m count 41188.000000 41188.000000 41188.000000 41188.000000 41188.000000 41188.000000 mean 0.112654 258.285010 2.567593 962.475454 0.172963 3.621291 std 0.316173 259.279249 2.770014 186.910907 0.494901 1.734447 min 0.000000 0.000000 1.000000 0.000000 0.000000 0.634000 25% 0.000000 102.000000 1.000000 999.000000 0.000000 1.344000 50% 0.000000 180.000000 2.000000 999.000000 0.000000 4.857000 75% 0.000000 319.000000 3.000000 999.000000 0.000000 4.961000 max 1.000000 4918.000000 56.000000 999.000000 7.000000 5.045000
模型构建以提取商业价值
Step1:定义自变量和目标变量
y = df.y X = df.drop('y', axis = 1)
Step2:将数据集拆分为训练集和测试集,其中测试大小为整个数据集的 20%
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 2021)
Step3:建立逻辑回归模型
from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression # Logistic regression model clf_glm = LogisticRegression(multi_class = 'multinomial', solver = 'newton-cg').fit(X_train, y_train)
prob_glm = clf_glm.predict_proba(X_test)
max_prob_glm = round(pd.DataFrame(np.amax(prob_glm, axis=1), columns = ['prob_glm']),2)
至此,我们已经建立了模型,并在测试数据上对其进行了评分(预测),这为我们提供了每个观察结果的预测概率。
生成十分位数
简单地说,十分位数把数据进行分箱。所以,我们将所有预测的概率分成十组,并对它们进行排名,这意味着最高的预测概率将在十分之一,最低的设置将在十分之一。我们将使用pandas的 cut() 函数拆分数据。
下面的代码行创建一个名为Decile_rank_glm的新列, 它保存每个预测记录的排名。
max_prob_glm['Decile_rank_glm'] = pd.cut(max_prob_glm['prob_glm'], 10, labels = np.arange(10,0, -1))
prob_glm Decile_rank_glm 0 0.99 1 1 0.59 9 2 0.96 1 3 0.83 4 4 0.85 4 ... ... ... 8233 0.98 1 8234 0.98 1 8235 0.99 1 8236 0.99 1 8237 0.93 2
注: 0.99 的概率为 1,0.93 为 2,0.85 为 4,0.59 为 9。我们将在后面的部分中看到此结果的可视化。
模型评估以提取商业价值
我们构建的任何模型都必须与基线模型进行比较,以评估模型的性能。让我们在下面进一步探讨这一点。
我们将在累积增益图中可视化上述模型。展现逻辑回归的性能。
kds.metrics.plot_cumulative_gain(y_test.to_numpy(), prob_glm[:,1])
累积增益图 | 商业价值机器学习模型
到目前为止看起来不错,图在预期线上,逻辑回归模型介于我们讨论的两个极端模型之间。
累积增益图的见解:
到目前为止,我们已经讨论了模型、十分位数及其性能比较。让我们在十分位数级别上进一步探讨这一点,以更清楚地了解发生了什么以及我们如何更好地解释这个过程。我们将在视觉效果的帮助下进行分析,这使它变得更加容易。kds 包有一个非常好的功能,可以在一行代码中生成所有指标报告。
kds.metrics.report(y_test, prob_glm[:,1])
metrics report | Business value ML model
让我们了解这些情节中的每一个。需要注意的是,所有图的 x 轴都是十分位数。
让我们用随机森林再构建一个模型,看看结果如何。
clf_rf = RandomForestClassifier().fit(X_train, y_train)
prob_rf = clf_rf.predict_proba(X_test)
max_prob_rf = pd.DataFrame(np.amax(prob_rf, axis=1), columns = ['prob_rf'])
max_prob_rf['Decile_rank_rf'] = pd.cut(max_prob_rf['prob_rf'], 10, labels = np.arange(10,0, -1))
kds.metrics.plot_cumulative_gain(y_test.to_numpy(), prob_rf[:,1])
kds.metrics.report(y_test, prob_rf[:,1])
img
观察:
业务场景
建议控制:在某些情况下,客户有业务需求,即应始终生成最少 X 条建议。在这种情况下,我们可以通过考虑前 3 个十分位数而不是 2 个十分位数来获得更大的建议,并且还可以对其他记录进行精细控制。
衡量市场反应:推荐后分析和市场反应很容易衡量。例如,从前一点,我们可以单独跟踪来自十分位数 3 的所有额外推荐的表现。来自十分位数 3 的额外推送是否产生了任何影响(正面或负面)?
优化营销支出:通过关注前 20-30% 的人群,企业可以节省时间、资源和金钱。以避免这些时间、资源和金钱会花费在无响应者或定位错误客户上。
结语
技术有其一席之地,企业也有发言权。归根结底,这一切都与技术带来的商业价值有关。当这些收益用商业术语来解释时,它总是会更有效。它不仅有助于从业务中获得信心,而且还开辟了新的探索机会。
请注意,我们构建了两个分类模型,但没有研究我们通常为此类模型所做的 ROC 曲线、混淆矩阵、精度、召回率和其他标准指标。强烈建议跟踪和测量这些指标以评估模型的性能,然后遵循此文中的十分位数方法。根据目标受众和目标,使用最适合目标的方法。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10推荐学习书籍 《CDA一级教材》在线电子版正式上线CDA网校,为你提供系统、实用、前沿的学习资源,助你轻松迈入数据分析的大门! ...
2025-03-07在数据驱动决策的时代,掌握多样的数据分析方法,就如同拥有了开启宝藏的多把钥匙,能帮助我们从海量数据中挖掘出关键信息,本 ...
2025-03-06