一个企业级数据挖掘实战项目，教育数据挖掘

2021-07-06

来源：数据STUDIO

作者：云朵君

导读：大家好，我是云朵君！自从分享了一篇能够写在简历里的企业级数据挖掘实战项目，深受读者朋友们青睐，许多读者私信云朵君，希望多一些类似的数据挖掘实际案例。这就来了。

本项目旨在探讨影响学生学业表现的人口统计学和家庭特征。本项目中，使用多种不平衡数据处理方法以及各种分类器，如决策树，逻辑回归，k近邻，随机森林和多层感知器的分类机器。

一个企业级<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>数据挖掘</a>实战项目，教育<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>数据挖掘</a>

数据集描述

本案例数据集来自Balochistan的6000名学生。其基本情况：一共13个字段，其中RESULT为结果标签；语言字段是经过独热编码后的四个字段，分别为Lang1, Lang2, Lang3, Lang4；

另外性别、学校、是否残疾、宗教信仰四个字段为二分类离散字段；

其余如兄弟姐妹、在校兄弟姐妹数量为连续性变量。

本次数据为清洗过后"干净"数据，可以直接输入到机器学习模型中直接建模使用。

字段说明如下表所示

数据样例

探索性数据分析

探索性数据分析有多种方法，这里直接通过绘制柱状图查看每个字段的分布状况。

从数据集特点来看，13个字段可以分为四大类。

结果标签
离散型变量
连续型变量
哑变量

结果标签

考试结果为PASS的共有4562名学生，而结果为FAIL的共有1047名学生，从下图中也可以明显看出，该样本为不平衡数据集，因此本次案例重点在于不平衡数据分类方法。

离散型变量

性别有男女，学校有学校1和学校2，身体健康状况有是否残疾，宗教信仰分是否是穆斯林。

连续型变量

本次数据集中兄弟姐妹数量及在校兄弟姐妹数量分布情况可以由下面四张分布图很好地展示出来。

大部分学生家中的兄弟姐妹有2-4个
大部分学生家中的姐妹都不是在校生
大部分学生家中的兄弟中也只有1-2个是在校生

哑变量

本次数据集共有四种语言，其数量分布由下图所示。接近一半的学生都是说的一种语言(Lang1)。

不平衡数据集处理方法

从上一步的探索性数据分析结果，本次学生成绩数据集为不平衡数据集，那么处理不平衡数据集处理方法都有哪些呢。

在本文云朵君从三个方面总结了多种处理方法，见下面思维导图。

数据重采样

这里主要介绍下数据预处理层面的数据重采样方法。数据重采样主要分为上采样和下采样。

下采样，也称为欠采样（Under-Sampling），是一个为平衡数据类分布的移除大类数据的非启发式的方法。此方法的底层逻辑是平衡数据集进而克服算法的特异性。

常用的方法有随机欠采样（Random Under-Sampling, RUS），即随机排除大类的观察值，和聚焦欠采样（Focused Under-Sampling, FUS）, 即移除两类边界处的大类数据。

上采样，也称为过采样（Over-Samplig），是通过复制小类观察值，从而增加小类比例的一个方法。类似的，过采样也有随机过采样和聚焦过采样两种方法。

来源：kaggle

上采样

过采样代表SMOTE方法，其主要概念也就是在少数样本位置近的地方，人工合成一些样本，整个算法的流程如下:

设定一个采样倍率N，也就是对每个样本需要生成几个合成样本
设定一个近邻值K ，针对该样本找出K 个最近邻样本并从中随机选一个
根据以下公式来创造 N 个样本

下采样

相对于过采样，欠采样是将多数样本按比例减少，使得模型的加权权重改变，少考虑一些多数样本，上图很好地展示了两种方法的差异。

Tomek Link 算法

会针对所有样本去遍历一次，如有两个样本点x, y分属不同的class，即一个为多数样本而另一个为少数样本，则可以去计算它们之间的距离d(x , y) 。

此时如果找不到第三个样本点z，使得任一样本点到z 的距离比样本点之间的距离还小，则称为Tomek Link，一张图帮助理解 :

来源：Kaggle

Tomek Link 的关键思路在于，找出边界那些鉴别度不高的样本，认为这些样本点属于杂讯，应该剔除，因此可以见上图最右边，剔除以后两种类别的样本点可以更好地区分开来。

ENN算法（Edited Nearest Neighbor）

与上面Tomek Links的观念相同，ENN算法也是透过某种方式来剔除鉴别度低的样本，只是这边的方式改成了对多数类的样本寻找K个近邻点，如果有一半以上(当然，门槛可以自己设定)都不属于多数样本，就将该样本剔除，通常这些样本也会出现在少数样本之中。

混合采样

SMOTE + ENN、SMOTE + Tomek Links算法都是结合过采样与欠采样算法SMOTEENN使用 SMOTE 进行过采样，然后使用 Edited Nearest Neighbours 进行欠采样。

SMOTETomek使用 SMOTE 进行过采样，然后使用 Tomek Links 进行欠采样。

不平衡数据集处理方法选择

控制变量法选择合适的处理方法。选用决策树为基分类器，并分别选择不使用数据重采样，使用SMOTE、SMOTEENN和SMOTETomek共三种数据重采样方法，比较这四种情况下的模型评价指标AUC得分情况。

最后分别选用五种不同分类器，且分别采用不同的数据重采样方法，绘制ROC曲线及得到的AUC得分情况。

ROC和AUC

ROC曲线绘制采用不同分类阈值的TPR和FPR，降低分类阈值会将更多的样本判为正类别，从而增加FP和TP的个数。为了绘制ROC曲线，需要使用不同的分类阈值多次评估回归模型，很麻烦。有一种基于排序的高效算法可以为我们提供此类信息，这种算法称为曲线下的面积(AUV,area under roc curve)。

ROC曲线的横轴为FPR，越低越好，纵轴为TPR，越高越好，故如果有两个不同的模型，曲线位于左上方的模型优于曲线位于右下方的模型，这一点可以拿曲线的面积(AUV)来量化。

完美的分类为TPR=1，FPR=0；ROC曲线过(0,0)和(1,1)点

AUC = 1，是完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。
AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。

AUC计算的物理意义为：任取一对(正、负)样本，正样本的score大于负样本的score的概率，也即是随机正类别样本位于随机负类别样本右侧的概率。

核心代码

将所有主要方法定义为函数，包括数据重采样、划分测试集和训练集、模型训练、模型评价和结果可视化。

此外，由于是比较不平衡数据集处理方法选择的优劣，这里所有的机器学习模型都采用默认参数。

def reSampler(X, y, samp):"""不同的数据重采样策略"""if(samp == 'None'):return splitter(X, y, 0.1)if(samp == 'SMOTE'):sm = SMOTE('auto', 42)X_resampled , y_resampled = sm.fit_resample(X, Y)return splitter(X_resampled , y_resampled, 0.1)if(samp == 'SMOTEENN'):sm = SMOTEENN()X_resampled , y_resampled = sm.fit_resample(X, Y)return splitter(X_resampled , y_resampled, 0.1)if(samp == 'SMOTETomek'):sm = SMOTEENN()X_resampled , y_resampled = sm.fit_resample(X, Y)return splitter(X_resampled , y_resampled, 0.1)def splitter(X, y, test_Size):"""划分测试集和训练集"""xtrain, xtest, ytrain, ytest = train_test_split(X, y, test_size = test_Size, random_state=12)return xtrain, xtest, ytrain, ytestdef rocPlotter(actu, pred, clf, samp):"""AUC曲线绘图函数"""false_positive_rate, true_positive_rate, thresholds = roc_curve(actu, pred)roc_auc = auc(false_positive_rate, true_positive_rate)Title = str('ROC: ' + str(clf) + ' using ' + str(samp))plt.title(Title)plt.plot(false_positive_rate, true_positive_rate, 'b',label='AUC = %0.2f'% roc_auc)plt.legend(loc='lower right')plt.plot([0,1],[0,1],'r--')plt.xlim([-0.1,1.2])plt.ylim([-0.1,1.2])plt.ylabel('True Positive Rate')plt.xlabel('False Positive Rate')plt.show()return roc_aucdef applyModel(clfr, X_, y_, xt, yt):"""使用模型"""a = globals()[clfr]()a.fit(X_, y_)scor = a.score(xt, yt)*100pred = a.predict(xt)actu = ytreturn pred, actu, scordef tryAll(clfList, sampList, Inputs, Outputs):"""主函数"""rep = np.zeros( (len(clfList), len(sampList)), dtype=float)for clf, clfIndex in zip(clfList, range(len(clfList))):# 不同的分类器for samp, sampIndex in zip(sampList, range(len(sampList))):# 不同的重采样策略X_train, X_test, Y_train, Y_test = reSampler(Inputs, Outputs, samp)prediction , actual, score =applyModel(clf, X_train, Y_train, X_test, Y_test)currentAUC = rocPlotter(prediction, actual, clf, samp)print(clf, ' with ', samp, ' scored = ', score,' on test set with AUC = ', currentAUC)rep[clfIndex, sampIndex] = currentAUCreturn rep

函数执行

Classifiers = ['DecisionTreeClassifier', 'KNeighborsClassifier','LogisticRegression', 'MLPClassifier','RandomForestClassifier']Samplers = ['None', 'SMOTE', 'SMOTETomek', 'SMOTEENN']report = tryAll(Classifiers, Samplers, X, Y)

结果可视化

下面以单个模型四种不同重采样策略，和五种模型单个重采样策略为例展示可视化结果。大家可以运行上述代码以得到完整的结果展示。

决策树模型在四种不同重采样策略下，得到的四种不同的结果。很明显地看到没有使用数据重采样的模型得分最差只有0.54，而使用混合采样算法的两个结果的得分都比较理想，分别是0.973275和0.979196分。

接下来以上述结果中得分最高的混合采样算法SMOTETomek为例，将不平衡数据集经过SMOTETomek算法处理后，分别用

DecisionTreeClassifier决策树分类器，KNeighborsClassifierK近邻分类器，LogisticRegression逻辑回归，MLPClassifier多层感知机，RandomForestClassifier随机森林分类器五种机器学习模型训练和测试数据，并得到如下结果。

从结果可知道，并不是所有模型在使用混合采样算法SMOTETomek后都能达到令人满意的效果。

结果汇总

为方便查看所有结果，将所模型、所有重采样方法汇总到如下图所示的DataFrame中。从AUC结果看，使用混合采样算法SMOTEENN对数据集处理，并使用决策树模型对结果进行预测，将会得到最佳预测效果。其AUC=0.979。

pd.DataFrame(report, columns = Samplers, index = Classifiers)

交叉验证

上节中选用五种不同分类器，三种不同的数据重采样方法，结合ROC曲线及AUC得分情况来确定重采样方法对选择。

本节可以理解为是上节的拓展。

核心代码

# 实例化五种分类器模型dTree = DecisionTreeClassifier()logReg = LogisticRegression()knn = KNeighborsClassifier(n_neighbors=5)rF = RandomForestClassifier()MLP = MLPClassifier()# 实例化十种数据重采样模型rmun = RandomUnderSampler()cnn = CondensedNearestNeighbour()nm = NearMiss()enn = EditedNearestNeighbours()renn =
RepeatedEditedNearestNeighbours()tkLink = TomekLinks()rmov = RandomOverSampler()sm = SMOTE()sm_en = SMOTEENN()sm_tk = SMOTETomek()# 以SMOTEENN采样方法为例sm_en = SMOTEENN()X_resampled, Y_resampled = sm_en.fit_resample(X, Y)# 分别使用10折交叉验证的方法得到平均得分scores_dTree = cross_val_score(dTree, X_resampled, Y_resampled, cv = 10, scoring='roc_auc')scores_dTree = scores_dTree.mean()# 打印出每次的结果print('After appling SMOTENN: ')print(' dTree, logReg , KNN , rF , MLP')print(scores_dTree, scores_logReg, scores_knn, scores_rF, scores_MLP)

将所有结果存储在一个DataFrame里

Classifiers = ['DecisionTreeClassifier', 'LogisticRegression','KNeighborsClassifier', 'RandomForestClassifier','MLPClassifier']Samplers = ['None','Random Undersampling', 'CNN', 'NearMiss','ENN', 'RENN','Tomek Links','SMOTE','Random Oversampling', 'SMOTEENN','SMOTETomek']pd.DataFrame(report, columns = Samplers, index = Classifiers)

并用热图可视化更加直观地展示出结果来

import seaborn as snsplt.figure()ax = sns.heatmap(report,xticklabels=Samplers,yticklabels=Classifiers,annot = True, vmin=0,vmax=1, linewidth=0.1,cmap="YlGnBu",)

从热图的特性可以看出，蓝色越深，模型效果越好。本案例中可以得到如下几个结论

随机森林分类器在使用RENN及SMOTEENN重采样处理后的数据时，模型效果均比较理想，AUC得分分别为0.94和0.98
采用SMOTEENN重采样处理后的数据，在所有模型中均表现良好，其次是RENN重采样策略
随机下采样，CNN及NearMiss等采样策略效果并不明显
逻辑回归模型对于所有的采样策略均不敏感

本例采用的来自Balochistan的6000名学生不平衡数据集。本项目旨在探讨影响学生学业表现的人口统计学和家庭特征。

本例使用清洗后的数据集，以探索数据变量的分布特征开篇，重点介绍了数据不平衡处理的各种方法，以及演示如何通过交叉验证方法选择合适的数据不平衡处理以及选择合适的机器学习分类模型。

本文后续工作可以是通过正文中得到的结果，选择几个合适的模型，通过适当的模型调参方法选择恰当的参数，以确定本次数据挖掘的最终模型。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据挖掘 AUC 过采样字段决策树 DataFrame 下采样机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇数据解读：中国铁路百年发展史，从“追赶者”到领先世界

下一篇太厉害了！Seaborn也能做多种回归分析，统统只需一行代码

一个企业级数据挖掘实战项目，教育数据挖掘

数据集描述

字段说明如下表所示

数据样例

探索性数据分析

结果标签

离散型变量

连续型变量

不平衡数据集处理方法

数据重采样

上采样

下采样

混合采样

不平衡数据集处理方法选择

ROC和AUC

核心代码

函数执行

结果可视化

结果汇总

交叉验证

核心代码

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...