小编今天跟大家分享的文章是关于python基于主成分分析的客户信贷评级实战的,大家在学习python过程中要注意理论学习与实际案例操作相结合,这样才能更好地掌握。好了,跟小编一起来看具体内容吧!
文章来源: 早起Python
作者:萝卜
本文是Python商业数据挖掘实战的第5篇
大样本的数据集固然提供了丰富的信息,但也在一定程度上增加了问题的复杂性。如果我们分别对每个指标进行分析,往往得到的结论是孤立的,并不能完全利用数据蕴含的信息。但是盲目的去减少我们分析的指标,又会损失很多有用的信息。所以我们需要找到一种合适的方法,一方面可以减少分析指标,另一方面尽量减少原指标信息的损失。
变量压缩的方法非常多,但百法不离其中,其实最根本的都是「主成分分析」(Primary Component Analysis,下简称PCA)。能够理解 PCA 的基本原理并将代码用于实际的业务案例是本文的目标,本文将详细介绍如何利用Python实现基于主成分分析的5c信用评级,主要分为两个部分:
在正式开始原理趣析前,我们先从两个生活场景入手,借以更好的理解需要进行变量压缩的原因。
上司希望从事数据分析岗位的你仅用两个短句就概括出以下数据集所反映出的经济现象
用几个长句都不一定能够很好的描述数据集的价值,更何况高度凝练的两个短句,短短九个指标就已经十分让人头疼了,如果表格再宽一些呢,比如有二三十个变量?
大学生讲究德智体美劳全面发展,学校打算从某学院挑选一两名学生外派进修数据分析,需要综合全面的考量学生素质。部分候选学生的个人情况如下:
首先还是与场景1类似的问题,这些指标只是冰山一角,还没算上学生们其他领域的成绩,如果说在场景1中还可以以牺牲全面性来删除一些我们觉得关系不大的变量,比如我们猜测老板只会关注GDP与人均GDP这两个指标,那么场景2的背景便已经清晰地说明了需要综合地考虑变量,不能有生硬的去掉“体育”之类的操作。
如果把信息压缩这四个字拆成信息和压缩这两部分来看的话,便会呈现如下值得探究的问题:
「信息压缩中的信息指什么?」
其实各种数据、变量都可被称为信息,而统计学家们常把方差当作信息。其实在做描述性统计分析的时候,只要能够表现我们数据的变异情况的统计量都可以被称作信息,如方差,极差等,只不过是极差会更好计算。以方差为例,方差变化越大,数据分布越分散,涵盖的信息就越多。
「什么样的信息/变量才能被压缩?」
「有哪些压缩的方法?」
PCA就是一种常见的特征提取方法,它会将关系紧密的变量们用尽可能少的新创建的变量代替,使这些新变量是两两不相关的。这就实现用较少的综合指标分别代表存在于各个变量中的各类信息。所以多元变量压缩思路的基础其实是相关分析。
「压缩后的信息与原来的有什么不同?」
我们需要明确的是,无论是主成分还是后续推文的稀疏主成分分析,都有一个问题:他们得到的主成分均没有什么业务含义,如果希望得到的压缩后的变量是有意义的,则可以考虑变量聚类。
下图为两个正态分布的变量间可能存在的三种关系的示意图,去正态分布和相关系数为 0.9 是为了从比较理想化的角度来解释变量压缩的步骤。
可以看到,若两变量间的关系是较强的正/负相关,用铅笔把散点图的范围圈起来的话呈现的都是一个较扁的椭圆;反之,完全独立的两个变量的分布更像是一个肥胖的圆形。关于压缩过程我们依旧对以下几个常见的问题进行解释。
「如何通过散点图理解信息压缩?」
直接看散点图只能判断出是否值得压缩,毕竟只有变量间具有一定的相关性才值得压缩。接下来将涉及到 PCA 中很重要的一个知识点:坐标轴旋转
「旋转坐标轴的作用?」
旋转后的坐标轴与原坐标轴一样,都是正交(垂直)的。这样的旋转方式可以使两个相关的变量的信息在坐标轴上得到最充分的体现(如果以极差作为信息,则点在 X1 的投影范围最长)。之后便可从短轴方向来压缩,当这个椭圆被压扁到一定程度时,短轴上的信息就可以忽略不计,便达到了信息压缩的目的。
「如果有三个变量该如何压缩?」
三维的也是如此,只不过是由椭圆变成椭球(三个变量都相关)。步骤还是一样,找到最长轴后,在轴上做切面,切面一旦有了,便又回归到了二维的情况。这时可以找到次长轴和最短轴,这就可以依次的提取,当我们认为最短轴可以忽略不计的时候,就又起到了信息压缩的作用。
要注意的是如果呈球形分布,这说明变量间没有相关关系,没有必要做主成分分析,也不能做变量的压缩。
前面已经说到,PCA后所得到的压缩的主成分并没有什么意义,比如5个变量压缩成2个主成分P1和P2。
这两个主成分中的组成等式为:
其中,等式右边的系数正负与否并没有什么意义,通常看绝对值即可。第一个主成分 P1中受五个变量的影响程度无明显差别,权重都在0.42 ~ 0.47间 主成分P2受第一个变量的影响最大,权重系数为0.83,受第三个变量影响最小,权重为0.14
那么如何知道应该压缩成几个主成分?PCA 的功能是压缩信息,压缩后的每个主成分都能够解释一部分信息的变异程度(统计学家喜欢用方差表示信息的变异程度),所以,只需要满足解释信息的程度达到一定的值即可。
明显可以看出随着成分数目的增加,累积变异百分比逐渐增加。不建议使得累积百分比等于1,这将会导致有些主成分带来冗余信息,通常等于 0.85 就可以了。当然我们也可以选择两个主成分,因为当我们增加第三个主成分因子时,会发现增加它对于累积变异的百分比没有太大的影响。
在正式开始 Python 代码实战前,简要了解主成分分析的运用场景是非常有必要的
❝
案例背景:某金融服务公司为了了解贷款客户的信用程度,评价客户的信用等级,采用信用评级常用的5C(品质 Character,能力 Capacity,资本 Capital,抵押 Collateral,条件 Condition)方法, 说明客户违约的可能性。
❞
本次实战将围绕综合打分,即只选出一个主成分的情况来实现客户信用评级。
首先导入相关包并进行探索性分析
import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.style.use('seaborn-whitegrid') plt.rc('font', **{'family': 'Microsoft YaHei, SimHei'}) # 设置中文字体的支持 df = pd.read_csv('loan_apply.csv') df
参数解释:
进行主成分分析前,一定要对数据进行相关分析,因为相关性较低或独立的变量不可做PCA
# 求解相关系数矩阵,证明做主成分分析的必要性 ## 丢弃无用的 ID 列 data = df.drop(columns='ID') import seaborn as sns sns.heatmap(data.corr(), annot=True) # annot=True: 显示相关系数矩阵的具体数值
发现变量间相关性都比较高,大于0.7,有做PCA的必要
PCA 建模前,数据需要进行标准化,通常使用中心标准化,也就是将变量都转化成Z分数的形式,即偏离平均数的标准差个数,这样才能防止量纲问题给建模带来的影响。如身高-体重的量纲1.78-59与178-60在散点图上的显示会有比较大的区别!
# PCA 通常用中心标准化,也就是都转化成 Z 分数的形式 from sklearn.preprocessing import scale data = scale(data)
使用sklearn进行PCA分析,注意:
from sklearn.decomposition import PCA pca = PCA(n_components=5) # 直接与变量个数相同的主成分 pca.fit(data)
明显看出第一个主成分就已经能够解释84%的信息变异程度了!
重新选择主成分个数进行建模
第一个主成分(解释了84% 的变异的那个)与5个自变量的系数关系可以理解成:「第一主成分 = 0.413 * 品格 + 0.47 * 能力 + 0.46 * 资本 + 0.45 * 担保 + 0.42 * 环境」。所以说生成的主成分除降维意义显著外,并没有什么其他的意义,并不好解释。
这里的new_data是上文代码pca.fit_transform(data)生成的降维后的数据,接着按照综合打分从高到低进行排序
根据结果我们可以发现贷款给7号客户风险最低,给9号客户风险最高!
本文通过生活实例引出为什么要进行信息的压缩与提炼,讲解了主成分分析 PCA 的原理与使用时的注意事项,并使用Python示范了完整的建模流程,给读者提供了参考和借鉴。另外,作为数据分析师必会的PCA在图像处理如人脸识别和手写数字识别等机器学习领域也有很广的运用,值得好好琢磨并熟练掌握。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16