数据挖掘技术在信用卡业务中的应用案例
信用卡业务具有透支笔数巨大、单笔金额小的特点,这使得数据挖掘技术在信用卡业务中的应用成为必然。国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展,实现全面的绩效管理。我国自1985年发行第一张信用卡以来,信用卡业务得到了长足的发展,积累了巨量的数据,数据挖掘在信用卡业务中的重要性日益显现。
一、数据挖掘技术在信用卡业务中的应用数据挖掘技术在信用卡业务中的应用主要有分析型客户关系管理、风险管理和运营管理。
1.分析型CRM
分析型CRM应用包括市场细分、客户获取、交叉销售和客户流失。信用卡分析人员搜集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,分析某个客户群体的特性、消费习惯、消费倾向和消费需求,进而推断出相应消费群体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定产品的主动营销。这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而能为银行带来更多的利润。对客户采用何种营销方式是根据响应模型预测得出的客户购买概率做出的,对响应概率高的客户采用更为主动、人性化的营销方式,如电话营销、上门营销;对响应概率较低的客户可选用成本较低的电子邮件和信件营销方式。除获取新客户外,维护已有优质客户的忠诚度也很重要,因为留住一个原有客户的成本要远远低于开发一个新客户的成本。在客户关系管理中,通过数据挖掘技术,找到流失客户的特征,并发现其流失规律,就可以在那些具有相似特征的持卡人还未流失之前,对其进行有针对性的弥补,使得优质客户能为银行持续创造价值。
2.风险管理
数据挖掘在信用卡业务中的另一个重要应用就是风险管理。在风险管理中运用数据挖掘技术可建立各类信用评分模型。模型类型主要有三种:申请信用卡评分卡、行为信用评分卡和催收信用评分卡,分别为信用卡业务提供事前、事中、和事后的信用风险控制。
申请评分模型专门用于对新申请客户的信用评估,它应用于信用卡征信审核阶段,通过申请人填写的有关个人信息,即可有效、快速地辨别和划分客户质量,决定是否审批通过并对审批通过的申请人核定初始信用额度,帮助发卡行从源头上控制风险。申请评分模型不依赖于人们的主观判断或经验,有利于发卡行推行统一规范的授信政策。行为评分模型是针对已有持卡人,通过对持卡客户的行为进行监控和预测,从而评估持卡客户的信用风险,并根据模型结果,智能化地决定是否调整客户信用额度,在授权时决定是否授权通过,到期换卡时是否进行续卡操作,对可能出现的使其提前进行预警。催收评分模型是申请评分模型和行为评分模型的补充,是在持卡人产生了逾期或坏账的情况下建立的。催收评分卡被用于预测和评估对某一笔坏账所采取措施的有效性,诸如客户对警告信件反应的可能性。这样,发卡行就可以根据模型的预测,对不同程度的逾期客户采取相应措施进行处理。以上三种评分模型在建立时,所利用的数据主要是人口统计学数据和行为数据。人口统计学数据包括年龄、性别、婚姻状况、教育背景、家庭成员特点、住房情况、职业、职称、收入状况等。行为数据包括持卡人在过去使用信用卡的表现信息,如使用频率、金额、还款情况等。由此可见,数据挖掘技术的使用,可以使银行有效地建立起事前、事中到事后的信用风险控制体系。
3.运营管理
虽然数据挖掘在信用卡运营管理领域的应用不是最重要的,但它已为国外多家发卡公司在提高生产效率、优化流程、预测资金和服务需求、提供服务次序等问题的分析上取得了较大成绩。
二、常用的数据挖掘方法
上述数据挖掘技术在信用卡领域的应用中,有很多工具可用于开发预测和描述模型。有些用统计方法,如线性回归和逻辑回归;有些有非统计或混合方法,如神经网络、遗传算法、决策树及回归树。这里仅讨论几种常见的典型方法。
1.线性回归
简单线性回归分析是量化两个连续变量之间关系的一种统计技术。这两个变量分别是因变量(预测变量)。使用这一方法,可以发现一条穿过数据的线,线上的点使对应数据点的方差最小。为市场营销、风险和客户关系管理建立模型时,通常有多个自变量,用多个独立自变量来预测一个连续变量称为多元线性回归,用线性回归方法建立的模型通常具有鲁棒性。
2.逻辑回归
逻辑回归是使用最广泛的建模技术,与线性回归很相似。两者的主要区别在于逻辑回归的因变量(想预测变量)不是连续的,而是离散的或者类型变量。如申请评分模型可运用逻辑回归方法,选取关键变量确定回归系数。以申请者的关键变量x1,x2,…xm为自变量,以y=[1 申请者是坏客户;0 申请者是好客户,为因变量,则对于二分类因变量,一般假设客户变坏的概率为 p(y=1)=eβ0 β1×1 … βmxm/1 eβ0 β1×1 … βmxm式中,β0,β1…,βm是常数,即1n(p/1-p)=β0 β1×1 … βmxm
3.神经网络
神经网络处理和回归处理大不相同,它不依照任何概率分布,而是模仿人脑功能,可以认为它是从每一次经验中提取并学习信息。神经网络系统由一系列类似于人脑神经元一样的节点组成,这些节点通过网络彼此互连。如果有数据输入,它们便可以进行确定数据模式的工作。神经网络由相互连接的输入层、中间层(或隐藏层)、输出层组成。中间层由多个节点组成,完成大部分网络工作。输出层输出数据分析的执行结果。
4.遗传算法
与神经元网络类似,遗传算法也不遵循任何概率分布,是源自“适者生存”的进化过程。它首先将问题的可能解按某种形式进行编码,编码后的解称为染色体。随机选取n个染色体作为初始种群,再根据预定的评价函数对每个染色体计算适应值,性能较好的染色体有较高的适应值。选择适应值较高的染色体进行复制,并通过遗传算子产生一群新的更适应环境的染色体,形成新的种群,直至最后收敛到一个最适应环境的个体,得到问题的最优化解。
5.决策树
决策树的目标是逐步将数据分类到不同的组或分支中,在因变量的值上建立最强划分。由于分类规则比较直观,所以易于理解。图1为客户响应的决策树,从中很容易识别出响应率最高的组。
三、实例分析
以下以逻辑回归方法建立信用卡申请评分模型为例,说明数据挖掘技术在信用卡业务中的应用。申请评分模型设计可分为7个基本步骤。
1.定义好客户和坏客户的标准
好客户和坏客户的标准根据适合管理的需要定义。按照国外的经验,建立一个预测客户好坏的风险模型所需的好、坏样本至少各要有1000个左右。为了规避风险,同时考虑到信用卡市场初期,银行的效益来源主要是销售商的佣金、信用卡利息、手续费收入和资金的运作利差。因此,一般银行把降低客户的逾期率作为一个主要的管理目标。比如,将坏客户定义为出现过逾期60天以上的客户;将坏客户定义为出现过逾期60天以上的客户;将好客户定义为没有30天以上逾期且当前没有逾期的客户。
一般来讲,在同一样本空间内,好客户的数量要远远大于坏客户的数量。为了保证模型具有较高的识别坏客户的能力,取好、坏客户样本数比率为1:1。
2.确定样本空间
样本空间的确定要考虑样本是否具有代表性。一个客户是好客户,表明持卡人在一段观察期内用卡表现良好;而一个客户只要出现过“坏”的记录,就把他认定为坏客户。所以,一般好客户的观察期要比坏客户长一些、好、坏客户可以选择在不同的时间段,即不同的样本空间内。比如,好客户的样本空间为2003年11月-2003年12月的申请人,坏客户的样本空间为2003年11月-2004年5月的申请人,这样既能保证好客户的表现期较长,又能保证有足够数量的坏客户样本。当然,抽样的好、坏客户都应具有代表性。
3.数据来源
在美国,有统一的信用局对个人信用进行评分,通常被称为“FICO评分”。美国的银行、信用卡公司和金融机构在对客户进行信用风险分析时,可以利用信用局对个人的数据报告。在我国,由于征信系统还不完善,建模数据主要来自申请表。随着我国全国性征信系统的逐步完善,未来建模的一部分数据可以从征信机构收集到。
4.数据整理
大量取样的数据要真正最后进入模型,必须经过数据整理。在数据处理时应注意检查数据的逻辑性、区分“数据缺失”和“0”、根据逻辑推断某些值、寻找反常数据、评估是否真实。可以通过求最小值、最大值和平均值的方法,初步验证抽样数据是否随机、是否具有代表性。
5.变量选择
变量选择要同时具有数学统计的正确性和信用卡实际业务的解释力。Logistic回归方法是尽可能准确找到能够预测因变量的自变量,并给予各自变量一定权重。若自变量数量太少,拟合的效果不好,不能很好地预测因变量的情况;若自变量太多,会形成过分拟合,预测因变量的效果同样不好。所以应减少一些自变量,如用虚拟变量表示不能量化的变量、用单变量和决策树分析筛选变量。与因变量相关性差不多的自变量可以归为一类,如地区对客户变坏概率的影响,假设广东和福建两省对坏客户的相关性分别为-0.381和-0.380,可将这两个地区归为一类,另外,可以根据申请表上的信息构造一些自变量,比如结合申请表上“婚姻状况”和“抚养子女”,根据经验和常识结合这两个字段,构造新变量“已婚有子女”,进入模型分析这个变量是不真正具有统计预测性。
6.模型建立
借助SAS9软件,用逐步回归法对变量进行筛选。这里设计了一种算法,分为6个步骤。
步骤1:求得多变量相关矩阵(若是虚拟变量,则>0.5属于比较相关;若是一般变量,则>0.7-0.8属于比较相关)。
步骤2:旋转主成分分析(一般变量要求>0.8属于比较相关;虚拟变量要求>0.6-0.7属于比较相关)。
步骤3:在第一主成分和第二主成分分别找出15个变量,共30个变量。
步骤4:计算所有30个变量对好/坏的相关性,找出相关性大的变量加入步骤3得出的变量。
步骤5:计算VIF。若VIF数值比较大,查看步骤1中的相关矩阵,并分别分析这两个变量对模型的作用,剔除相关性较小的一个。
步骤6:循环步骤4和步骤5,直到找到所有变量,且达到多变量相关矩阵相关性很而单个变量对模型贡献作用大。
7.模型验证
在收集数据时,把所有整理好的数据分为用于建立模型的建模样本和用于模型验证的对照样本。对照样本用于对模型总体预测性、稳定性进行验证。申请评分模型的模型检验指标包括K-S值、ROC、AR等指标。虽然受到数据不干净等客观因素的影响,本例申请评分模型的K-S值已经超过0.4,达到了可以使用的水平。
四、数据挖掘在国内信用卡市场的发展前景
在国外,信用卡业务信息化程度较高,数据库中保留了大量的数量资源,运用数据技术建立的各类模型在信用卡业务中的实施非常成功。目前国内信用卡发卡银行首先利用数据挖掘建立申请评分模型,作为在信用卡业务中应用的第一步,不少发卡银行已经用自己的历史数据建立了客户化的申请评分模型。总体而言,数据挖掘在我国信用卡业务中的应用处于数据质量问题,难于构建业务模型。
随着国内各家发卡银行已经建立或着手建立数据仓库,将不同操作源的数据存放到一个集中的环境中,并且进行适当的清洗和转换。这为数据挖掘提供了一个很好的操作平台,将给数据挖掘带来各种便利和功能。人民银行的个人征信系统也已上线,在全国范围内形成了个人信用数据的集中。在内部环境和外部环境不断改善的基础上,数据挖掘技术在信用卡业务中将具有越来越广阔的应用前景。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10