【SAS宏】使用WOE和IV实现风险因素筛选
在信用风险评估领域,信用评分卡模型在国内外都是一种非常成熟的预测模型,无论是使用传统的Logistic回归建模乃至一些使用Neural networks算法建模,变量筛选都是整个建模过程中至关重要的一步。建模工作人员通过变量筛选的结果能够迅速识别那些最具预测能力的风险因素。
Core concepts
首先介绍一下WOE(Weight Of Evidence)
一般情况下我们将违约客户标记为1,正常客户标记为0。那么WOE其实就是自变量取某个值时对违约比例的一重影响。其计算公式如下:
通过WOE的计算公式可以发现其反映的是在自变量每个分组下坏客户对好客户的比例与总体坏客户对好客户占比之间的差异,所以我们可以直观的认为WOE蕴含了自变量取值对于应变量(0,1)的影响。同时,WOE的计算形式与Logistic regression中的Logit变换非常相似,故可直接使用自变量的WOE值代替原自变量。
想必有的读者已经发现WOE无法对连续变量进行转换,事实上对于连续变量(或者分类繁杂的离散变量),通常使用区间切分的方式将其转换成离散形式,进而通过聚类的方法完成区间的切分,并进行最终的WOE计算。
然后介绍一下IV值(Information Value)
IV值衡量的是某变量所含的信息量,其计算公式如下:
通过公式可以看到IV值其实是WOE值的一个加权求和,其值的大小决定了该自变量对于目标变量的影响程度(不难发现IV值公式和信息熵的公式非常相似)。
Advantages
相比其他变量筛选方法,WOE和IV值有两大优势:
它可以对所有分类变量,顺序变量以及连续变量统一进行预测能力的计量。
可以对缺失值进行处理,将其看作一类即可分析信息缺失对于风险是否有影响
Macro
%macroIV(dataset,varnum);
proc sql;
select sum(case when target=1then1else0end), sum(case when target=0then1else0end), count(*) into :tot_bad, :tot_good, :tot_both
from &dataset.;
quit;
/*循环计算每个变量的WOE和IV*/
%doi=1%to&varnum.;
/*计算WOE*/
proc sql;
create table woe&i as
(select"x&i"as variable,
x&i as tier,
count(*) as cnt,
count(*)/&tot_both as cnt_pct,
sum(case when target=0then1else0end) as sum_good,
sum(case when target=0then1else0end)/&tot_good as dist_good,
sum(case when target=1then1else0end) as sum_bad,
sum(case when target=1then1else0end)/&tot_bad as dist_bad,
log((sum(case when target=0then1else0end)/&tot_good)/(sum(case when
target=1then1else0end)/&tot_bad))*100as woe,
((sum(case when target=0then1else0end)/&tot_good)-(sum(case when
target=1then1else0end)/&tot_bad))
*log((sum(case when target=0then1else0
end)/&tot_good)/(sum(case when target=1then1else0end)/&tot_bad)) as pre_iv,
sum(case when target=1then1else0end)/count(*) as outcome
from &dataset.
group by x&i
)
order by x&i;
quit;
/*计算IV*/
proc sql;
create table iv&i as select"x&i"as variable,
sum(pre_iv) as iv
from woe&i;
quit;
%end;
/*合并IV结果*/
data iv;
length variable$5.;
set iv1-iv&varnum.;
run;
/*根据IV值排序*/
proc sort data=iv;
by decending iv;
quit;
%mend;
Results
为了方便,这里就例举只有10个风险因素的例子,通过结果可以得到IV值由高到低的一个排序以及相应变量的数据缺失情况。
那我们应该如何评价以上10个变量呢?
下表则是公认的评价IV值的关系表(By Siddiqi)。
事实上,IV值小于0.02的变量将被程序自动剔除,因为这些变量被认为是没有预测能力的。另外,值得一提的是IV值大于0.5是可疑的,需要综合分析该变量后谨慎选择。
Final selection
最终选择进入模型的变量不仅需要较高的IV值,还需要考虑数据缺失率,变量分布,模型解释能力等。
Conclusion
根据实践验证,经过WOE变化之后的建模效果及模型的稳定性会比不进行变化的模型有一定的提升,事实上使用WOE来对自变量做编码的一大目的就是使得辨识度最大化。另外,WOE变化之后,自变量具备了标准化的性质,从而自变量各取值之间可以直接通过WOE进行比较,同时,不同自变量之间的各种取值也可以直接通过WOE进行比较。
通过WOE和IV值的计算,我们可以更直观地理解各自变量对目标变量的作用效果和方向,同时提升最终的预测效果。
数据分析咨询请扫描二维码
数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21