sas信用评分之不用检查异常值的最优分组-CDA数据分析师官网

热线电话：13121318867

sas信用评分之不用检查异常值的最优分组

2017-05-29

sas信用评分之不用检查异常值的最优分组

今天的更新比以往晚了一天，假期综合症第一天，我到现在已经喝了第三杯咖啡，实现上周的预告，这种更新一个不用检查异常值的数值变量最优分组。其实这代码我本来不想拿出来，我觉得这代码估计能卖点钱，但是介于我是一个不敢赚你们钱的博主，所以还是拿出来吧。本篇文章最后有惊喜。

首先我们先说下，这的代码的思路，为什么不用检查异常值呢。其实是这样子的，我把等量分组和最优分组结合起来了，即保证了最小组的数量也保证了不要因为某些异常值导致分组的过拟合。也少去人工的手动分组。

譬如，有一个年龄的分组，那么我会先用等量分组先分成20组，这时候注意了，就是前后会有极小极大值，就算是异常值，这时候因为你分成了20组，所以极小值以及极大值就被包含在第一组以及最后一组中，以1和20代替了。我相信我这么说你应该可以理解。

至于这等量分组的代码用的是proc rank过程去分的，具体可以参考：proc rank过程

等量分组的代码在这篇文章中：sas信用评分之手动对数值变量分组

然后将产出的结果映射到原数据中再丢进去最优分组，最优分组的代码在这篇文章中：sas信用评分之第二步变量筛选。再丢进去最优分组的代码的时候，需要将等量分组映射到原数据集中，映射代码如下：

/*这个宏是在%data_split后面的执行的，所以这里需要的数据集有%data_split中产生的以"_iv"为后缀的，"_RANK"的数据集*/

data：填入原数据集

id:填入主键

ddvar:因变量

%macro map(data,id,ddvar);

proc sql noprint;

select col_name into: varlist separated by ' ' from &data._IV;

%let nVar=&SQLOBS;

quit;/*从细分后的字典表中得到待填充的变量*/

%put &varlist.;

data &data._woe;

set &data.(keep=&id. &ddvar.);

run;/*首先获取相应的识别标识及Y值*/

data &data._1(drop=i);

set &data.;

array arr1{*} _NUMERIC_;

do i = 1 to dim(arr1);

if missing(arr1(i)) then do;

arr1(i)=-999;

end;

run;

%do i=1 %to &nVar;

%let var = %scan(&varlist, &i);

data V ;

set &data._1(keep=&id. &var.);

run;/*找出待填充变量的取值，将空值填充为1000000000*/

data rank;

set &data._RANK;

where col_name="&var.";

run;/*找出待填充变量的配置表相关信息*/

proc sql noprint;

create table WOE AS

select I.&id., B.clus as &var.

from V AS I

left join rank AS B

ON I.&var. > b.low AND I.&var. <= B.up

;

quit;/*通过上、下界进行填充*/

proc sort data=WOE;

by &id.;

run;

proc sort data=&data._woe;

by &id.;

run;

data &data._woe;

merge &data._woe woe;

by &id.;

run;/*合并所有的变量woe*/

%end;

%mend;

我希望你们真心想用这部分代码分组的，你们要自己看懂代码，学习这种东西不是问出来，都是要自己动手琢磨的。我自认为我不是一个聪明的人，但我是喜欢的东西，我会很乐于去探索，所以你也可以。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

异常值过拟合 SQL

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

sas信用评分之不用检查异常值的最优分组

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】MLP模型隐藏层层数与单元个数确定指南： ...

【CDA干货】详解tensorflow_datasets.load函数：快 ...

CDA数据分析师：聚类分析实战，无监督学习下的精准 ...

【CDA干货】多参数综合作用：解锁机器学习精准性与 ...

【CDA干货】SQL Server CONVERT日期转换：从基础到 ...

CDA数据分析师：主成分分析（PCA）实战，破解高维数 ...

【CDA干货】随机森林算法中的特征重要性分析：原理 ...

【CDA干货】如何提升数据分析能力：从入门到精通的 ...

CDA数据分析师：线性回归建模实战，从关联分析到业 ...

【CDA干货】因子分析如何分组：核心原理、实操流程 ...

【CDA干货】数据赋能营销：从经验决策到科学增长的 ...

CDA数据分析师：用好相关系数，精准挖掘变量关联、 ...

【CDA干货】数据分析与A/B测试：相辅相成的数据决策 ...

【CDA干货】卡方检验是显著性检验吗？一文厘清定义 ...

CDA数据分析师：方差分析与F检验，多组数据差异验证 ...

【CDA干货】Excel如何创建稳定备注列：适配动态更新 ...

【CDA干货】Tableau实用案例全解：从业务场景到可视 ...

CDA数据分析师：列联表分析与卡方检验，破解分类变 ...

【CDA干货】数据清洗全指南：基础核心+常用工具实操 ...

【CDA干货】数据挖掘与数据分析：区别、联系与职场 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载