sas字符变量基于bad_rate分组-CDA数据分析师官网

热线电话：13121318867

sas字符变量基于bad_rate分组

2017-04-19

sas字符变量基于bad_rate分组

最近因为模型拟合的不理想的原因，sas信用评分的内容可能要停更一两周了，因为我还没能进行到模型评分卡这一步就被跨期验证给拍下来了，我做的模型，训练的数据以及测试的数据指标都还不错，跨期验证指标掉的厉害。希望有经验的大神可以在留言区给我点建议，因为你们的建议可以让我少走很多弯路。我现在要重新调整，至于怎么调整的内容，我后面会做一个总结的文章，讲对于指标达不到指标的时候可以有什么方便调整下指标，在这些方法之后还调整不了指标的再回头看变量。

这次分享的代码是字符变量依据bad_rate做的一个分组。之前分享过给予基尼系数，给予iv值的，那么这次就叫基于bad_rate的吧。这次的代码可能会比之前的代码容易理解很多，而这次的代码也是我的partner陈先生写的。不要问我陈先生是谁，这是个秘密。

%macrodatasplit(data,target,group);

proc sql;

create table csm_CASH_MODEL_Train_rank1(

table_name varchar(100)

,col_name varchar(50)

,rank_name numeric

,low numeric

,up numeric

,cnt numeric

,rate numeric

,n1 numeric

,bad_rate numeric

,woe numeric

,iv numeric

,split_type numeric);

quit;

proc sql;

create table csm_CASH_MODEL_Train_rank2(

table_name varchar(100)

,col_name varchar(50)

,rank_name varchar(2000)

,lownumeric ,, ,up numeric

,cnt numeric

,rate numeric

,n1 numeric

,bad_rate numeric

,woe numeric

,iv numeric

,split_type numeric);

quit;

proc sql;/*获得总记录数、总坏客户数、总好客户数*/

select count(*),SUM(&target.),count(*)-SUM(&target.) into :record_cnt,

:bad_cnt,

:good_cnt

from &data.;

quit;

proc contents/*获取输入数据集的所有变量信息*/

data=&data.

out=CASH_SELECT_MODEL_VALID_V10_CONT

noprint;

run;

data CASH_SELECT_MODEL_VALID_V10_CONT;

set CASH_SELECT_MODEL_VALID_V10_CONT;

where name ^='&target.';

run;

data _null_;

set CASH_SELECT_MODEL_VALID_V10_CONT;

call symput(compress("numobs"),compress(_n_));

run;

%doi=1%to&numobs;

%put&NUMOBS.||&i.;

data _null_;

pointer=&i.;

set CASH_SELECT_MODEL_VALID_V10_CONT POINT=POINTER;

call symput('col_name', NAME);

call symput('TYPE', put(TYPE,1.));

stop;

run;

%if&TYPE.=2%then%do;

proc sql;

create table &col_name.as select

&col_name.

,sum(&target.)/count(1) as bad_rate

,sum(&target.) as &target.

,count(1) as num

from &data.

group by &col_name.;

quit;

%put&col_name;

%put&type;

proc sql;

select count(1) into:valuenum from &col_name;

quit;

%if&valuenum.>&group.%then%do;

proc rank data= &col_name out = data_rank ties = mean groups = &group.descending;

var bad_rate;

ranks group_name;

run;

proc sql;

create table &data.as

select *,

b.group_name as new_&col_name.

from &data.a

left join data_rank b

ona.&col_name.=b.&col_name.;

quit;

proc sql;

insert into csm_CASH_MODEL_Train_rank1(table_name ,col_name ,rank_name ,low ,up,cnt,rate,n1,bad_rate,woe,iv,split_type)

select"csm_CASH_MODEL_Train_rank","&col_name",group_name ,min(bad_rate) ,max(bad_rate) ,sum(num)

,sum(num)/&record_cnt

,sum(&target.)

,sum(&target.)/sum(num)

,log((ifn(sum(&target.)=0,0.001,sum(&target.))/&bad_cnt)/((sum(num)-sum(&target.))/&good_cnt))

,(sum(&target.)/&bad_cnt-(sum(num)-sum(&target.))/&good_cnt)*log((ifn(sum(&target.)=0,0.001,sum(&target.))/&bad_cnt)/((sum(num)-sum(&target.))/&good_cnt))

,&group.

from data_rank

group by group_name;

quit;

%end;

%if&valuenum.<=&group.%then%do;

proc sql;

insert into csm_CASH_MODEL_Train_rank2( table_name ,col_name ,rank_name ,low,up,cnt,rate ,n1 ,bad_rate,woe ,iv ,split_type)

select"csm_CASH_MODEL_Train_rank","&col_name",&col_name.,min(bad_rate) ,max(bad_rate) ,sum(num),sum(num)/&record_cnt

,sum(&target.),sum(&target.)/sum(num)

,log((ifn(sum(&target.)=0,0.001,sum(&target.))/&bad_cnt)/((sum(num)-sum(&target.))/&good_cnt))

,(sum(&target.)/&bad_cnt-(sum(num)-sum(&target.))/&good_cnt)*log((ifn(sum(&target.)=0,0.001,sum(&target.))/&bad_cnt)/((sum(num)-sum(&target.))/&good_cnt))

,&valuenum

from &col_name.

group by &col_name.;

quit;

%end;

data csm_CASH_MODEL_Train_rank1;

set csm_CASH_MODEL_Train_rank1;

rank_name1=put(rank_name,$8.);

drop rank_name;

rename rank_name1=rank_name;

run;

data csm_CASH_MODEL_Train_rank;