决策树也可以做特征分析啦-CDA数据分析师官网

热线电话：13121318867

决策树也可以做特征分析啦

2018-08-21

决策树也可以做特征分析啦

那么这个代码是用于建模初期，你为了大概了解变量的一个基本特征写的，不是最优分组哈，因为这个代码是将变量最多分为12组，分这么多组的原因也是为了更好的观察特征而已啦，你要是觉得太多组，你可以改下树的深度这些调整一下，这里关于变量特征怎么看，我就不说了.....

%macro

zhandapao(data,DVAR,id,dir);

proc datasets lib=work nodetails;

delete

varname_total;

run;

/*建立数值型数据集*/

%let lib=%upcase(%scan(&data.,1,'.'));

%letdname=%upcase(%scan(&data.,2,'.'));

%globalvar_list var_num;

proc sql noprint;

select name,count(*) into :var_list separated by' ',:var_num

from sashelp.VCOLUMN

where left(libname)="&lib."and

left(memname)="&dname."and

type="num"and

lowcase(name)^=lowcase("&DVAR.")

and lowcase(name)^="&id.";

quit;

%put

&var_list.;

/*把数值型变量定义为宏变量*/

%doi=1%to&var_num.;

%letnumvar_name_&i.=%scan(&var_list.,&i.);

%put&numvar_name_1.;

proc split data=&data.splitsize=300

maxbranch=2

MAXDEPTH=5nsurrs=5

assess=lift criterion=gini;

input &&numvar_name_&i./level=interval;

target &DVAR./level=binary;

Score data=&data.out=d_&&numvar_name_&i.;

code file="&dir.treecode_tic_&&numvar_name_&i..sas";

describe file="&dir.treerule_tic_&&numvar_name_&i..txt";

run;

data n_D_&&numvar_name_&i.;

set d_&&numvar_name_&i.;

%include"&dir.treecode_tic_&&numvar_name_&i..sas";

rename p_&DVAR.1=p_&&numvar_name_&i.;

run;

proc sql noprint;

select count(*),max(&&numvar_name_&i.),min(&&numvar_name_&i.)into:total, :max ,:min from n_D_&&numvar_name_&i.;

quit;

data n_D_&&numvar_name_&i.;

set n_D_&&numvar_name_&i.;

if &min.<=&&numvar_name_&i.<=&max.

then flag="no_null";

else flag="null";

run;

proc sql;

select count(*) into:is_null from

n_D_&&numvar_name_&i.;

quit;

%if&is_null.>0%then%do;

proc sql noprint;

select count(*),max(&&numvar_name_&i.),min(&&numvar_name_&i.)into:total,:max ,:min from n_D_&&numvar_name_&i.;

create table total as

select"&&numvar_name_&i."as

varname,

min(&&numvar_name_&i.) as interval_1,

max(&&numvar_name_&i.) as interval_2,

compress(put(min(round(&&numvar_name_&i.,0.0001)),best32.))||'-'||compress(put(max(round(&&numvar_name_&i.,0.0001)),best32.)) as interval,

sum(&DVAR.) as bad_num,

count(*) as total_num,

count(*)/&total.as num_rate,

sum(&DVAR.)/count(*) as bad_rate

from n_D_&&numvar_name_&i.

group by p_&&numvar_name_&i.

union all

select"&&numvar_name_&i."as varname,

-9999as interval_1,

-9999as interval_2,

'null'as interval,

sum(&DVAR.) as bad_num,

count(*) as total_num,

count(*)/&total.as num_rate,

sum(&DVAR.)/count(*) as bad_rate

from n_D_&&numvar_name_&i.(where=(&&numvar_name_&i.=.))

group by p_&&numvar_name_&i.

order by interval_1;

quit;

%end;

%else%do;

proc sql noprint;

select count(*),max(&&numvar_name_&i.),min(&&numvar_name_&i.)into:total,:max ,:min from n_D_&&numvar_name_&i.;

create table total as

select"&&numvar_name_&i."as varname,

min(&&numvar_name_&i.) asninterval_1,

max(&&numvar_name_&i.) as interval_2,

compress(put(min(round(&&numvar_name_&i.,0.0001)),best32.))||'-'||compress(put(max(round(&&numvar_name_&i.,0.0001)),best32.)) as interval,

sum(&DVAR.) as bad_num,

count(*) as total_num,

count(*)/&total.as num_rate,

sum(&DVAR.)/count(*) as bad_rate

from n_D_&&numvar_name_&i.

group by p_&&numvar_name_&i.

order by interval_1;

quit;

%end;

data &&numvar_name_&i.;

set total;

group=_n_;

run;

proc append base=varname_total

data=&&numvar_name_&i.

force;run;

proc datasets lib=work nodetails;

delete total n_: d_:

&&numvar_name_&i.

_namedat;

quit;

%end;

%mend;

解释一下这个代码怎么用，这个宏已经是封装好了的，直接填入参数就可以用了：

zhandapao(data,DVAR,id,dir);

data:填入你的数据集

DVAR：填入你的因变量

id：填入你的数据集的主键

dir：这个你需要填一个路径，是用来放决策树的规则的文件下，决策树的规则文件你看不懂没关系，你填个类似“F/DD”的路径就可以了。

例子：%zhandapao(DD.TEST_DATA,y,CUSTOMER_id,D:test_1);

结果图就是这样子：

那么今天的更新就到这里啦

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

特征决策树

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇关于区块链的七大认识误区

下一篇大数据：分类型数据可视化方法研究报告

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

决策树也可以做特征分析啦

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】Tableau驱动同比环比分析：让数据趋势洞 ...

【CDA干货】从数据到价值：用户行为分析系统的核心 ...

CDA数据分析师：深耕数据治理体系，激活数据资产核 ...

【CDA干货】数据降维与分组的“三叉戟”：析因、聚 ...

【CDA干货】Transformer的“记忆漏洞”：灾难性遗忘 ...

CDA数据分析师：用效应分解法，拆解时间序列背后的 ...

【CDA干货】超小数据集训练Loss的极限探索：非过拟 ...

【CDA干货】数据仓库数据清洗：从“脏数据”到“可 ...

CDA数据分析师：以时间序列为尺，洞察数据动态价值 ...

【CDA干货】休闲游戏次日留存破局：从“一次体验” ...

CDA数据分析师：以用户画像为钥，解锁精准业务增长 ...

【CDA干货】塔吉特公司案例分析：数据驱动零售的精 ...

【CDA干货】二项分布与卡方检验：统计中的“模型” ...

CDA数据分析师：精通标签加工方式，让数据转化为业 ...

【CDA干货】Python HTTP请求工具类：从封装到实战的 ...

【CDA干货】标准差/均值＞0.5：数据高波动的实用判 ...

CDA数据分析师：以SQL为刃，精准挖掘数据价值 ...

一文讲清楚CDA数据分析师考试，2025年最新Q&A，你想 ...

【CDA干货】Excel柱形图背景色设置：从基础美化到数 ...

【CDA干货】t检验：小样本统计推断的核心工具——从 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载