如何利用SAS进行随机抽样-CDA数据分析师官网

热线电话：13121318867

如何利用SAS进行随机抽样

2015-11-26

如何利用SAS进行随机抽样

利用SAS进行随机抽样

在构建数据挖掘模型过程中，有时我们无法对所有的整体进行全面研究，有时我们希望将整体划分为训练集、验证集、测试集三份用于不同目的的数据集，甚至在K-折交叉验证中，我们需要把样本随机的划分为K份数据子集。本文介绍SAS的SURVEYSELECT过程和RANUNI函数在随机抽样方面的应用。

0、读入数据集，并对数据集按分层变量进行排序。本文数据集采用students.txt：

* 从students.txt读入文件到数据集students;

DATA students;

INFILE ‘C:\students.txt’;

INPUT id class $ gender $ math english history chem phys literat;

RUN;

* 查看数据集内容;

PROC PRINT DATA = students;

TITLE ‘Students”s class gender & scores’;

RUN;

* 对二维列联表（班级、性别）进行频数统计;

PROC FREQ DATA = students;

TABLES class * gender /NOPERCENT NOROW NOCOL;

RUN;

* 首先对数据集按分层变量进行排序;

PROC SORT DATA = students;

BY class gender;

RUN;

1、利用SURVEYSELECT过程进行等比例分层抽样

* 利用SURVEYSELECT过程对数据集进行等比例分层抽样;

PROC SURVEYSELECT DATA = students out = samp1 method = srs samprate = .5 seed = 9876;

STRATA class gender;

RUN;

* 查看分层抽样的结果;

PROC FREQ DATA = samp1;

TABLES class * gender /NOPERCENT NOROW NOCOL;

RUN;

2、利用SURVEYSELECT过程进行不等比例分层抽样

* 利用SURVEYSELECT过程对数据集进行等不比例分层抽样;

PROC SURVEYSELECT DATA = students out = samp2 method = srs samprate = (.4 .6 .4 .6 .4 .6)seed = 9876;

STRATA class gender;

RUN;

* 查看分层抽样的结果;

PROC FREQ DATA = samp2;

TABLES class * gender /NOPERCENT NOROW NOCOL;

RUN;

3、利用SURVEYSELECT过程根据抽样数量进行分层抽样

* 利用SURVEYSELECT过程对数据集进行指定数量的分层抽样;

PROC SURVEYSELECT DATA = students out = samp3 method = srs n = (8 4 6 8 5 7) seed =9876;

STRATA class gender;

RUN;

* 查看分层抽样的结果;

PROC FREQ DATA = samp3;

TABLES class * gender /NOPERCENT NOROW NOCOL;

RUN;

4、利用随机数函数RANUNI对数据集进行粗略划分

* 利用RANUNI函数将数据集粗略的划分为N=5份;

DATA s1 s2 s3 s4 s5;

SET students;

r = RANUNI(991889);

IF r<0.2 THEN OUTPUT s1;

ELSE IF r<0.4 THEN OUTPUT s2;

ELSE IF r<0.6 THEN OUTPUT s3;

ELSE IF r<0.8 THEN OUTPUT s4;

ELSE OUTPUT s5;

DROP r;

RUN;

5、利用随机数函数RANUNI对数据集进行精确划分

* 根据数据集创建视图students_v,增加随机数列;

DATA students_v /view=students_v;

SET students;

srt = RANUNI(999890);

RUN;

* 按照随机数列对数据集进行排序,创建数据集students_srt,删除随机数列;

PROC SORT DATA = students_v OUT = students_srt(DROP = srt);

BY srt;

RUN;

* 将数据集精确地划分为N=5份;

DATA s1 s2 s3 s4 s5;

RETAIN per ;

SET students_srt NOBS= total;

IF _N_ = 1 THEN per = INT(total/5);

if _N_<= per then output s1;

ELSE IF _N_<= 2 * per THEN OUTPUT s2;

ELSE IF _N_<= 3 * per THEN OUTPUT s3;

ELSE IF _N_<= 4 * per THEN OUTPUT s4;

ELSE OUTPUT s5;

DROP per;

RUN;

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据挖掘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

如何利用SAS进行随机抽样

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据分析全流程常见问题：成因、危害与 ...

【CDA干货】维度表与事实表：数据仓库的核心双子星 ...

CDA数据分析师：数据读取实操指南，打通数据价值转 ...

【CDA干货】用户行为分析中泛化性指标：计算方法、 ...

【CDA干货】以数为鉴，读懂用户：三大行业用户行为 ...

CDA数据分析师：量化策略分析框架，解锁数据驱动决 ...

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA数据分析师：数据思维赋能企业管理，激活决策新 ...

【CDA干货】数据分析赋能价值创造：国内外知名经典 ...

【CDA干货】Python爬取163网易财经上市公司财务报表 ...

CDA数据分析师：数字化时代，数据思维的核心步骤与 ...

【CDA干货】线性回归拟合性判断实战指南：从指标解 ...

【CDA干货】安装SQL Server后提示“服务名无效”： ...

CDA数据分析师实操指南：指标体系搭建的方法与完整 ...

【CDA干货】销售额预测实战：基于时间序列与回归分 ...

【CDA干货】金融数据分析：为什么异常值处理是必做 ...

CDA数据分析师必备：指标与指标体系管理基础指南 ...

【CDA干货】数据呈现与数据分析：核心区别+实操边界 ...

【CDA干货】Pandas读取dat文件：提取第一行数据并转 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载