SAS随机抽样以及程序初始环境
在统计研究中,针对容量无限或者容量很大以至于无法直接对其进行研究的总体,都是通过从中抽取一部分个体作为研究对象,以考察总体的特征。被抽取的部分个体称为该总体的一个样本。从总体中抽取样本的过程,称为抽样。
抽样包括随机抽样和非随机抽样。非随机抽样是从总体中抽取指定的个体,具有主观意向性,这里不做讨论。
随机抽样是按照随机原则,保证个体都有一定概率被抽取到的抽样方法。常见的随机抽样方式有:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样、二重抽样以及比率抽样。
以下将依次介绍各种随机抽样方法的原理、应用场景及其SAS实现。在论述之前,需要准备好测试数据。我们从互联网上找了一批数据形成一张表,数据的内容是国内股票市场各只股票的若干财务数据,字段如下:
该表共有2472条观测(记录),按照Source(来源板块)进行统计,则各组观测数如下:
创业板 351
沪市主板 948
深市主板 473
中小板 700
数据下载地址:http://pan.baidu.com/share/link?shareid=134615&uk=1258687326
构建程序初始环境:
data_null_;
workspace = "D:\SASWorkspace\练习"; *工作区根目录;
call symput("workspace", workspace);
run;
libname Practice"&workspace.\中间数据\";
然后把原始数据上传到Practice逻辑库中,并命名为MainIndex_2012sea3。
*为了不破坏原始数据,把表copy到work逻辑库中;
data Work.MainIndex_2012sea3;
setPractice.MainIndex_2012sea3;
run;
下面逐一介绍各种随机抽样方法及其SAS实现。
(1)简单随机抽样
简单随机抽样,指从总体中等概率地抽取出n个个体组成样本。在SAS中,可以使用surveyselect过程步来实现随机抽样。Surveyselect过程步的基本格式如下:
在第一个程序中,我们来实现最简单的场景:从2472条观测中随机抽取100条。在程序中,除了必要的data和out选项外,还需使用method设置抽样方法为简单随机抽样,其值为srs;并设置抽取的样本容量sampsize = 100或n = 100。代码如下:
*随机抽取100条记录,保留所有字段,不打印;
procsurveyselect
data = Work.MainIndex_2012sea3
out = Work.MainIndex_2012sea3_srs1
method = srs
sampsize =100 /*也可以使用n = 100 */
noprint
;
run;
上面的程序对于结果表保留了原始表的所有字段,如果我们只需要保留其中的某几个字段,则可以使用id语句。
*随机抽取100条记录,只保留StockCode和StockName字段,不打印;
procsurveyselect
data = Work.MainIndex_2012sea3
out = Work.MainIndex_2012sea3_srs2
method = srs
sampsize =100
noprint;
id StockCode StockName;
run;
如果没有指定随机数种子(seed),则SAS程序会使用计算机的时间作为种子。可以使用seed选项设定随机数初始种子。Seed的值必须是一个正整数,否则SAS会使用计算机的时间作为种子(零或负整数的情况),或者出错(小数的情况)。
*随机抽取100条记录,保留所有字段,不打印;
*指定随机数种子;
procsurveyselect
data = Work.MainIndex_2012sea3
out = Work.MainIndex_2012sea3_srs4
method = srs
sampsize =100
seed =1000
noprint;
run;
在实际应用场景中,有时候需要独立重复抽取多组样本,这时可以使用rep选项。SAS程序会以rep设定的值独立重复抽取若干次样本,每组样本的容量是sampsize或n选项指定的值。
*随机抽取100条记录,保留所有字段,不打印;
*指定独立重复抽样的次数;
procsurveyselect
data = Work.MainIndex_2012sea3
out = Work.MainIndex_2012sea3_srs5
method = srs
sampsize =100
rep =3
noprint
;
run;
样本容量的另一种表述是其占总体的比例。比如,抽取10%的样本。这时我们使用samprate或rate替代sampsize。Samprate的值可以是正小数,也可以是正整数。当samprate的值是正小数时,其值在(0, 1]之间,不可为零;为1时表示100%。当samprate是正整数时,表示相应的百分比,如10表示10%,需要注意的是,整数1表示100%,而不是1%。
*随机抽取总体的10%作为样本,保留所有字段,不打印;
procsurveyselect
data = Work.MainIndex_2012sea3
out = Work.MainIndex_2012sea3_srs6
method = srs
samprate =0.1/*也可以使用rate =0.1 */
noprint
;
run;
*随机抽取总体的10%作为样本,保留所有字段,不打印;
procsurveyselect
data = Work.MainIndex_2012sea3
out = Work.MainIndex_2012sea3_srs7
method = srs
samprate =10/*也可以使用rate =10 */
noprint
;
run;
有时候,我们并不需要把原始表的所有观测都作为研究对象,而只是针对其中的某一子集来抽样。比如如果我们只需要研究沪市主板的股票,那么只需要在相关的观测中抽取样本作为研究对象。Data选项后面可以使用where=语句来实现对总体观测的筛选。
*如果只想在沪市主板上抽取100个样本;
procsurveyselect
data = Work.MainIndex_2012sea3(where=(Source ='沪市主板'))
out = Work.MainIndex_2012sea3_srs8
method = srs
sampsize =100
noprint
;
run;
(2)分层抽样
分层抽样是将总体按某种特征分为若干次级总体(层),再在每一层中进行随机抽样,把结果组成一个样本的方法。描述层次特征的变量称为分层变量,比如在我们的测试数据中,我们可以使用Source(来源板块)变量把原始数据分为沪市主板、深市主板、中小板、创业板四类(层)。Surveyselect过程步使用strata语句来指定分层变量。在抽样之前,需要对原始数据按照strata指定的分层变量进行排序。最简单的分层抽样场景是,最总体中的所有样本,指定一个分层变量,每一层都使用同样的抽样比例。以下是最简单分层抽样场景的代码:
*由于分层抽样需要对原始数据进行排序,因此我们再复制一张临时表;
data Work.MainIndex_2012sea3_tmp;
setWork.MainIndex_2012sea3;
run;
*按照分层变量Source排序;
procsortdata =Work.MainIndex_2012sea3_tmp;by Source;
*用Source分层,每一层抽取10%的样本;
procsurveyselect
data = Work.MainIndex_2012sea3_tmp
out = Work.MainIndex_2012sea3_strata1
method = srs
samprate =0.1
noprint;
strata Source; * 使用Source作为分层变量;
run;
如果各层抽取的比例不一样,则应赋予samprate一个数组,数组的每一个元素的值分别代表各个层的抽样比例。数组元素的顺序需与分层变量排序后的顺序一致。
*用Source分层,一共有4层,各层抽取的比例不一样,在samprate中定义;
*分层变量Source的排序顺序是:创业板 沪市主板 深市主板 中小板;
procsurveyselect
data = Work.MainIndex_2012sea3_tmp
out = Work.MainIndex_2012sea3_strata2
method = srs
samprate = (0.1,0.3,0.5,0.2)
noprint
;
strata Source; * 使用Source作为分层变量;
run;
同样,也可以使用sampsize分别指定每一层的抽样个数。
*用Source分层,一共有4层,各层抽取的个数不一样,在sampsize中定义;
*分层变量Source的排序顺序是:创业板 沪市主板 深市主板 中小板;
procsurveyselect
data = Work.MainIndex_2012sea3_tmp
out = Work.MainIndex_2012sea3_strata3
method = srs
sampsize = (10,60,50,30)
noprint;
strata Source; * 使用Source作为分层变量;
run;
如果层数较多,且需要对不同层分别指定抽样比例或抽样个数,则需要建立抽样表。抽样表需要包含分层变量,以及每一层对应的抽样比例或抽样个数;如果是抽样比例,则变量必须命名为_rate_,如果是抽样个数,则变量必须命名为_nsize_。
*按比例分层抽样,建立抽样表;
procsql;
create tableWork.Samptab_rate (
Sourcechar(10),
_rate_num
);
insert intoWork.Samptab_rate values ('创业板',0.1);
insert intoWork.Samptab_rate values ('沪市主板',0.3);
insert intoWork.Samptab_rate values ('深市主板',0.5);
insert intoWork.Samptab_rate values ('中小板',0.2);
quit;
*按比例分层抽样,将抽样表赋值给samprate;
procsurveyselect
data = Work.MainIndex_2012sea3_tmp
out = Work.MainIndex_2012sea3_strata4
method = srs
samprate = Work.Samptab_rate
noprint;
strata Source; * 使用Source作为分层变量;
run;
*按个数分层抽样,建立抽样表;
procsql;
create tableWork.Samptab_size (
Sourcechar(10),
_nsize_num
);
insert intoWork.Samptab_size values ('创业板',10);
insert intoWork.Samptab_size values ('沪市主板',60);
insert intoWork.Samptab_size values ('深市主板',50);
insert intoWork.Samptab_size values ('中小板',30);
quit;
*按个数分层抽样,将抽样表赋值给sampsize;
procsurveyselect
data = Work.MainIndex_2012sea3_tmp
out = Work.MainIndex_2012sea3_strata5
method = srs
sampsize = Work.Samptab_size
noprint;
strata Source; * 使用Source作为分层变量;
run;
(3)系统抽样
系统抽样是把总体的个体进行排序,计算出抽样距离,然后按照这一固定的抽样距离抽取样本的方法。第一个样本采用简单随机抽样的办法抽取,此后每隔一个抽样距离的大小抽取一个样本。抽样距离等于总体容量除以样本容量。
*每隔10个抽取一个1个;
procsurveyselect
data = Work.MainIndex_2012sea3
out = Work.MainIndex_2012sea3_sys1
method = sys
sampsize =248/*总体容量2472,样本容量248,意味着抽样距离为10 */
noprint;
run;
在系统抽样中,可以使用控制变量来对原始数据进行排序。控制变量使用control语句。SAS程序首先安装control中的变量排序,然后采用系统抽样抽取样本。
*每隔10个抽取一个1个;
*使用Source作为控制变量,这样程序会对输入数据按照Source进行排序;
procsurveyselect
data = Work.MainIndex_2012sea3
out = Work.MainIndex_2012sea3_sys2
method = sys
sampsize =248
noprint;
control Source;
run;
下面的程序是将系统抽样与分层抽样相结合,实现较为复杂的抽样方式,以满足实际应用的需求。在这个例子中,程序按照strata指定的变量对原始数据进行分层,在每一层中使用control变量排序,然后分别进行系统抽样各抽取248个个体,因此,最终的结果有992条观测。
*分层系统抽样;
procsurveyselect
data = Work.MainIndex_2012sea3_tmp
out = Work.MainIndex_2012sea3_sys3
method = sys
sampsize =248
noprint;
strata Source;
control EPS;
run;
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30数据分析师在现代企业中扮演着关键角色,他们的工作内容不仅丰富多样,还对企业的决策和发展起着重要的作用。正如一个经验丰富的 ...
2024-12-29数据分析师的能力要求 在当今的数据主导时代,数据分析师的角色变得尤为重要。他们不仅需要具备深厚的技术背景,还需要拥有业务 ...
2024-12-29随着技术的飞速发展与行业的持续变革,不少人心中都存有疑问:到了 2025 年,数据分析师还有前途吗?给你分享一篇阿里P8大佬最近 ...
2024-12-29如何构建数据分析整体框架? 要让数据分析发挥其最大效能,建立一个清晰、完善的整体框架至关重要。今天,就让我们一同深入探讨 ...
2024-12-27AI来了,数分人也可以很省力,今天给大家介绍7个AI+数据分析工具,建议收藏。 01酷表 EXCEL 网址:https://chatexcel.com/ 这是 ...
2024-12-26一个好的数据分析模型不仅能使分析具备条理性和逻辑性,而且还更具备结构化和体系化,并保证分析结果的有效性和准确性。好的数据 ...
2024-12-26当下,AI 的发展堪称狂飙猛进。从 ChatGPT 横空出世到各种大语言模型(LLM)接连上线,似乎每个人的朋友圈都在讨论 AI 会不会“ ...
2024-12-26数据分析师这个职业已经成为了职场中的“香饽饽”,无论是互联网公司还是传统行业,都离不开数据支持。想成为一名优秀的数据分析 ...
2024-12-26在数据驱动决策成为商业常态的今天,数据分析师这一职业正迎来前所未有的机遇与挑战。很多希望转行或初入职场的人士不禁询问:数 ...
2024-12-25数据分析师,这一近年来炙手可热的职业,吸引了大量求职者的注意。凭借在大数据时代中的关键作用,数据分析师不仅需要具备处理数 ...
2024-12-25在当今数字化变革的浪潮中,数据分析师这一职业正迎来前所未有的发展机遇。回想我自己初入数据分析行业时,那种既兴奋又略显谨慎 ...
2024-12-25在当今信息爆炸的时代,数据已经像空气一样无处不在,而数据分析则是解锁这些信息宝藏的钥匙。数据分析的过程就像是一次探险,从 ...
2024-12-25在职场上,拍脑袋做决策的时代早已过去。数据分析正在成为每个职场人的核心竞争力,不仅能帮你找到问题,还能提供解决方案,提升 ...
2024-12-24Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20