SAS程序错误及处理
通常我们所开发的SAS程序,很少在第一次提交时就能够运行完成并产生正确结果。程序越长越复杂,就越可能出现语法或逻辑错误。本文介绍了一些良好的SAS编程规范以减少程序错误,同时也描述了几种常见的错误及错误发生后对应的处理方法。
良好的SAS编程风格
在开发SAS程序的过程中,遵循下面几条规则可以使程序出错的几率变小,并帮助发现错误。
(1)提高程序的易读性
一个简单的方式是在开发程序时保持代码的整洁和一致。易读的程序会更易于调试,长期来看会节省时间。在编写SAS程序时可遵循如下建议以提高程序的易读性:
每行一条SAS语句。SAS允许在一行写多个SAS语句,这样会节省代码空间,但是这些空间会以损失程序的易读性为代价。
(2)测试程序每个部分
在开始写下一部分的代码之前,先测试前面已经完成的代码,保证已经完成的代码运行正确会极大地提高开发效率。
如果是从外部数据文件读取数据到SAS数据集,则使用PROC PRINT打印SAS数据集或数据集的部分数据,以保证该数据集被正确生成。有时,在日志中可能没有错误或可疑的提示,而所生成的数据集却是不正确的。这是因为所开发的代码可能并没有如预期的读取数据,或原始数据本身存在某些在开发代码时没有意识到的问题。对此,好的习惯是,对程序创建的所有SAS数据集都至少要打印一次,以进行检查。
(3)正式运行程序前使用较小的数据集测试程序
有时,使用全部数据测试程序是不现实的。如果数据文件特别大,测试所有的数据会很费时,这时可以使用数据的子集来进行测试。
如果是从文件中读取数据,可以在INFILE语句中使用OBS=告诉SAS读取文件中的前多少行,例如前50、前100行或更多,只要能代表要读取的数据就行。下面的代码仅仅读取文件的前100行:
还可以使用选项FIRSTOBS=指定从文件的中间部分开始读取数据。例如,下面的语句读取customer.dat文件的第101行到第200行:
同样选项FIRSTOBS=和OBS=也可以用于在SET语句中读取该数据集中对应的观测。下面的代码会读取数据集saslib.customer中的第101到第200个观测。
关于SET语句及数据集选项,下面文章会详细介绍。
(4)使用语法敏感的编辑器
在Windows操作系统下,增强型编辑器(Enhanced Editor)是默认的编辑器,在其他操作系统下,程序编辑器(Program Editor)是默认编辑器。这两种编辑器都会对代码的不同部分自动添加颜色,例如SAS关键字是一种颜色,变量是另一种颜色。此外,所有引号中的文本也是同样的颜色,这样我们可以很容易区分是否存在引号不匹配的情况。类似地,遗漏分号也很容易发现,因为分号遗漏可能会导致接下来的代码颜色不正确。
常见错误及处理
SAS程序提交执行后会在日志窗口或日志文件中产生代码运行的信息。我们可以根据日志信息确定什么时候程序发生错误,并获取信息纠正错误。SAS通常会识别四类错误:
SAS检测到错误时,通常会将错误或检测到错误的位置加下划线,并显示一个数字。每个数字与一条错误消息唯一关联。接着SAS进入语法检查模式,它会读取剩下的程序语句、检查语法,并在其他错误位置加下划线。
在批处理或非交互式的程序中,DATA步中的错误会导致SAS对剩下的程序一直处于语法检查模式,其他任何创建外部文件或SAS数据集的DATA或PROC步都不会执行。然而,读SAS数据集的过程会执行,但是读入的观测数会为0,而不读SAS数据集的过程正常执行。通常PROC步中的语法错误仅仅影响当前PROC步。在该PROC步结束时,SAS会将检测到的每个错误写入SAS日志。
语法错误
有些语法错误从日志窗口中很容易理解并改正,有时SAS还会自动纠正并提示警告信息,例如在图2.50中展示的是关键字拼写错误。关键字INPUT错误拼写为INYUT,SAS给出警告信息并将该拼错的词理解为INPUT。这样,编译会通过,代码也会正确执行。但SAS并不负责将代码中的错误改正,需要开发人员自己修正。
图2.50 关键字拼写错误
很多语法错误是由于遗漏分号(;)导致的,根据其在日志窗口的消息,可能没那么容易找到出错原因。在下面的代码中,DATA语句指定了数据集名称之后遗漏分号(;)。
提交代码执行时,因为遗漏分号,SAS认为DATA语句中没有结束,length和Name都被当作数据集名。SAS无法解释接下来出现的$,所以认为出错。SAS在日志中显示了如图2.51所示的信息:在$出现的地方加划线,并给出期待在这个地方出现的名称或符号,并提示出错。
图2.51 遗漏分号
这时需要通过在DATA语句数据集名称之后添加分号(;)来修正该段代码。
数据错误
在下面的程序中,INPUT语句使用列表方式读取数据值。要读取的最后一个变量为数字型变量,但输入数据中第三行记录的最后一个字段为字符。
提交执行后查看日志窗口信息,如图2.52所示。SAS提示在第10~13列(因为是列表输入方式,所以要赋值给Price的是“five”,对应于第10~13列)的数据对变量Price无效。为了便于分析和修正,SAS还在日志窗口列出了输入缓冲区的值、PDV中各变量的值,包括DATA步中定义的变量和自动变量_ERROR_和_N_等。该数据错误只是会导致所生成的观测中存在缺失值,DATA步并不会停止执行。
图2.52 数据错误
对于这样的问题,有多种处理方式。在本例中可以不作处理,因为它只是会导致观测中存在缺失值。其他类似的情况,可以通过调整输入方式,例如使用格式化输入等方法来解决。
语义错误
在下面的程序中,DATA步读取外部数据文件,并指定文件中字段值之间的分隔符为逗号(,)。注意,其中INFILE语句的选项DLM=误写为DLMA=了。
提交程序执行后查看日志窗口的信息,如图2.53所示。SAS提示选项名称DLMA无效。因为出错,SAS停止处理并创建没有观测值的数据集。
图2.53 语义错误
这时需要更正该选项名称为DLM=,并再次提交执行。
引号不配对
在执行SAS程序时,有时会出现比较意外的情况。例如提交了代码后,并不产生任何结果,日志窗口仅显示代码信息,没有对应的SAS语句执行提示信息。不知道SAS在干什么,有时编辑器窗口会一直表示PROC步正在运行。这时首先需要检查是不是存在代码中引号不配对的问题。
在下面的代码中,FILNAME语句指定文件引用时,文件名结束后遗漏了对应的单引号(")。
提交代码执行,并查看日志窗口,有原始代码,但没有语句执行提示信息,如图2.54所示。
图2.54 SAS程序运行不结束
遇到的这样的问题,建议先提交下列代码将引号配对,从而使程序完成执行过程,再来检查修正程序的错误。这三行代码除了可以解决不匹配的单引号和双引号外,还可以解决不匹配的注释标记,以及遗漏分号、QUIT或RUN语句的问题:
结语
“读取外部数据到SAS数据集”系列文章首先介绍了SAS编程的基本概念,具体包括SAS逻辑库、SAS数据集、SAS数据集管理、系统选项以及SAS程序结构等内容;在此基础上介绍了DATA步处理数据的原理,重点讲解了如何使用DATA步的各种输入方式来读取不同格式的外部文件中的数据,并创建数据集;接下来介绍了如何运用IMPORT过程读取外部的数据文件,以及如何通过LIBNAME语句和PROC SQL访问关系型数据集库系统中的数据;最后,还介绍了SAS程序开发中常见的几种错误现象及其处理方法。
程序的不同部分使用相应的缩进。缩进DATA步和PROC步中的所有语句,这种方式会很容易得知程序中有多少个DATA和PROC步,并且知道那些语句属于哪个过程步。
代码中引用的所有SAS文件都使用二级名称,例如work.customer,即使该SAS文件存储在WORK临时逻辑库或USER逻辑库中。
使用RUN或QUIT语句显式地表明DATA步或PROC步结束。虽然SAS会在遇到下一个DATA步或PROC步时自动认为当前过程步结束,但是RUN或QUIT语句会让程序块逻辑更清楚。
使用注释说明程度代码段。给程序添加注释可能会花一些额外的时间,但是很多时候注释很重要,尤其是当其他人查看或使用代码时。
语法错误。语法错误是在SAS语句中犯的错误,包括单词误拼写、遗漏或无效的标点符号、无效的语句或数据集选项等。
执行时错误。当程序提交执行时,执行时错误会让程序失败。大多数不严重的执行时错误会在SAS日志中产生提示消息,但是程序能继续运行。但如果是更严重的错误,SAS会打印错误消息并停止处理。
数据错误。数据错误是一种执行时错误。当SAS程序正在分析的原始数据包含无效值时就会发生数据错误。例如,INPUT语句中指定了数字变量,而原始数据记录中的数据值是字符。数据错误不会引起程序停止,但是会在SAS日志中产生提示信息。
语义错误。语义错误是另一种执行时错误,当SAS语句形式是正确的,但有些选项或语句等的使用方式无效时会发生。例如,函数中指定的参数个数错误、在只有字符变量有效的地方使用数字变量名或使用了没有赋值的逻辑库引用名等。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16