如何理解Data步中的Retain语句?
照字面意思,Retain语句,是保留、保持的意思。这里的保留的是上一条观测的值,下面我来通过两个示例代码,来理解“保留上一条观测的值”。
Without Retain这一段代码是输入变量X的四个值(1 , 2 , . , 3);在INPUT语句前后,各有一个Put语句,输出的内容是一段字符以及关键词_all_
(所有变量的值)。代码的作用是,在输入X值前,输出当前所有变量的值;在输入X值后,再次输出所有变量的值。代码运行完毕后,日志结果如下:
通过日志可以知晓,每一次输入X值前,X的值都为“.”;输入之后,X的值就变为输入值了。下面,来看一下加入Retain语句的效果。
With Retain With Retain 日志结果加入Retain语句之后,在输入第一个X值时,X的值是".";在输入第二个值时,X值为第一输入值;接下来数值输入以此类推。这里可以看到,Retain语句是X值保持上一个输入值不变,直到新的输入值覆盖这个值。第二个程序演示了Retain语句如何运行的,其他情景下,应该没有人会这样写程序,因为Retain语句存在与否,不影响最后数据集的输入结果。
下面,来介绍一个Retain特性的应用。那前面代码中,四个X输入值为例,我想要实现一个效果,如果输入值为".",则取前面输入的非空值。先看一下,不加Retain语句的结果。
Without Retain_2 Without Retain_2 日志结果从代码思路看,如果输入的X的值不为空,则old_x值为输入X的值;当X的值为空时,赋值成old_X。这里代码想当然认为,这个“Old_X”就是上一个X的非空值。通过日志,我们可以知晓当X输入值为“.”时,X值最后显示也是“.”,与设想的“2”不符。哪里出问题了呢?问题在于,在第三次输出X值“.”前,变量X和Old_X已经被置空了,赋值之后,也自然是空置。
我们来看一下,加上Retain语句之后的结果。
With Retain_2 With Retain_2日志结果我们可以看到,加入Retain语句后,Old_X可以保留上一次输入X的值,当输入到第三个值“.”后,判断为空后,赋值为Old_X的值,实现了之前的设想。
代码附录:
data without_1;
put "Before the INPUT statement: " _all_;
input x @@;
put "After the INPUT statement: " _all_ /;
datalines;
1 2 . 3
;
run;
data with_1;
retain x;
put "Before the INPUT statement: " _all_;
input x @@;
put "After the INPUT statement: " _all_ /;
datalines;
1 2 . 3
;
run;
***If there is a missing value for X, use the valuefrom the previous observation ;
***Note: This program does NOT work as planned;
data without_2;
put "Before input: " _all_ ;
input x @@;
if x ne . then old_x = x;
else x = old_x;
put "After assignment: " _all_ /;
datalines;
1 2 . 3
;
run;
***If there is a missing value for X, use the valuefrom the previous observation;
***Note: With the added RETAIN statement, the program now works;
data with_2;
retain old_x;
put "Before INPUT: " _all_ ;
input x @@;
if x ne . then old_x = x;
else x = old_x;
put "Before assignment: " _all_ /;
datalines;
1 2 . 3
;
run;