SAS 程序冷知识——proc import中遇到的那些bug
一、sheet名字过长的问题
当我们用proc import导入一个excel文档的时候,经常会出现这样的情况:
这是因为excel的sheet名字过长导致的(有时候DM老是把sheet名字弄的老长,还后面缀这日期,搞得每次更新文件都先改程序)。
这种情况下最简单的处理就是手动修改excel的sheet名字,但是一般作为正式项目,作为外部数据的excel是不好随便改的。
既然不能改文件就只能改程序了,这里提供一个新的方法:
上面是导入失败的程序,下面是成功的这两段程序到底哪里有不同呢?最主要的是dbms=的值不同,前者填写的是excel,后者填写的是xlsx。需要注意的是填写xlsx后,原来的两个参数就不能用了需要删掉。
二、全部导入成字符型
有的时候excel文档是很讨厌的,比如原来数据是1.20,当转成SAS的时候,程序会“贴心”的把变量转成数值型,从而丢掉了1.20后面的0。这本来不影响分析,但是ORRES是要收集原始值的,人家填的是1.20,你怎么能写1.2呢?这个时候就需要我们强制把excel所有变量都变成字符型。
其实这是个偷懒的小技巧。我们只需要修改getnames=这个参数为no,这样excel第一行就会被当作变量的值而不是变量名或标题了。而excel的第一行一般来说,都是含有字符的,所以这样会让所有变量都被当作字符型处理。
当然,我们还可以直接修改excel,在excel中就直接把所有变量都定义为字符的,但是这样又犯了改原始数据的忌讳总之不推荐。
最后需要注意的是,mixed选项是很重要的,如果是no的话,一列中如果有纯数字的话很容易被判定为数值型,从而把那些有字符的变量置空。加了mixed=yes以后,一列中如果既有数字又有字符,就会被判定为字符型。但如果一列真的是纯数字,则会被判定为数值型。另外,对于日期格式,如果没有mixed话,会把日期导成date格式的数值型,但使用mixed之后,日期也会被当作字符处理。
三、导入字符的长度问题
如果dbms=excel的话,导入的字符变量最大长度默认是1024,再长会截断。但是如果加入语句textsize=32767;可以设定这个长度。但是如果dbms=xlsx的话,就不会出这个问题。
网上说scantext是可以自动扫描变量的最大宽度的,但是实际操作下来似乎并非如此,具体有什么作用还不知道。
四、预读观测问题
尽管使用了textsize=32767;,有些变量还是会被截断。这是因为SAS在读入的时候,是预先检查excel前面的若干行来判断长度和变量类型的,所以如果特别长的值在最后几行,可能会导致没有检查到改行,从而变量长度比值要短,以至于发生了截断。这种情况就要用dbms=xlsx了。