SAS编程-Table:最早/最晚时间获取

2022-04-25  本文已影响0人  野藤_

前言

蔡志忠老师在一次访谈中说过这样的话:(来源:《生命·觉者》梁冬对话蔡志忠)

做出来比期待的好,就会更好;做出来比期待的快,就会更快。越快越好,又快又好,你就会达到第三种状态,你的成本最低,品质最高,效益最好。当你达到这样的时候,就再也没有敌人。

临床试验中的SAS编程,没有太过复杂的内容,工作一两年基本会接触到,没什么太大的难度。在都能做出来的情况下,又快又好地做出来,就是追求的目标了

所以,另开一个栏目,记录一下TFL的编程思路,提高下一次处理类似问题的效率。先从一个简单的表入手:

具体实例

T14-1.2

Shell内容要求的很明确,输出几个关键点的日期。1个最早,3个最晚,这就是一个求最值的问题

数值型变量求最值,常用也就两种方法。第一,Data步排序后,依靠first./last.取组内最早或最晚的记录;第二,SQL使用聚合函数min/max取组内的最值

输出涉及3个变量,4种形式,如果使用Data步话,至少要进行3次排序;使用SQL话,一段SQL代码就可以实现。所以,决定采用SQL语句。

具体编程

首先,从外部笔记本里,复制一下我的QC “5段论”:

***1. Create formats for output;
***2. Get data for analysis;
***3. Calculate statistics;
***4. Create dataset for QC;
***5. Compare;

也建议大家,自己也整理一下编程框架,将完整的编程划分几部分,分批处理。这样做,不说效率提高不少,单是心里就会舒服、有谱不少。某年某位日本马拉松选手,就是靠将赛程分段化处理,爆冷门获得冠军的。借鉴成功者的经验,吃不了亏。

先从第2步获取数据开始,为什么不从第一步开始呢?因为我也不知道将要做出的数据集里有啥值

***2. Get data for analysis;
data adsl;
  set adam.adsl;
  where fasfl = "Y";
run;

前面的图片没有显示,正常输出TFL的Title/Footnotes里都会分析人群的说明的,这一点要注意,人群选错了,表做得再漂亮也是错的

接下来,看第3步。

***3. Calculate statistics;
**Get the Date;
proc sql noprint;
  create table final1 as
    select  min(enrldt) as dt1, max(enrldt) as dt2, max(trtedt) as dt3, max(eosdt) as dt4
  from adsl;
quit;

有人可能觉得,选人群直接在SQL里加个where语句不是省了一步,更简洁吗?确实是这样,我只能说我这样做是为了保持“5段论”的好习惯。

输出结果如下:

Final1

输出结果是数字,干脆在SQL中处理下,直接输出字符时间:

***3. Calculate statistics;
**Get the Date;
proc sql noprint;
  create table final1 as
    select  put(min(enrldt), date9.) as dt1, put(max(enrldt), date9.) as dt2, put(max(trtedt), date9.) as dt3, put(max(eosdt), date9.) as dt4
  from adsl;
quit;

输出结果:

Final1

输出成字符就好看很多了。写到这里有一点担忧,万一变量有缺失值怎么办?程序是不是要改进下?这种情况应该如何应对呢?

空想是没有意义的,给取最小值的变量,加个空值,测试下结果。

***2. Get data for analysis;
data adsl;
  set adam.adsl;
  where fasfl = "Y";
  if _n_ = 1 then enrldt = .;
run;

***3. Calculate statistics;
**3.1 Get the Date;
proc sql noprint;
  create table final1 as
    select  put(min(enrldt), date9.) as dt1, put(max(enrldt), date9.) as dt2, put(max(trtedt), date9.) as dt3, put(max(eosdt), date9.) as dt4
  from adsl;
quit;

结果如下:

Final1

出乎意料,空值居然没有显示出来?难道SQL中函数min自动排除空值?去查了下SAS文档:

Min

这真是惊喜和意外啊,直接省得判断了。至此,Table需要的数据已经获取,后面是整理成对应Shell的布局。

显然,横着放的,要先转置成竖着放。

**3.2 Transpose results;
proc transpose data = final1 out = final2;
  var dt1-dt4;
run;

输出结果:

Final2

这就跟目标数据结构类似了,同时第一步Format格式设置也就有了对象:

***1. Create formats for output;
proc format;
  value $dt
    "dt1" = "First subject enrollment"
    "dt2" = "Last subject enrollment"
    "dt3" = "Last subject end of investigational product"
    "dt4" = "Last subject end of study"
  ;
run;


***3. Calculate statistics;
**3.3 Set layout for output;
data final3;
  set final2;
  row_num = _n_;

  length c1 c2 $200;
  c1 = put(_name_, dt.);
  c2 = col1;

  keep row_num c1 c2;
run;

结果如下:

Final3

Table主体内容输出后,QC的时候还需要考虑Header的内容:

***4. Create dataset for QC;

**4.1 Create dataset for header;
data header;
  row_num = 0;

  length c1 -c2 $200;
  c1 = "Description of Key Dates";
  c2 = "Date";
run;

**4.2 Create dataset for QC;
data qc;
  set header final3;
run;

QC

这个输出结果,应该跟公司宏抓取RTF的结构是一致的了。

总结

这张Table的关键是取最值方法的选择,与Data步相比,SQL在数据处理上确实是更具灵活性。

感谢阅读!若有疑问,欢迎评论区交流!

上一篇 下一篇

猜你喜欢

热点阅读