203:ADaM那些事(二)
一:
上次讲到ADaM数据集的创建主要是为了满足分析需求,所以,我们可以看到在ADaM ig上的变量,很多都是A开头的变量,你可以理解为analysis的缩写。
很经典的一个例子就是AGE和AAGE,比如做SDTM的时候,CRF上一般会直接收集一个年龄,这个年龄一般是用签署知情同意的日期减去出生日期来计算,但是可能出于某种特殊需求,SAP要求年龄要用首次给药日期来计算,所以这时候就有可能出现偏差,即使这两种方法算出来的数字大多数时候都是一样的。
所以这时候用于分析的年龄变量就出现了,就是AAGE,计算方法就是用SAP里面提到的公式。然后一般我们会把AGE和AAGE都放进分析数据集中。
二:
ADaM ig里面还提到了一个很重要的准则,就是如果ig里面已经有相关的变量,那就不要去用自己定义的变量,如果两个变量是表达差不多的意思的话。
所以常用的一些变量大家一定要熟悉,尤其是做到ADSL里面的变量,比如下面列举的这些(未截全),都是会经常碰到的:
三:
一些强制需要记住的标准都要在做项目的过程中小心,比如PARAMCD不能超过8个字符;变量名不能超过8个字符,变量label不能超过40个字符,变量的值不能超过200个字符,这些都是为了满足SAS V5的传输标准。
其他基本规则还是自己去看SDTM ig和ADaM ig,我在review项目的时候,发现很多同事还是会犯一些这些基本的错误或者粗心没有注意到,都会给后面数据传输或者写define带来麻烦,所以要认真一点。
四:
Traceability是创建ADaM数据集的一个重要准则,我觉得这可以专门写一篇文章一起来学习学习。今天只分享一个刚看到的东西:
在上面的这个例子中,保留LBSEQ,这是为了满足Traceability做的第一步;另一个就是保留了LBSTRESC,做LB的时候,我们经常能看到XXX这样的数据,然后统计师可能要求遇到这样的数据,直接截取XXX用于分析,如果我们只保留AVAL或者AVALC,对于审阅人员来说,他所看到的aval可能并不是原始收集来的值。
同时需要注意的是,ADaM中AVAL-AVALC要满足一一对应的原则,所以在这种情况下,avalc就不能用来保留原始值。
最后,当我们对数据进行一系列的整理和重命名,需要清楚地标明现在的ADaM数据来源于哪里,也就是这个ORIGIN。
The end.