SAS编程-Efficacy:如何生成样本率的可信区间?

2022-04-22  本文已影响0人  野藤_

在临床试验中,样本率作为试验有效性终点的情形,并不少见。在这种情况下,除了需要计算样本率之外,一般还需要计算率对应的95%可信区间。

这篇文章介绍,如何利用SAS输出样本率的可信区间,文章末尾附有精确概率法(Clopper-Pearson method)计算可信区间的完整代码

1. 率的计算

率,指在一定范围内某现象实际发生数 与 可能发生该现象的总数之比,常用于说明某现象发生的频率或强度。

计算率的数据为分类资料。通常为二分类资料,例如,生存和死亡,发病与不发病等。当然,也会遇到多分类资料,例如肿瘤试验中CR、PR、PD与SD。

对于多分类资料,通常会转化为二分类资料进行处理,例如,CR和PR转化为缓解,PD和SD转化为未缓解。

如果不将多分类数据转化为二分类,SAS中也有选项指定用于计数的那一个分类。不过,SAS选项无法处理多个分类合并成单个分类的情况,对于这种情况还是需要转化为二分类数据。具体实现细节,这里就不赘述。

2. 率的可信区间

参考《医学统计学》(第三版,陆守曾、陈峰主编),计算率的可信区间常用2种方法,正态近似法和精确概率法。

正态近似法,也称Wald Confidence Limits。当样本量n足够大,且样本率 p 和 (1-p) 都不太小时,如np和n(1-p)均大于5时,样本率p的抽样分布近似正态分布。具体公式介绍可以参考SAS文档,SAS Help Center: Wald Confidence Limits

精确概率法,也称Exact (Clopper-Pearson) Confidence Limits。当样本量太少时,使用正态近似法计算的可信区间范围可能超过[0, 1],这样的结果显然是错误的。在这种情况下,应使用精确概率法。Clopper和Pearson于1934年提出了这种方法,具体公式介绍可以参考SAS文档,SAS Help Center: Exact (Clopper-Pearson) Confidence Limits

SAS默认输出以上2种可信区间

在临床试验统计分析中,率的可信区间一般都要求使用精确概率法 (Clopper-Pearson method)

3. 率的可信区间的SAS实现

3.1 基础实现

我以《医学统计学》中的例题为例,进行演示,该例题应用的是正态近似法:

例4.4

通过题干可以知晓,抽取的144人中,阳性人数为13,阴性人数为131,构建数据集如下,0表示阳性,1表示阴性:

data tmp1;
    do i = 1 to 13;
      aval = 0;
      output;
    end;
    do i = 1 to 131;
      aval = 1;
      output;
    end;

    drop i;
run;

在SAS中计算率的可信区间,使用的是FREQ过程步中,tables语句中的binomial选项,默认输出Wald和Exact可信区间。

proc freq data = tmp1;
  table aval/ binomial;
run;

运行的结果如下,其中Wald可信区间与教科书中正太近似法的结果一致。

Result1

也可以通过binomial选项中的子选项cl =,控制输出具体的可信区间:

proc freq data = tmp1;
  table aval/ binomial(cl = wald exact);
run;

结果与默认输出一致:

Reslt2
3.2 指定用于计数的分类(level =

从上面输出结果可以看出,率的计算都是基于aval = 0这是因为Freq过程步计算率时,都是以默认排序排在首位的那一类别进行计算的。这时候,如果想要计算“阴性率”的可信区间,如何处理呢?

简单直接的方法是,用0来表示阴性、1来表示阳性,这样FREQ默认输出就是“阴性率”的可信区间,具体代码不再举例。

另一个方法,就是使用binomial中的level =选项,指定需要计数的那一个类别。level =选项,后面可以接数字,表示指定分类的位序;也可以接字符,表示指定分类的名称

例题中的“阴性率”可以这样实现:

**level = level-number;
proc freq data = tmp1;
  table aval/ binomial(cl = wald exact  level = 2);
run;

**level = "level-value";
proc freq data = tmp1;
  table aval/ binomial(cl = wald exact  level = "1");
run;

上面两段代码输出结果相同,都是使用 aval = 1作为计数的分类。不过,在应用时,建议使用字符名称,因为位序数字可能与变量值相同,因而造成误导

Result 3
3.3 分类缺失,如何处理?(Weight)

如果收集到的数据,阳性率为0,即数据集中aval的值全部为1。这种情况下阳性率的可信区间如何计算?

data tmp2;
    do i = 1 to 144;
      aval = 1;
      output;
    end;

    drop i;
run;

因为原始数据中并没有aval=0这一取值,所以需要一种方法把“分类 0”表示出来。这个可以依靠频数计数的方法实现,可以通过Means过程步preloadfmt选项,也可以通过Dummy数据集的方法实现,具体可以参考:SAS编程:频数汇总时如何处理分析分组种类不全的情况?

proc format;
  value aval
    0 = 0
    1 = 1
  ;
run;

proc means data = tmp2 nway completetypes;
  format aval aval.;
  class aval / preloadfmt order = data;
  var aval;
  output n = count out = count(drop = _:);
run;

结果如下:

Tmp 2

整理成频数表的形式之后,“分类 0”就表示出来,然后就可以使用Weight语句将Count变量作为FREQ过程步分析时的权重。不过需要注意的是,FREQ过程步,也是默认忽略频数为0 的类别,若将其纳入分析需要使用zeros选项,即weigth count / zeros;, 具体参考SAS Help Center: WEIGHT Statement

proc freq data = count;
  table aval/ binomial(cl = wald exact  level = "0");
  weight count / zeros;
run;

结果如下:

Result 4

这样,即便缺失、样本率为0的类别,也是可以计算出可信区间的。

4. 可信区间输出到数据集

以上计算的可信区间结果都是输出到SAS Results界面,而为了生成Efficacy Table,需要将可信区间结果输出到数据集中。

过程步运行结果输出到数据集,通常有两种做法。第一,在过程步中,使用Output语句;第二,使用ods语句进行输出。两者输出结果的展现形式,略有不同。

4.1 Output语句

为了输出tables语句中的binomial选项的结果,output语句中,也需要添加选项binomial。具体语法参考SAS Help Center: OUTPUT Statement

proc freq data = count;
  tables aval/ binomial(cl = exact level = "0");
  weight count / zeros;
  output out = cl binomial;
run;

输出的数据集和Results的如下:

CI Result 5

数据集中红色方框里的两个变量,就是对应可信区间的上下限,小数位数保留略有不同。每个变量的Label都会描述变量的含义,很容易辨识。与Result内容相比,Ouput语句输出的数值没有Format,以原始数据的形式进行展示。

4.2 ods output语句

SAS过程步输出到Results中的内容,都是有具体的名称,可以通过ods output将具体名称的内容输出到数据集。

查看Results内容的具名称,通常也有2种方式。

第一,从SAS官方文档中查询。例如,FREQ过程步中,对应的binomial选项输出内容名称如下(来源:SAS Help Center: ODS Table Names

binomial

第二,也可以用ods trance on;进行查询输出内容的名称。

ods trace on ;

proc freq data = count;
  tables aval/ binomial(cl = exact level = "0");
  weight count / zeros;
run;

ods trace off;

以上程序运行之后,就可以从Log中查看Results中输出内容的名称:

Log

知晓内容名称后,就可以使用ods output将对应内容输出到数据集:

*ods trace on ;
ods output BinomialCLs = cl;

proc freq data = count;
  tables aval/ binomial(cl = exact level = "0");
  weight count / zeros;
run;

ods output close;
*ods trace off;

运行结果如下,上下限的数值以6.4的Format进行展示,与Results中显示一致。

BinomialCLs

输出到数据集之后,具体如何处理成Table中的显示,这里就不过多讲了。

最后,附上用于计算精确概率法可信区间的完整代码:

**Raw data, 0=Positive, 1=negative;
data tmp;
    do i = 1 to 13;
      aval = 0;
      output;
    end;
    do i = 1 to 131;
      aval = 1;
      output;
    end;

    drop i;
run;


**Count frequency;
proc format;
  value aval
    0 = 0
    1 = 1
  ;
run;

proc means data = tmp nway completetypes;
  format aval aval.;
  class aval / preloadfmt order = data;
  var aval;
  output n = count out = count(drop = _:);
run;


**Get exact 95% CI for the proportion of positive;
*ods trace on ;
ods output BinomialCLs = cl;

proc freq data = count;
  tables aval/ binomial(cl = exact level = "0");
  weight count / zeros;
run;

ods output close;
*ods trace off;

总结

以上就是SAS中获取率的可信区间的所有过程,文章先是介绍率以及率对应的可信区间,接着介绍SAS中实现过程。SAS编程中需要考虑,计数分类的指定,以及计数分类缺失的处理。最后,介绍将过程步计算的结果输出到SAS数据集的2种方式。

临床试验中通常会涉及多个试验组,实际应用可能还需要使用By语句进行分组处理。对应的Means过程步中,试验组作为分组变量也需要preloadfmt选项补全可能缺失的分组,这里不进一步补充了。

若试验组涉及汇总组的处理,可以参考SAS编程:生成Table时,汇总组(Total)组如何处理?,这里也不进一步探讨。

感谢阅读!若有疑问,欢迎评论区交流!

上一篇 下一篇

猜你喜欢

热点阅读