SAS编程-Efficacy：如何生成样本率的可信区间？

2022-04-22 本文已影响0人野藤_

在临床试验中，样本率作为试验有效性终点的情形，并不少见。在这种情况下，除了需要计算样本率之外，一般还需要计算率对应的95%可信区间。

这篇文章介绍，如何利用SAS输出样本率的可信区间，文章末尾附有精确概率法（Clopper-Pearson method）计算可信区间的完整代码。

1. 率的计算

率，指在一定范围内某现象实际发生数与可能发生该现象的总数之比，常用于说明某现象发生的频率或强度。

计算率的数据为分类资料。通常为二分类资料，例如，生存和死亡，发病与不发病等。当然，也会遇到多分类资料，例如肿瘤试验中CR、PR、PD与SD。

对于多分类资料，通常会转化为二分类资料进行处理，例如，CR和PR转化为缓解，PD和SD转化为未缓解。

如果不将多分类数据转化为二分类，SAS中也有选项指定用于计数的那一个分类。不过，SAS选项无法处理多个分类合并成单个分类的情况，对于这种情况还是需要转化为二分类数据。具体实现细节，这里就不赘述。

2. 率的可信区间

参考《医学统计学》（第三版，陆守曾、陈峰主编），计算率的可信区间常用2种方法，正态近似法和精确概率法。

正态近似法，也称Wald Confidence Limits。当样本量n足够大，且样本率 p 和 (1-p) 都不太小时，如np和n(1-p)均大于5时，样本率p的抽样分布近似正态分布。具体公式介绍可以参考SAS文档，SAS Help Center: Wald Confidence Limits。

精确概率法，也称Exact (Clopper-Pearson) Confidence Limits。当样本量太少时，使用正态近似法计算的可信区间范围可能超过[0, 1]，这样的结果显然是错误的。在这种情况下，应使用精确概率法。Clopper和Pearson于1934年提出了这种方法，具体公式介绍可以参考SAS文档，SAS Help Center: Exact (Clopper-Pearson) Confidence Limits。

SAS默认输出以上2种可信区间。

在临床试验统计分析中，率的可信区间一般都要求使用精确概率法 (Clopper-Pearson method)。

3. 率的可信区间的SAS实现

3.1 基础实现

我以《医学统计学》中的例题为例，进行演示，该例题应用的是正态近似法：

例4.4

通过题干可以知晓，抽取的144人中，阳性人数为13，阴性人数为131，构建数据集如下，0表示阳性，1表示阴性：

data tmp1;
    do i = 1 to 13;
      aval = 0;
      output;
    end;
    do i = 1 to 131;
      aval = 1;
      output;
    end;

    drop i;
run;

在SAS中计算率的可信区间，使用的是FREQ过程步中，tables语句中的binomial选项，默认输出Wald和Exact可信区间。

proc freq data = tmp1;
  table aval/ binomial;
run;

运行的结果如下，其中Wald可信区间与教科书中正太近似法的结果一致。

Result1

也可以通过binomial选项中的子选项cl =，控制输出具体的可信区间：

proc freq data = tmp1;
  table aval/ binomial(cl = wald exact);
run;

结果与默认输出一致：

Reslt2

3.2 指定用于计数的分类（`level =`）

从上面输出结果可以看出，率的计算都是基于aval = 0。这是因为Freq过程步计算率时，都是以默认排序排在首位的那一类别进行计算的。这时候，如果想要计算“阴性率”的可信区间，如何处理呢？

简单直接的方法是，用0来表示阴性、1来表示阳性，这样FREQ默认输出就是“阴性率”的可信区间，具体代码不再举例。

另一个方法，就是使用binomial中的level =选项，指定需要计数的那一个类别。level =选项，后面可以接数字，表示指定分类的位序；也可以接字符，表示指定分类的名称。

例题中的“阴性率”可以这样实现：

**level = level-number;
proc freq data = tmp1;
  table aval/ binomial(cl = wald exact  level = 2);
run;

**level = "level-value";
proc freq data = tmp1;
  table aval/ binomial(cl = wald exact  level = "1");
run;

上面两段代码输出结果相同，都是使用 aval = 1作为计数的分类。不过，在应用时，建议使用字符名称，因为位序数字可能与变量值相同，因而造成误导。

Result 3

3.3 分类缺失，如何处理？(`Weight`)

如果收集到的数据，阳性率为0，即数据集中aval的值全部为1。这种情况下阳性率的可信区间如何计算？

data tmp2;
    do i = 1 to 144;
      aval = 1;
      output;
    end;

    drop i;
run;

因为原始数据中并没有aval=0这一取值，所以需要一种方法把“分类 0”表示出来。这个可以依靠频数计数的方法实现，可以通过Means过程步preloadfmt选项，也可以通过Dummy数据集的方法实现，具体可以参考：SAS编程：频数汇总时如何处理分析分组种类不全的情况？。

proc format;
  value aval
    0 = 0
    1 = 1
  ;
run;

proc means data = tmp2 nway completetypes;
  format aval aval.;
  class aval / preloadfmt order = data;
  var aval;
  output n = count out = count(drop = _:);
run;

结果如下：

Tmp 2

整理成频数表的形式之后，“分类 0”就表示出来，然后就可以使用Weight语句将Count变量作为FREQ过程步分析时的权重。不过需要注意的是，FREQ过程步，也是默认忽略频数为0 的类别，若将其纳入分析需要使用zeros选项，即weigth count / zeros;, 具体参考SAS Help Center: WEIGHT Statement。

proc freq data = count;
  table aval/ binomial(cl = wald exact  level = "0");
  weight count / zeros;
run;

结果如下：

Result 4

这样，即便缺失、样本率为0的类别，也是可以计算出可信区间的。

4. 可信区间输出到数据集

以上计算的可信区间结果都是输出到SAS Results界面，而为了生成Efficacy Table，需要将可信区间结果输出到数据集中。

过程步运行结果输出到数据集，通常有两种做法。第一，在过程步中，使用Output语句；第二，使用ods语句进行输出。两者输出结果的展现形式，略有不同。

4.1 `Output`语句

为了输出tables语句中的binomial选项的结果，output语句中，也需要添加选项binomial。具体语法参考SAS Help Center: OUTPUT Statement。

proc freq data = count;
  tables aval/ binomial(cl = exact level = "0");
  weight count / zeros;
  output out = cl binomial;
run;

输出的数据集和Results的如下：

Result 5

数据集中红色方框里的两个变量，就是对应可信区间的上下限，小数位数保留略有不同。每个变量的Label都会描述变量的含义，很容易辨识。与Result内容相比，Ouput语句输出的数值没有Format，以原始数据的形式进行展示。

4.2 `ods output`语句

SAS过程步输出到Results中的内容，都是有具体的名称，可以通过ods output将具体名称的内容输出到数据集。

查看Results内容的具名称，通常也有2种方式。

第一，从SAS官方文档中查询。例如，FREQ过程步中，对应的binomial选项输出内容名称如下（来源：SAS Help Center: ODS Table Names）

binomial

第二，也可以用ods trance on;进行查询输出内容的名称。

ods trace on ;

proc freq data = count;
  tables aval/ binomial(cl = exact level = "0");
  weight count / zeros;
run;

ods trace off;

以上程序运行之后，就可以从Log中查看Results中输出内容的名称：

Log

知晓内容名称后，就可以使用ods output将对应内容输出到数据集：

*ods trace on ;
ods output BinomialCLs = cl;

proc freq data = count;
  tables aval/ binomial(cl = exact level = "0");
  weight count / zeros;
run;

ods output close;
*ods trace off;

运行结果如下，上下限的数值以6.4的Format进行展示，与Results中显示一致。

BinomialCLs

输出到数据集之后，具体如何处理成Table中的显示，这里就不过多讲了。

最后，附上用于计算精确概率法可信区间的完整代码：

**Raw data, 0=Positive, 1=negative;
data tmp;
    do i = 1 to 13;
      aval = 0;
      output;
    end;
    do i = 1 to 131;
      aval = 1;
      output;
    end;

    drop i;
run;


**Count frequency;
proc format;
  value aval
    0 = 0
    1 = 1
  ;
run;

proc means data = tmp nway completetypes;
  format aval aval.;
  class aval / preloadfmt order = data;
  var aval;
  output n = count out = count(drop = _:);
run;


**Get exact 95% CI for the proportion of positive;
*ods trace on ;
ods output BinomialCLs = cl;

proc freq data = count;
  tables aval/ binomial(cl = exact level = "0");
  weight count / zeros;
run;

ods output close;
*ods trace off;

总结

以上就是SAS中获取率的可信区间的所有过程，文章先是介绍率以及率对应的可信区间，接着介绍SAS中实现过程。SAS编程中需要考虑，计数分类的指定，以及计数分类缺失的处理。最后，介绍将过程步计算的结果输出到SAS数据集的2种方式。

临床试验中通常会涉及多个试验组，实际应用可能还需要使用By语句进行分组处理。对应的Means过程步中，试验组作为分组变量也需要preloadfmt选项补全可能缺失的分组，这里不进一步补充了。

若试验组涉及汇总组的处理，可以参考SAS编程：生成Table时，汇总组(Total)组如何处理？，这里也不进一步探讨。

感谢阅读！若有疑问，欢迎评论区交流！

SAS编程-Efficacy：如何生成样本率的可信区间？

1. 率的计算

2. 率的可信区间

3. 率的可信区间的SAS实现

3.1 基础实现

3.2 指定用于计数的分类（`level =`）

3.3 分类缺失，如何处理？(`Weight`)

4. 可信区间输出到数据集

4.1 `Output`语句

4.2 `ods output`语句

总结

猜你喜欢

热点阅读

SAS编程-Efficacy：如何生成样本率的可信区间？

1. 率的计算

2. 率的可信区间

3. 率的可信区间的SAS实现

3.1 基础实现

3.2 指定用于计数的分类（level =）

3.3 分类缺失，如何处理？(Weight)

4. 可信区间输出到数据集

4.1 Output语句

4.2 ods output语句

总结

猜你喜欢

热点阅读

3.2 指定用于计数的分类（`level =`）

3.3 分类缺失，如何处理？(`Weight`)

4.1 `Output`语句

4.2 `ods output`语句