R语言gtsummary包快速制作临床试验基线特征表

2021-11-23 本文已影响0人 danor丹

在临床试验中，我们常常需要绘制组间比较的基线特征表，也是临床试验统计分析的第一步。
今天给大家介绍一款好用的R包——“gtsummary”，不仅可以自定义输出形式（可以满足多种输出形式哦），而且导出方便，那我们接下来就操作一下吧。

案例

安装及加载“gtsummary”

# Library packages
library(gtsummary)

如果第一次使用这个包，需要先进行安装然后再加载包：install.packages('gtsummary')

加载数据

data(trial)
trial2 <- trial %>% dplyr::select(trt, age, grade)

我们先加载数据集“trial”(数据集“trial”来自'gtsummary'包)，然后只选择其中3个变量生成数据集“trial2”

生成基线资料表

不进行任何设置结果如下：

# Example 1 default format ---------------------- 
 trial2 %>% 
  tbl_summary( )

image

由上表可知，连续变量默认展示中位数（四分位数），缺失值显示为“Unknown”；分类变量展示为例数（百分比），这里Grade变量无缺失，因此未显示“Unknown”。

接下来我们需要通过设置，进行组间比较。代码如下：

# Example 2 add_p----------------------------------
trial2 %>% 
  tbl_summary(by = trt) %>% 
  add_p()

这里，“by=trt”明确了分组变量为“trt”，并增加组间比较的P值（add_p()）,结果如下：

image

这里变量的展示内容与我的需求不符合，接下来我们修改一下变量展现内容（连续变量：均值（标准差）、中位数（四分位数）、（最小值，最大值）、缺失值；分类变量：例数（百分比）、缺失值），并修改P值的小数点位数，代码及结果如下：

# Example 3 modify display-------------------------- 
trial2 %>%
  tbl_summary(
    by = trt,
    type = all_continuous() ~ "continuous2",
    statistic = all_continuous() ~ c("{mean} ({sd})",
                                     "{median} ({p25}, {p75})", 
                                     "{min}, {max}") , 
    missing="always",
    missing_text='missing')%>% 
add_p(pvalue_fun = ~style_pvalue(.x, digits = 2))

image

type = all_continuous() ~ "continuous2" ：将连续变量统计描述结果展示为多行，type设置为"continuous2"；
statistic = all_continuous() ~ c("{mean} ({sd})","{median} ({p25}, {p75})", "{min}, {max}") ：说明了我们需要展示连续变量的均值（标准差），中位数（四分位数），（最小值，最大值）
missing="always" ：对于连续变量及分类变量的缺失值我们进行了统一设置， "always" 表示强制展示缺失值
missing_text='missing' ：将缺失值标签修改为“missing”，默认为“Unknow”。
上述结果中，组间比较，连续变量默认检验方法为秩和检验，分类变量为卡方检验，接下来我们对检验方法进行修改。代码及结果如下：

# Example 4 modify test ---------------------------- 
trial2 %>%
  tbl_summary(
    by = trt,
    type = all_continuous() ~ "continuous2",
    statistic =all_continuous() ~ c( "{mean} ({sd})",
            "{median} ({p25}, {p75})",  "{min}, {max}"),
    missing_text='missing') %>%
  add_p(pvalue_fun = ~style_pvalue(.x, digits = 2),
        list(all_continuous() ~ "t.test",
             all_categorical() ~ "fisher.test"))

image

在add_p()中进行检验方法的设置：
list(all_continuous() ~ "t.test", all_categorical() ~ "fisher.test") ：对于连续变量，组间比较采用T检验，对于分类变量，组间比较采用Fisher精确概率检验（注：这里的分类变量Grade，还是适合采用卡方检验，这里我们只是为了看看设置后的效果）
接下来我们还想对统计表中数值保留的小数点位数进行设置，代码及结果如下：

# Example 5 modify digits----------------------------- 
trial2 %>%
  tbl_summary(
    by = trt,
    type = all_continuous() ~ "continuous2",
    statistic =all_continuous() ~ c("{mean} ({sd})",
              "{median} ({p25}, {p75})", "{min}, {max}"),
    missing_text='missing',
    digits = all_continuous() ~ 2) %>% 
  add_p(pvalue_fun = ~style_pvalue(.x, digits = 3),
        list(all_continuous() ~ "t.test",
             all_categorical() ~ "fisher.test"))

image

digits = all_continuous() ~ 2：对于连续变量，小数点位数设置为2

pvalue_fun = ~style_pvalue(.x, digits = 3）：P值的小数点位数在add_p中进行设置，这里我们将P值的小数点位数设置为3。

这个表好像还缺了点啥，对了！表名。那我们再给表增加一下标题，顺便修改一下变量标签，代码及结果如下：

# Example 6 add caption and variable labels------------ 
trial2 %>%
  tbl_summary(
    by = trt,
    type = all_continuous() ~ "continuous2",
    statistic =all_continuous() ~ c( "{mean} ({sd})",
                                          "{median} ({p25}, {p75})", 
                                          "{min}, {max}"),
    missing_text ='missing',
    label=list(age~'Patient age'),
    digits = all_continuous() ~ 2) %>%
  add_p(pvalue_fun = ~style_pvalue(.x, digits = 3),
        list(all_continuous() ~ "t.test",
             all_categorical() ~ "fisher.test"))%>%
  modify_caption("Patient Characteristics")

image

modify_caption("Patient Characteristics") ：增加表名称

label=list(age~'Patient age') ：将变量“age” 在输出的结果表中展示为"Patient age"
最后，我们有时候免不了需要对表再进行一个特殊说明，即添加脚注，代码为下图最后2行（在需要添加的文字“This data is simulated”两边各加一个* ，最后脚注的格式即变为斜体，见如下结果图。

# Example 7 add footnote  ------------ 
trial2 %>%
  tbl_summary(
    by = trt,
    type = all_continuous() ~ "continuous2",
    statistic =all_continuous() ~ c( "{mean} ({sd})",
                                     "{median} ({p25}, {p75})", 
                                     "{min}, {max}"),
    missing_text ='missing',
    label=list(age~'Patient age'),
    digits = all_continuous() ~ 2) %>%
  add_p(pvalue_fun = ~style_pvalue(.x, digits = 3),
        list(all_continuous() ~ "t.test",
             all_categorical() ~ "fisher.test"))%>%
  modify_caption("Patient Characteristics") %>%
  as_gt() %>%
gt::tab_source_note(gt::md("*This data is simulated*"))

image

结果导出

我们以上述Example1为例，将生成的表格tb1导出为RTF，代码如下：

# Example 1 default format ---------------------- 
tb1<-trial2 %>% 
  tbl_summary( ) 
# Export results
tb1%>%
  as_gt() %>%
  gt::gtsave("tab_1.rtf") # use extensions .html .tex .ltx .rtf ;default path
# or 
tb1 %>%
  as_flex_table() %>%
  flextable::save_as_docx(tb1,path='C:/学习/R语言学习/tab_1.docx')

好啦，关于基线表的制作及导出我们今天就说到这啦！
喜欢请点赞。还可以微信关注和置顶我的公众号“danor的学习笔记”哦！

参考资料：
https://www.danieldsjoberg.com/gtsummary/articles/tbl_summary.html

R语言gtsummary包快速制作临床试验基线特征表

案例

安装及加载“gtsummary”

加载数据

生成基线资料表

结果导出

猜你喜欢

热点阅读