小白的数据分析学习

R语言gtsummary包快速制作临床试验基线特征表

2021-11-23  本文已影响0人  danor丹

在临床试验中,我们常常需要绘制组间比较的基线特征表,也是临床试验统计分析的第一步。
今天给大家介绍一款好用的R包——“gtsummary”,不仅可以自定义输出形式(可以满足多种输出形式哦),而且导出方便,那我们接下来就操作一下吧。

案例

安装及加载“gtsummary”

# Library packages
library(gtsummary)

如果第一次使用这个包,需要先进行安装然后再加载包:install.packages('gtsummary')

加载数据

data(trial)
trial2 <- trial %>% dplyr::select(trt, age, grade)

我们先加载数据集“trial”(数据集“trial”来自'gtsummary'包),然后只选择其中3个变量生成数据集“trial2”

生成基线资料表

不进行任何设置结果如下:

# Example 1 default format ---------------------- 
 trial2 %>% 
  tbl_summary( )   
image

由上表可知,连续变量默认展示中位数(四分位数),缺失值显示为“Unknown”;分类变量展示为例数(百分比),这里Grade变量无缺失,因此未显示“Unknown”。

接下来我们需要通过设置,进行组间比较。代码如下:

# Example 2 add_p----------------------------------
trial2 %>% 
  tbl_summary(by = trt) %>% 
  add_p()

这里,“by=trt”明确了分组变量为“trt”,并增加组间比较的P值(add_p()),结果如下:


image

这里变量的展示内容与我的需求不符合,接下来我们修改一下变量展现内容(连续变量:均值(标准差)、中位数(四分位数)、(最小值,最大值)、缺失值;分类变量:例数(百分比)、缺失值),并修改P值的小数点位数,代码及结果如下:

# Example 3 modify display-------------------------- 
trial2 %>%
  tbl_summary(
    by = trt,
    type = all_continuous() ~ "continuous2",
    statistic = all_continuous() ~ c("{mean} ({sd})",
                                     "{median} ({p25}, {p75})", 
                                     "{min}, {max}") , 
    missing="always",
    missing_text='missing')%>% 
add_p(pvalue_fun = ~style_pvalue(.x, digits = 2))
image

type = all_continuous() ~ "continuous2" :将连续变量统计描述结果展示为多行,type设置为"continuous2";
statistic = all_continuous() ~ c("{mean} ({sd})","{median} ({p25}, {p75})", "{min}, {max}") :说明了我们需要展示连续变量的均值(标准差),中位数(四分位数),(最小值,最大值)
missing="always" :对于连续变量及分类变量的缺失值我们进行了统一设置, "always" 表示强制展示缺失值
missing_text='missing' :将缺失值标签修改为“missing”,默认为“Unknow”。
上述结果中,组间比较,连续变量默认检验方法为秩和检验,分类变量为卡方检验,接下来我们对检验方法进行修改。代码及结果如下:

# Example 4 modify test ---------------------------- 
trial2 %>%
  tbl_summary(
    by = trt,
    type = all_continuous() ~ "continuous2",
    statistic =all_continuous() ~ c( "{mean} ({sd})",
            "{median} ({p25}, {p75})",  "{min}, {max}"),
    missing_text='missing') %>%
  add_p(pvalue_fun = ~style_pvalue(.x, digits = 2),
        list(all_continuous() ~ "t.test",
             all_categorical() ~ "fisher.test"))
image

在add_p()中进行检验方法的设置:
list(all_continuous() ~ "t.test", all_categorical() ~ "fisher.test") :对于连续变量,组间比较采用T检验,对于分类变量,组间比较采用Fisher精确概率检验(注:这里的分类变量Grade,还是适合采用卡方检验,这里我们只是为了看看设置后的效果)
接下来我们还想对统计表中数值保留的小数点位数进行设置,代码及结果如下:

# Example 5 modify digits----------------------------- 
trial2 %>%
  tbl_summary(
    by = trt,
    type = all_continuous() ~ "continuous2",
    statistic =all_continuous() ~ c("{mean} ({sd})",
              "{median} ({p25}, {p75})", "{min}, {max}"),
    missing_text='missing',
    digits = all_continuous() ~ 2) %>% 
  add_p(pvalue_fun = ~style_pvalue(.x, digits = 3),
        list(all_continuous() ~ "t.test",
             all_categorical() ~ "fisher.test"))
image

digits = all_continuous() ~ 2:对于连续变量,小数点位数设置为2

pvalue_fun = ~style_pvalue(.x, digits = 3):P值的小数点位数在add_p中进行设置,这里我们将P值的小数点位数设置为3。

这个表好像还缺了点啥,对了!表名。那我们再给表增加一下标题,顺便修改一下变量标签,代码及结果如下:

# Example 6 add caption and variable labels------------ 
trial2 %>%
  tbl_summary(
    by = trt,
    type = all_continuous() ~ "continuous2",
    statistic =all_continuous() ~ c( "{mean} ({sd})",
                                          "{median} ({p25}, {p75})", 
                                          "{min}, {max}"),
    missing_text ='missing',
    label=list(age~'Patient age'),
    digits = all_continuous() ~ 2) %>%
  add_p(pvalue_fun = ~style_pvalue(.x, digits = 3),
        list(all_continuous() ~ "t.test",
             all_categorical() ~ "fisher.test"))%>%
  modify_caption("Patient Characteristics")
image

modify_caption("Patient Characteristics") :增加表名称

label=list(age~'Patient age') : 将变量“age” 在输出的结果表中展示为"Patient age"
最后,我们有时候免不了需要对表再进行一个特殊说明,即添加脚注,代码为下图最后2行(在需要添加的文字“This data is simulated”两边各加一个* ,最后脚注的格式即变为斜体,见如下结果图。

# Example 7 add footnote  ------------ 
trial2 %>%
  tbl_summary(
    by = trt,
    type = all_continuous() ~ "continuous2",
    statistic =all_continuous() ~ c( "{mean} ({sd})",
                                     "{median} ({p25}, {p75})", 
                                     "{min}, {max}"),
    missing_text ='missing',
    label=list(age~'Patient age'),
    digits = all_continuous() ~ 2) %>%
  add_p(pvalue_fun = ~style_pvalue(.x, digits = 3),
        list(all_continuous() ~ "t.test",
             all_categorical() ~ "fisher.test"))%>%
  modify_caption("Patient Characteristics") %>%
  as_gt() %>%
gt::tab_source_note(gt::md("*This data is simulated*"))
image

结果导出

我们以上述Example1为例,将生成的表格tb1导出为RTF,代码如下:

# Example 1 default format ---------------------- 
tb1<-trial2 %>% 
  tbl_summary( ) 
# Export results
tb1%>%
  as_gt() %>%
  gt::gtsave("tab_1.rtf") # use extensions .html .tex .ltx .rtf ;default path
# or 
tb1 %>%
  as_flex_table() %>%
  flextable::save_as_docx(tb1,path='C:/学习/R语言学习/tab_1.docx')

好啦,关于基线表的制作及导出我们今天就说到这啦!
喜欢请点赞。还可以微信关注和置顶我的公众号“danor的学习笔记”哦!

参考资料:
https://www.danieldsjoberg.com/gtsummary/articles/tbl_summary.html

上一篇下一篇

猜你喜欢

热点阅读