R语言gtsummary包快速制作临床试验基线特征表
在临床试验中,我们常常需要绘制组间比较的基线特征表,也是临床试验统计分析的第一步。
今天给大家介绍一款好用的R包——“gtsummary”,不仅可以自定义输出形式(可以满足多种输出形式哦),而且导出方便,那我们接下来就操作一下吧。
案例
安装及加载“gtsummary”
# Library packages
library(gtsummary)
如果第一次使用这个包,需要先进行安装然后再加载包:install.packages('gtsummary')
加载数据
data(trial)
trial2 <- trial %>% dplyr::select(trt, age, grade)
我们先加载数据集“trial”(数据集“trial”来自'gtsummary'包),然后只选择其中3个变量生成数据集“trial2”
生成基线资料表
不进行任何设置结果如下:
# Example 1 default format ----------------------
trial2 %>%
tbl_summary( )
image
由上表可知,连续变量默认展示中位数(四分位数),缺失值显示为“Unknown”;分类变量展示为例数(百分比),这里Grade变量无缺失,因此未显示“Unknown”。
接下来我们需要通过设置,进行组间比较。代码如下:
# Example 2 add_p----------------------------------
trial2 %>%
tbl_summary(by = trt) %>%
add_p()
这里,“by=trt”明确了分组变量为“trt”,并增加组间比较的P值(add_p()),结果如下:
image
这里变量的展示内容与我的需求不符合,接下来我们修改一下变量展现内容(连续变量:均值(标准差)、中位数(四分位数)、(最小值,最大值)、缺失值;分类变量:例数(百分比)、缺失值),并修改P值的小数点位数,代码及结果如下:
# Example 3 modify display--------------------------
trial2 %>%
tbl_summary(
by = trt,
type = all_continuous() ~ "continuous2",
statistic = all_continuous() ~ c("{mean} ({sd})",
"{median} ({p25}, {p75})",
"{min}, {max}") ,
missing="always",
missing_text='missing')%>%
add_p(pvalue_fun = ~style_pvalue(.x, digits = 2))
image
type = all_continuous() ~ "continuous2" :将连续变量统计描述结果展示为多行,type设置为"continuous2";
statistic = all_continuous() ~ c("{mean} ({sd})","{median} ({p25}, {p75})", "{min}, {max}") :说明了我们需要展示连续变量的均值(标准差),中位数(四分位数),(最小值,最大值)
missing="always" :对于连续变量及分类变量的缺失值我们进行了统一设置, "always" 表示强制展示缺失值
missing_text='missing' :将缺失值标签修改为“missing”,默认为“Unknow”。
上述结果中,组间比较,连续变量默认检验方法为秩和检验,分类变量为卡方检验,接下来我们对检验方法进行修改。代码及结果如下:
# Example 4 modify test ----------------------------
trial2 %>%
tbl_summary(
by = trt,
type = all_continuous() ~ "continuous2",
statistic =all_continuous() ~ c( "{mean} ({sd})",
"{median} ({p25}, {p75})", "{min}, {max}"),
missing_text='missing') %>%
add_p(pvalue_fun = ~style_pvalue(.x, digits = 2),
list(all_continuous() ~ "t.test",
all_categorical() ~ "fisher.test"))
image
在add_p()中进行检验方法的设置:
list(all_continuous() ~ "t.test", all_categorical() ~ "fisher.test") :对于连续变量,组间比较采用T检验,对于分类变量,组间比较采用Fisher精确概率检验(注:这里的分类变量Grade,还是适合采用卡方检验,这里我们只是为了看看设置后的效果)
接下来我们还想对统计表中数值保留的小数点位数进行设置,代码及结果如下:
# Example 5 modify digits-----------------------------
trial2 %>%
tbl_summary(
by = trt,
type = all_continuous() ~ "continuous2",
statistic =all_continuous() ~ c("{mean} ({sd})",
"{median} ({p25}, {p75})", "{min}, {max}"),
missing_text='missing',
digits = all_continuous() ~ 2) %>%
add_p(pvalue_fun = ~style_pvalue(.x, digits = 3),
list(all_continuous() ~ "t.test",
all_categorical() ~ "fisher.test"))
image
digits = all_continuous() ~ 2:对于连续变量,小数点位数设置为2
pvalue_fun = ~style_pvalue(.x, digits = 3):P值的小数点位数在add_p中进行设置,这里我们将P值的小数点位数设置为3。
这个表好像还缺了点啥,对了!表名。那我们再给表增加一下标题,顺便修改一下变量标签,代码及结果如下:
# Example 6 add caption and variable labels------------
trial2 %>%
tbl_summary(
by = trt,
type = all_continuous() ~ "continuous2",
statistic =all_continuous() ~ c( "{mean} ({sd})",
"{median} ({p25}, {p75})",
"{min}, {max}"),
missing_text ='missing',
label=list(age~'Patient age'),
digits = all_continuous() ~ 2) %>%
add_p(pvalue_fun = ~style_pvalue(.x, digits = 3),
list(all_continuous() ~ "t.test",
all_categorical() ~ "fisher.test"))%>%
modify_caption("Patient Characteristics")
image
modify_caption("Patient Characteristics") :增加表名称
label=list(age~'Patient age') : 将变量“age” 在输出的结果表中展示为"Patient age"
最后,我们有时候免不了需要对表再进行一个特殊说明,即添加脚注,代码为下图最后2行(在需要添加的文字“This data is simulated”两边各加一个* ,最后脚注的格式即变为斜体,见如下结果图。
# Example 7 add footnote ------------
trial2 %>%
tbl_summary(
by = trt,
type = all_continuous() ~ "continuous2",
statistic =all_continuous() ~ c( "{mean} ({sd})",
"{median} ({p25}, {p75})",
"{min}, {max}"),
missing_text ='missing',
label=list(age~'Patient age'),
digits = all_continuous() ~ 2) %>%
add_p(pvalue_fun = ~style_pvalue(.x, digits = 3),
list(all_continuous() ~ "t.test",
all_categorical() ~ "fisher.test"))%>%
modify_caption("Patient Characteristics") %>%
as_gt() %>%
gt::tab_source_note(gt::md("*This data is simulated*"))
image
结果导出
我们以上述Example1为例,将生成的表格tb1导出为RTF,代码如下:
# Example 1 default format ----------------------
tb1<-trial2 %>%
tbl_summary( )
# Export results
tb1%>%
as_gt() %>%
gt::gtsave("tab_1.rtf") # use extensions .html .tex .ltx .rtf ;default path
# or
tb1 %>%
as_flex_table() %>%
flextable::save_as_docx(tb1,path='C:/学习/R语言学习/tab_1.docx')
好啦,关于基线表的制作及导出我们今天就说到这啦!
喜欢请点赞。还可以微信关注和置顶我的公众号“danor的学习笔记”哦!
参考资料:
https://www.danieldsjoberg.com/gtsummary/articles/tbl_summary.html