R语言:统计直方图和核密度估计图

2023-01-25  本文已影响0人  鲨瓜

一、前言

统计直方图也叫频数分布直方图。图形类似柱形图,却与柱形图有着完全不同的作用,主要用于观察连续型变量的分布情况。

统计直方图的作用如下:

  1. 显示各组频数或数据分布情况;
  2. 比较各组之间频数或数量的差异;
  3. 观察数据的集中趋势;
  4. 识别数据的异常情况。

核密度估计图是统计直方图的变种,通过平滑曲线绘制连续型变量的分布。相较于统计直方图,核密度估计图能更好地刻画连续型变量的分布形状。核密度估计图的作用与统计直方图一致。

1.1 统计直方图-示例

文献来源 原始图片

1.2 核密度估计图-示例

文献来源 原始图片

二、R包

本期使用的R包主要有3个:

library(tidyverse)
library(gWQS)
library(ggsci)

三、演示数据

演示数据简介:gWQS包中有一个内置数据集,内置数据集的名称叫wqs_datawqs_data数据集有34种多环芳烃暴露数据、25种邻苯二甲酸酯暴露数据和其他类型数据。

本期仅使用wqs_data数据集的前5种多环芳烃暴露数据性别

3.1 单数据系列数据

# PCBs name
PCBs_name <- c("LBX074LA","LBX099LA","LBX105LA","LBX118LA","LBX138LA")
# get the first 5 PCBs exposure data and sex
PCBs <- wqs_data[c(PCBs_name,"sex")]
# get PCBs' absolute value
PCBs[PCBs_name] <- abs(PCBs[PCBs_name])
# view PCBs data
head(PCBs)

四、R语言实现

4.1 单数据系列统计直方图

# draw plot
ggplot()+
    # geometric layer
    geom_histogram(data=PCBs,mapping=aes(x=LBX074LA),
                                 bins=30,color="black",fill=pal_npg("nrc")(1))+
    # theme adjustment
    theme_light()+
    theme(axis.text=element_text(color="black"))

4.2 多数据系列统计直方图

# draw plot
ggplot()+
    # geometric layer
    geom_histogram(data=PCBs,mapping=aes(x=LBX074LA,fill=sex),
                                 bins=30,color="black",position="identity")+
    # visual mapping
    scale_fill_manual(name="Sex",labels=c("Men","Women"),values=pal_npg("nrc")(10))+
    # theme adjustment
    theme_light()+
    theme(axis.text=element_text(color="black"))

4.3 单数据系列核密度估计图

# draw plot
ggplot()+
    # geometric layer
    geom_density(data=PCBs,mapping=aes(x=LBX074LA),
                            color="black",fill=pal_npg("nrc")(1))+
    # theme adjustment
    theme_light()+
    theme(axis.text=element_text(color="black"))

4.4 多数据系列核密度估计图

# draw plot
ggplot()+
    # geometric layer
    geom_density(data=PCBs,mapping=aes(x=LBX074LA,fill=sex),
                                 color="black",alpha=0.8,position="identity")+
    # visual mapping
    scale_fill_manual(name="Sex",labels=c("Men","Women"),values=pal_npg("nrc")(10))+
    # theme adjustment
    theme_light()+
    theme(axis.text=element_text(color="black"))

五、结果解读

NHANES数据库中多环芳烃的编码与对应名称。

编码 多环芳烃
LBX074LA PCB74
LBX099LA PCB99
LBX105LA PCB105
LBX118LA PCB118
LBX138LA PCB138

PCB74在男性和女性尿液中的分布均属于右偏型分布。

本文由mdnice多平台发布

上一篇下一篇

猜你喜欢

热点阅读