第二部分 第7章基本统计分析

2020-05-30  本文已影响0人  Hannahhao

7.1 描述性统计分析

连续型变量的中心趋势、变化性和分布形状的方法。

7.1.1 方法云集

基础安装中的函数:summary()函数来获取描述性统计量(最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计)
apply()函数
sapply()函数 :sapply(x, FUN, options)
fivenum()函数:返回最小值、下四分位数、中位数、上四分位数和最大值。

7.1.2 更多方法

最后载入的程序包优先。

7.1.3 分组计算描述性统计量

7.1.4 分组计算的扩展

7.1.5 结果的可视化

7.2 频数表和列联表

类别型变量的频数表和列联表,以及相应的独立性检验、相关性的度量、图形化展示结果的方法。

7.2.1 生成频数表

用于创建和处理列联表的函数

函数 描述
table(var1, var2, ..., varN) 使用N个类别型变量创建一个N维列联表
xtabs(formula, data) 根据一个公式和一个矩阵或数据框创建一个N维列联表
prop.table(table, margins) 依margins定义的边际列表将表中条目表示为分数形式
margin.table(table, margins) 依margins定义的边际列表计算表中条目的和
addmargins(table, margins) 将概述边margins放入表中
ftable(table) 创建一个紧凑的平铺式列联表
> mytable <- with(Arthritis,table(Improved))
> mytable
Improved
  None   Some Marked 
    42     14     28 
> prop.table(mytable)
Improved
     None      Some    Marked 
0.5000000 0.1666667 0.3333333 
> prop.table(mytable)*100
Improved
    None     Some   Marked 
50.00000 16.66667 33.33333 
> mytable <- xtabs(~ Treatment+Improved, data=Arthritis)
> mytable
         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21

使用Crosstable生成二维列联表

library(gmodels)
CrossTable(Arthritis$Treatment,Arthritis$Improved)
Total Observations in Table:  84 

 
                    | Arthritis$Improved 
Arthritis$Treatment |      None |      Some |    Marked | Row Total | 
--------------------|-----------|-----------|-----------|-----------|
            Placebo |        29 |         7 |         7 |        43 | 
                    |     2.616 |     0.004 |     3.752 |           | 
                    |     0.674 |     0.163 |     0.163 |     0.512 | 
                    |     0.690 |     0.500 |     0.250 |           | 
                    |     0.345 |     0.083 |     0.083 |           | 
--------------------|-----------|-----------|-----------|-----------|
            Treated |        13 |         7 |        21 |        41 | 
                    |     2.744 |     0.004 |     3.935 |           | 
                    |     0.317 |     0.171 |     0.512 |     0.488 | 
                    |     0.310 |     0.500 |     0.750 |           | 
                    |     0.155 |     0.083 |     0.250 |           | 
--------------------|-----------|-----------|-----------|-----------|
       Column Total |        42 |        14 |        28 |        84 | 
                    |     0.500 |     0.167 |     0.333 |           | 
--------------------|-----------|-----------|-----------|-----------|

7.2.2 独立性检验

主要介绍三种检验:卡方独立性检验、Fisher精确检验、Cochran-Mantel-Haenszel检验

7.2.3 相关性的度量

vcd包中的assocstats()函数

7.2.4 结果的可视化

7.3 相关

相关系数可以用来描述定量变量之间的关系。
±表明关系的方向,值的大小表明关系的强弱程度。

7.3.1 相关的类型

参数 描述
x 矩阵或数据框
use 指定缺失数据的处理方式
method 指定相关系数的类型

7.3.2 相关性的显著性检验

cor.test(x, y, alternative = , method = )

7.3.3 相关关系的可视化

correlogram相关图

7.4 t检验

两个组进行比较

7.4.1 独立样本的t检验

t.test (y ~ x, data)

7.4.2 非独立样本的t检验

t.test(y1,y2, paired=TRUE)

7.4.3 多于两组的情况

方差分析(ANOVA)

7.5 组间差异的非参数检验

7.5.1 两组的比较

两组数据独立,使用Wilcoxon秩和检验(Mann-Whitney U检验)
wilcox.test(y ~ x, data)

7.5.2 多于两组的比较

kruskal.test(y ~ A, data)
friedman.test(y ~ A | B, data)

7.6 组间差异的可视化

7.7 小结

上一篇 下一篇

猜你喜欢

热点阅读