【r<-基础|实战】基本统计分析

2017-04-06 本文已影响254人王诗翔

参考： R语言实战

因为书中列举的方法和知识点比较多，没必要全都掌握，会一种，其他的了解即可。我就简要地整理一下我觉得重要的吧。

描述性统计分析

R基础包自带summary()函数用于获取描述性统计量，我们调用自带的车辆路试数据集mtcars进行下面相应的展示。

> myvars <- c('mpg', 'hp', 'wt')
> summary(mtcars[myvars])
      mpg              hp              wt       
 Min.   :10.40   Min.   : 52.0   Min.   :1.513  
 1st Qu.:15.43   1st Qu.: 96.5   1st Qu.:2.581  
 Median :19.20   Median :123.0   Median :3.325  
 Mean   :20.09   Mean   :146.7   Mean   :3.217  
 3rd Qu.:22.80   3rd Qu.:180.0   3rd Qu.:3.610  
 Max.   :33.90   Max.   :335.0   Max.   :5.424

summary函数提供了最小值、最大值、四分位数和数值型变量均值以及因子向量和逻辑型向量的频数统计。

书中提及到了一个叫pastecs的包，包括一个名为stat.desc()的函数，它可以计算种类繁多的描述性统计量。

使用格式：

stat.desc(x, basic=TRUE, desc=TRUE, norm=FALSE, p=0.95)

其中x是一个数据框或时间序列。basic=T计算其中所有值、空值、缺失值的数量，以及最大值、最小值、值域还有总和。desc=T计算中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系数。最后，若norm=T（不是默认哈）则返回正态分布统计量，包括偏度和峰度（以及它们的统计显著程度）和Shapiro-Wilk正态检验结果。（是使用p值计算的平均数的置信区间）

> library(pastecs)
> myvars <- c('mpg', 'hp', 'wt')
> stat.desc(mtcars[myvars])
                     mpg           hp          wt
nbr.val       32.0000000   32.0000000  32.0000000
nbr.null       0.0000000    0.0000000   0.0000000
nbr.na         0.0000000    0.0000000   0.0000000
min           10.4000000   52.0000000   1.5130000
max           33.9000000  335.0000000   5.4240000
range         23.5000000  283.0000000   3.9110000
sum          642.9000000 4694.0000000 102.9520000
median        19.2000000  123.0000000   3.3250000
mean          20.0906250  146.6875000   3.2172500
SE.mean        1.0654240   12.1203173   0.1729685
CI.mean.0.95   2.1729465   24.7195501   0.3527715
var           36.3241028 4700.8669355   0.9573790
std.dev        6.0269481   68.5628685   0.9784574
coef.var       0.2999881    0.4674077   0.3041285

> stat.desc(mtcars[myvars], norm=T)
                     mpg            hp           wt
nbr.val       32.0000000   32.00000000  32.00000000
nbr.null       0.0000000    0.00000000   0.00000000
nbr.na         0.0000000    0.00000000   0.00000000
min           10.4000000   52.00000000   1.51300000
max           33.9000000  335.00000000   5.42400000
range         23.5000000  283.00000000   3.91100000
sum          642.9000000 4694.00000000 102.95200000
median        19.2000000  123.00000000   3.32500000
mean          20.0906250  146.68750000   3.21725000
SE.mean        1.0654240   12.12031731   0.17296847
CI.mean.0.95   2.1729465   24.71955013   0.35277153
var           36.3241028 4700.86693548   0.95737897
std.dev        6.0269481   68.56286849   0.97845744
coef.var       0.2999881    0.46740771   0.30412851
skewness       0.6106550    0.72602366   0.42314646
skew.2SE       0.7366922    0.87587259   0.51048252
kurtosis      -0.3727660   -0.13555112  -0.02271075
kurt.2SE      -0.2302812   -0.08373853  -0.01402987
normtest.W     0.9475647    0.93341934   0.94325772
normtest.p     0.1228814    0.04880824   0.09265499

感觉这个函数统计很全面，基本涵盖了一般统计分析会涉及的基础量和显著性检验结果啊。（用summary加stat.desc是不是够了呢？）

分组计算描述性统计量

可以使用aggregate()函数来分组获取描述性统计量。

> myvars <- c('mpg', 'hp', 'wt')
> aggregate(mtcars[myvars], by=list(am=mtcars$am), mean)
  am      mpg       hp       wt
1  0 17.14737 160.2632 3.768895
2  1 24.39231 126.8462 2.411000
> aggregate(mtcars[myvars], by=list(am=mtcars$am), sd)
  am      mpg       hp        wt
1  0 3.833966 53.90820 0.7774001
2  1 6.166504 84.06232 0.6169816

注意如果使用的是list(am = mtcars$am)这个赋值指定了一个更有帮助的列标签。

因为aggregate()仅允许每次调用中使用单返回值函数，而无法一次返回若干个统计量。为了完成这个任务，可以采用by()函数。格式：

by(data, INDICES, FUN)

其中，data为一个数据框或矩阵，INDICES是一个因子或因子组成的列表，定义了分组，FUN是任意函数。

下面提供一个示例：

> mystats <- function(x, na.omit=FALSE){}
> mystats <- function(x, na.omit=FALSE){
+             if (na.omit)
+                 x <- x[!is.na(x)]
+             m <- mean(x)
+             n <- length(x)
+             s <- sd(x)
+             skew <- sum((x-m)^3/s^3)/n
+             kurt <- sum((x-m)^4/s^4)/n - 3
+             return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt))}
  
> myvars <- c('mpg', 'hp', 'wt')
> dstats <- function(x) sapply(x, mystats)
> by(mtcars[myvars], mtcars$am, dstats)
mtcars$am: 0
                 mpg           hp         wt
n        19.00000000  19.00000000 19.0000000
mean     17.14736842 160.26315789  3.7688947
stdev     3.83396639  53.90819573  0.7774001
skew      0.01395038  -0.01422519  0.9759294
kurtosis -0.80317826  -1.20969733  0.1415676
------------------------------------------------ 
mtcars$am: 1
                 mpg          hp         wt
n        13.00000000  13.0000000 13.0000000
mean     24.39230769 126.8461538  2.4110000
stdev     6.16650381  84.0623243  0.6169816
skew      0.05256118   1.3598859  0.2103128
kurtosis -1.45535200   0.5634635 -1.1737358

doBy包和psych包也提供了分组计算描述性统计量的函数，有兴趣自己摸索下（非基础包都要先安装哈）。

频数表和列联表

本节着眼于类别型变量的频数表和列联表，以及相应的独立性检验、相关性的度量、图形化展示结果的方法。除了使用基础安装中的函数，还将使用到vcd包和gmodels包中的函数。

最重要的函数如表：

生成频数表

函数	描述
table(var1, var2, ..., varN)	使用N个类别变量（因子）创建一个N维列联表
xtabs(formula, data)	根据一个公式和一个矩阵或数据框创建一个一个N维列联表
prop.table(table, margins)	依margins定义的边际列联表将表中条目表示为分数形式
margin.table(table, margins)	依margins定义的边际列联表计算表中条目的和
addmargins(table, margins)	将概述边margins（默认求和）放入表中
ftable(table)	创建一个紧凑的“平铺式”列联表

一维列联表

使用table()函数生成简单的频数统计表。

> library(grid)
> library(vcd)
> head(Arthritis)
  ID Treatment  Sex Age Improved
1 57   Treated Male  27     Some
2 46   Treated Male  29     None
3 77   Treated Male  30     None
4 17   Treated Male  32   Marked
5 36   Treated Male  46   Marked
6 23   Treated Male  58   Marked
> mytable <- with(Arthritis, table(Improved))
> mytable
Improved
  None   Some Marked 
    42     14     28 
# 使用prop.table()将频数转为比例值或百分比
> prop.table(mytable)
Improved
     None      Some    Marked 
0.5000000 0.1666667 0.3333333 
> prop.table(mytable)*100
Improved
    None     Some   Marked 
50.00000 16.66667 33.33333

二维列联表

table()函数使用格式为：

table(A, B) # A为行变量，B为列变量

xtabs()函数可以使用公式风格的输入创建列联表：

mytable <- xtabs(~ A + B, data = mydata)

mydata是一个矩阵或数据框。（看多了发现大部分函数支持数据框也会支持矩阵，说明他们用法很大程度的相似）

> mytable <- xtabs(~ Treatment + Improved, data=Arthritis)
> mytable
         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21
# 使用margin.table()和prop.table()函数分别生成边际频数和比例
> margin.table(mytable, 1)
Treatment
Placebo Treated 
     43      41 
> prop.table(mytable,1)     # 1指代table()语句中的第一个变量
         Improved
Treatment      None      Some    Marked
  Placebo 0.6744186 0.1627907 0.1627907
  Treated 0.3170732 0.1707317 0.5121951

# 使用addmargins()函数为这些表格添加边际和
> addmargins(mytable)
         Improved
Treatment None Some Marked Sum
  Placebo   29    7      7  43
  Treated   13    7     21  41
  Sum       42   14     28  84

addmargins(mytable,2)添加行和，addmargins(mytable,1)添加列和。

注意：table()函数默认忽略缺失值（NA）。要在频数统计中将NA视为一个有效的类别，设定参数useNA="ifany"。

使用gmodels包中的CrossTable()函数也可以创建二维列联表，它仿照SAS或SPSS的形式。

> library(gmodels)
> CrossTable(Arthritis$Treatment, Arthritis$Improved)

 
   Cell Contents
|-------------------------|
|                       N |
| Chi-square contribution |
|           N / Row Total |
|           N / Col Total |
|         N / Table Total |
|-------------------------|

 
Total Observations in Table:  84 

 
                    | Arthritis$Improved 
Arthritis$Treatment |      None |      Some |    Marked | Row Total | 
--------------------|-----------|-----------|-----------|-----------|
            Placebo |        29 |         7 |         7 |        43 | 
                    |     2.616 |     0.004 |     3.752 |           | 
                    |     0.674 |     0.163 |     0.163 |     0.512 | 
                    |     0.690 |     0.500 |     0.250 |           | 
                    |     0.345 |     0.083 |     0.083 |           | 
--------------------|-----------|-----------|-----------|-----------|
            Treated |        13 |         7 |        21 |        41 | 
                    |     2.744 |     0.004 |     3.935 |           | 
                    |     0.317 |     0.171 |     0.512 |     0.488 | 
                    |     0.310 |     0.500 |     0.750 |           | 
                    |     0.155 |     0.083 |     0.250 |           | 
--------------------|-----------|-----------|-----------|-----------|
       Column Total |        42 |        14 |        28 |        84 | 
                    |     0.500 |     0.167 |     0.333 |           | 
--------------------|-----------|-----------|-----------|-----------|

这个函数有很多功能，参阅help了解详情。

独立性检验

书中描述了3种检验：卡方独立性检验、Fisher精确检验和Cochran-Mantel-Haenszel检验。

卡方独立性检验

使用chisq.test()函数对二联表的行变量和列变量进行卡方独立性检验。

> library(grid)
> library(vcd)
> mytable <- xtabs(~ Treatment+Improved, data=Arthritis)
> chisq.test(mytable)

    Pearson's Chi-squared test

data:  mytable
X-squared = 13.055, df = 2, p-value = 0.001463
# 治疗情况和改善情况不独立

> mytable <- xtabs(~ Sex+Improved, data=Arthritis)
> chisq.test(mytable)

    Pearson's Chi-squared test

data:  mytable
X-squared = 4.8407, df = 2, p-value = 0.08889

Warning message:
In chisq.test(mytable) : Chi-squared近似算法有可能不准

# 性别和改善情况独立

可以通过p-value来看两个变量是否独立。

Fisher精确检验

使用fisher.test()函数进行Fisher精确检验，Fisher检验的原假设是：边界固定的列联表中行和列是相互独立的。

> mytable <- xtabs(~ Treatment+Improved, data=Arthritis)
> fisher.test(mytable)

    Fisher's Exact Test for Count Data

data:  mytable
p-value = 0.001393
alternative hypothesis: two.sided

Cochran-Mantel-Haenszel检验

使用mantelhaen.test()函数，原假设：两个名义变量在第三个变量中的每一层中都是条件独立的。此检验假设不存在三阶交互作用。

下列代码可以检验治疗情况和改善情况在性别的每一水平下是否独立。(结果表明并不独立)

> mytable <- xtabs(~ Treatment+Improved+Sex, data=Arthritis)
> mantelhaen.test(mytable)

    Cochran-Mantel-Haenszel test

data:  mytable
Cochran-Mantel-Haenszel M^2 = 14.632, df = 2, p-value =
0.0006647

> library(MASS)
> with(UScrime, t.test(U1,U2, paired=T))

    Paired t-test

data:  U1 and U2
t = 32.407, df = 46, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 57.67003 65.30870
sample estimates:
mean of the differences 
               61.48936

多于两组的情况

使用方差分析（ANOVA），内容单列一章。

组间差异的非参数检验

如果数据无法满足t检验或ANOVA的参数假设，可以转向非参数检验。

两组的比较

若两组数据独立，可以使用Wilcoxon秩和检验（也称为Mann-Whitney U检验）来评估观测是否是从相同的概率分布中抽得的。

调用格式：

wilcox.test(y ~ x, data)

wilcox.test(y1, y2)

默认进行双侧检验，可以添加参数exact来进行精确检验，指定alternative='less'或者greater进行有方向的检验。

Wilcoxon符号秩和检验是非独立样本t检验的一种非参数替代方法。它适用于两组成对数据和无法保证正态性假设的情境。调用格式和上述的Mann-Whitney U检验完全相同，不过还（要）可以添加参数paired = TRUE。

多于两组

如果各组独立，使用Kruskal-Wallis检验：

kruskal.test(y ~ A, data)

如果不独立，使用Friedman检验：

friedman.test(y ~ A | B, data)

【r<-基础|实战】基本统计分析

描述性统计分析

分组计算描述性统计量

频数表和列联表

生成频数表

一维列联表

二维列联表

独立性检验

卡方独立性检验

Fisher精确检验

Cochran-Mantel-Haenszel检验

相关性的度量

相关

相关的类型

相关性的显著性检验

t检验

独立样本t检验

非独立样本的t检验

多于两组的情况

组间差异的非参数检验

两组的比较

多于两组

猜你喜欢

热点阅读