R语言：Purrr包探索

2019-04-22 本文已影响27人孟祥良

看统计书，有一道题问n人之中至少有两人生日相同的概率。感觉这道题非常适合用来练习purrr包的基本用法，于是就试了下。

对于这道题，可以先算出所有人的生日都不相同的概率，然后再用1减去这个概率。当人数为2人时，概率是：

1 - (365 / 365) * (364 / 365)

## [1] 0.002739726

当人数为3人时，概率是：

1 - (365 / 365) * (364 / 365) * (363 / 365)

## [1] 0.008204166

写成数学公式的话，大概是这样：

image

为了方便使用，可以写成函数：

samebirth <- function(n) {
  
  temp <- 1 - prod(365:(366 - n)) / 365 ^ n 
  
  print(temp)
  
}

试一下：

samebirth(2)

## [1] 0.002739726

samebirth(3)

## [1] 0.008204166

没有问题。但是要想同时计算2人和3人的概率，就会出现问题：

samebirth(2:3)

## Warning in 365:(366 - n): numerical expression has 2 elements: only the
## first used

## [1] 0.002739726 0.997267780

此时就可以利用purrr包中的map函数，把.x参数所代表的数据中的每一个元素映射到.f位置的函数上：

library(purrr)

map(2:3, samebirth)

## [1] 0.002739726
## [1] 0.008204166

## [[1]]
## [1] 0.002739726
## 
## [[2]]
## [1] 0.008204166

这次同时算出了2人和3人情况下的概率，而且数值是正确的了，但不知道为什么数值都显示了两遍。因为samebirth函数比较短，所以可以直接在map中使用匿名函数。当然，也可以使用apply家族的函数，但map中可以写成公式式匿名函数，进而使代码更简洁：

map(2:3, ~ 1 - prod(365:(366 - .x)) / 365 ^ .x)

## [[1]]
## [1] 0.002739726
## 
## [[2]]
## [1] 0.008204166

这里的prod函数的作用是累乘，2和3依次被映射到了.x处，然后计算出概率。

如果要计算更多的人数，比如50，可以将3改为50，但因为map函数默认产生列表，结果输出会很长，这是可以将map函数改为map_dbl，指定输出数值型的结果：

map_dbl(2:50, ~ 1 - prod(365 : (366 - .x)) / 365 ^ .x)

##  [1] 0.002739726 0.008204166 0.016355912 0.027135574 0.040462484
##  [6] 0.056235703 0.074335292 0.094623834 0.116948178 0.141141378
## [11] 0.167024789 0.194410275 0.223102512 0.252901320 0.283604005
## [16] 0.315007665 0.346911418 0.379118526 0.411438384 0.443688335
## [21] 0.475695308 0.507297234 0.538344258 0.568699704 0.598240820
## [26] 0.626859282 0.654461472 0.680968537 0.706316243 0.730454634
## [31] 0.753347528 0.774971854 0.795316865 0.814383239 0.832182106
## [36] 0.848734008 0.864067821 0.878219664 0.891231810 0.903151611
## [41] 0.914030472 0.923922856 0.932885369 0.940975899 0.948252843
## [46] 0.954774403 0.960597973 0.965779609 0.970373580

这时任务就完成了，但一开始我并不知道prod函数的存在，所以写的稍微复杂了一些：

不过在展示最初写法之前，还要介绍下reduce函数。

reduce函数常用于合并列表中的数据框，如：

reduce(list(iris, iris, iris), rbind) %>% dim()

## [1] 450   5

3个本来只有150行iris数据框合并到一起变成了450行。另外，reduce配合*函数使用，就实现了prod函数的功能，如：

reduce(1:5, `*`)

## [1] 120

prod(1:5)

## [1] 120

R中的一些运算符号，如上面用到的*，加上反引号（backtick，键盘esc下面那个符号），就可以像普通函数那样使用，如：

5 + 6

## [1] 11

`+`(5, 6)

## [1] 11

sum(5, 6)

## [1] 11

最初的代码是这样的：

map_dbl(2:50, ~ 1 - map(1:.x, ~ (366 - .x) / 365) %>% reduce(`*`))

##  [1] 0.002739726 0.008204166 0.016355912 0.027135574 0.040462484
##  [6] 0.056235703 0.074335292 0.094623834 0.116948178 0.141141378
## [11] 0.167024789 0.194410275 0.223102512 0.252901320 0.283604005
## [16] 0.315007665 0.346911418 0.379118526 0.411438384 0.443688335
## [21] 0.475695308 0.507297234 0.538344258 0.568699704 0.598240820
## [26] 0.626859282 0.654461472 0.680968537 0.706316243 0.730454634
## [31] 0.753347528 0.774971854 0.795316865 0.814383239 0.832182106
## [36] 0.848734008 0.864067821 0.878219664 0.891231810 0.903151611
## [41] 0.914030472 0.923922856 0.932885369 0.940975899 0.948252843
## [46] 0.954774403 0.960597973 0.965779609 0.970373580

虽然要复杂一些，但也说明map函数是可以嵌套的。

R语言：Purrr包探索

猜你喜欢

热点阅读