恐怖电影钟爱13日?
二项分布是统计中一个基础的分布, 也是可以在生活中经常使用的分布。 如果利用的好, 可以帮助我们解决生活中的很多问题, 探寻真相。如果对二项分布不熟悉, 可以参考另外一篇文章: 二项分布。
任务简介
本文利用二项分布和一个恐怖电影数据集, 来分析恐怖电影是否集中在每个月 13日发行。之所以选择13日, 原因是数据集来自于欧美, 而欧美文化认为13是损日子。也许这样选择, 会让观众在观影前就有一种恐惧感。
数据集来自于 TidyTuesday 由 R for Data Science community 提供.
数据概览
数据集中可以用来分析的数据有 2782 个,日期包括每个月 1日---30日
发布数量的日期分布如下图, 可以明显的看出 13号发布的恐怖片最多。 这初步印证了我们的想法, 但是还需要统计验证才能最终证实我们的想法。
image.png利用二项分布检验猜测
我们可以 “电影是否在13 日发布” 当成一个贝努力实验, 如果没有选择偏好, 那么 “电影在13日发布” 就的概率 。 那么, 我们就看一下这个假设的二项分布,然后在和实际数据比较一下。
lower <- qbinom(0.975, 2782, 1/30)
75
upper <- qbinom(0.025, 2782, 1/30)
112
利用R语言,我们可以算出, 2.5% 和 97.5% 的分位点, 之所以选择这两个点, 因为他们之间包含了 95% 的可能性,正好是2个标准差。 一般认为,当可能性位于2个标准差以外,就是小概率事件了。 我们利用R, 计算出来:
在 的情况下,2782场电影中, 正常情况下, 13日发行的电影数量应该位于 (75, 112) 这个区间中。
而实际数据显示, 13日发行了124 场电影, 这一已经属于小概率事件了, 我们可以排除发行方没有故意选择的假设。 换句话说, 统计结果支持我们认为, 发行方喜欢在13日发布恐怖电影。
究竟概率有多小
进一步的, 我们还可以计算 “13日发行了124 场电影” 这种小概率事件到底概率有多小。
1 - pbinom(124, 2782, 1/30)
> 0.00067
在 的情况下,2782场电影中, 13日发行的电影数量大于等于 124 场的概率为 0.67%。
而一般情况下, 只有概率大于2.5% ,我们才认为正常。
参考文献