基于StatQuest系列学统计（一）

2019-07-05 本文已影响22人琪音

视频来自 youtube 的 StatQuest with Josh Starmer，我翻了翻小破站，看看我发现了什么：基础篇...

因为去年技能树有做过一期学习statquest的活动，所以有一些大佬的笔记可以参考，比如详细视频翻译、思维导图等等，除了看视频外，我对于有些实在不理解的概念还翻阅了《白话统计》等等，视频看下就能明白的就不赘述了，开坑啦...

直方图

我们在记录一些数据的时候，可以用图形可以直观看到分布，比如直方图。

直方图.png

直方图特点.png

当然，除了直方图，还有饼图、柱状图、箱线图、散点图、密度图等等。

饼图和柱形图.png

箱线图.png

正态分布（Normal Distribution）

正态分布.png

正态-平均值+标准差.png

t分布

不是一个分布，而是一簇分布，随着自由度的变化而变化，自由度越小，t分布与正态分布偏离越大；当自由度很大(约30以上)的时候，t分布接近正态分布。

中心极限定理(Central Limit Theorem)

敲黑板！！补充理解

置信区间.png

指给定一个任意分布的总体，每次从总体中随机抽样n个抽样，一共抽取m次，然后把这m组抽样分布求出平均值，这些平均值的分布接近正态分布。

总体的本身分布不要求正态分布
样本每组要足够大(一般认为每组大于等于30)

以抛掷骰子为例，随机生成10000次结果，结果的数字在1到6之间，计算这6个数字的频数，基本趋于平均。再从这10000次结果中，任取1000组，每组50例，再计算这1000组数的平均数分布，呈正态分布。

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

np.random.seed(1)
a = np.random.randint(1,7,10000) # 以投掷骰子结果
print(type(a))
# 建立一个数字对象 ndarray, 用于存放同类型元素的多维数组
print(np.mean(a),np.std(a))
## 3.5252 1.7113050458641206

data = pd.value_counts(a)
bins=range(1,7)
plt.bar(bins,data)
plt.title("histogram")
plt.show()

分布.png

中心极限定理.png

# 抽样 1000组每组50个
means = []
for n in range(1,1000):
    sample = np.random.choice(a,50)
    means.append(np.mean(sample))

print(np.mean(means),np.std(means))
## 3.526706706706707 0.24534967195126153
plt.hist(means)
plt.show()

如何展示你的数据

标准差和标准误

形象生动的例子

平均值 mean `µ`

$\mu=\frac {\sum x_i}{n}$

标准差

样本离散程度的一个度量，用来描述数据的波动性。σ

$\sigma=\sqrt{\frac{\sum_{i=1}^{n} (x_i -\mu)^2}{N}}$

按照中心极限定理，将正态分布记为 N( $\mu$ , $\sigma$ )

标准差.png

标准误.png

标准误

衡量对应样本统计量抽样误差大小的尺度。

标准误越小，表明样本统计量与总体参数的值越接近，样本对总体越有代表性，用于统计推断。

$SE=\frac{\sigma}{\sqrt{n}}$ (n为样本例数)

自由度(Degree of Freedom,df)

总体分母是n，样本分母就是n-1，n为例数，公式证明这样得到的才是无偏估计。

标准化、中心化

标准化就是计算Z值： $Z=\frac{x-\mu}{\sigma}$

Z值反映了某个值 x 偏离均数 $\mu$ 的标准差倍数，按照正态分布的规律，一旦标准化就成了以0为均数，1为标准差的标准正态分布。

中心化就是Z值的分子部分，x=0 就是 x=均值，使数值有意义。

总体参数(population parameter)

之前的那篇量包子的文章里，要研究的对象，食堂这段时间做出过的所有包子为总体，测量一小部分为样本，通过样本来对总体的统计特征做判断的方法为假设检验（参数的无偏估计）。

零假设 $H_0$ 、备择假设 $H_1$

P-value

a p-value is the probability that random chance generated the data, or something else that is equal or rarer。

生成某数据的随机机率，或者是和这个机率相等或更小的值。

随机产生这个事件的概率
产生和该事件相同概率的其他事件
产生比该事件的概率更小的事件

概念、理解

与样本有关的指标称为统计量，与总体有关的指标称为参数，根据样本信息来估计总体信息，只能获得样本数据，来估计总体参数，这就是参数估计。

样本估计 —> 总体参数

点估计

计算样本均数、方差等，作为总体均数、方差等的估计值。
- 最小二乘估计 (Least Square Estimation)
  
  主要用于线性回归的参数估计，求一个使得实际值与模型估计值之差达到最小的值作为参数估计值
- 最大似然估计 (Maximum Likelihood Estimation）
  
  将带估计的参数看作确定的量，只是值未知，将使得产生训练样本的概率最大的参数值作为参数的最佳估计
- 贝叶斯估计
  
  将带估计的参数看作符合某种先验概率分布的随机变量，通过观察样本，将先验概率密度通过贝叶斯规则转化为后验概率密度
区间估计

用一个区间来估计参数值。

Bootstrap 自举法

从给定训练集中有放回的均匀抽样，也就是说，每当选中一个样本，它等可能地被再次选中并被再次添加到训练集中。从初始样本重复随机替换抽样，生成一个或一系列待检验统计量的经验分布。无需假设一个特定的理论分布，便可生成统计量的置信区间，并能检验统计假设。
- 95%置信区间
  
  参数估计值 $\pm$ 1.96 x 标准误
  
  95%置信区间.png

我的基础比较薄弱，做不到很快更新，缓缓再来，有同行的小伙伴嘛？

更多学习资源：
生信技能树公益视频合辑
 生信技能树简书账号
 生信工程师入门最佳指南
 生信技能树全球公益巡讲
 招学徒
...
你的宣传能让数以万计的初学者找到他们的家，技能树平台一定不会辜负每一个热爱学习和分享的同道中人 😎