Datawhale统计学一周集训——任务一

2019-01-03 本文已影响21人晓迦

学习内容

学习内容（一）
可汗学院统计学12-26集，统计学基础知识、二项分布及泊松分布
学习内容（二）
可汗学院统计学27-34集，大数定理、正态分布
其他资料
《深入浅出统计学》《商务与经济统计》

学习笔记（一）

样本和总体

总体：研究对象的全部。
样本：研究中实际观测或调查的一部分个体。
统计推断的目的是要从样本含有的信息中提取总体的信息。
样本均值： $\ \hat{x} = \frac{\sum_{i=1}^{n}x_i}{n}$
样本方差： $\ s = \sqrt{\frac{{\sum({x_i- \hat{x})^2}}}{n-1}}$
为什么样本方差的分母是n-1？
比较通俗的解释：
因为所得到的样本均值不等于总体均值，导致样本方差在计算的时候偏小，这时候通过减小分母量来使修正样本偏差。
严肃的解释：
由均值的计算公式知：一旦计算平均值，n个变量就是不再独立了，都与均值产生了联系，也就是说在n个随机变量Xi 中只要知道了其中的任意n-1个及均值,就能求出另外一个，故能自由地取值的随机变量只有n-1个。所以在用均值计算方差时，能自由变化的随机变量只有n-1个，所以方差要除是n-1。
参考：CSDN博客
 知乎
设计样本：确定目标总体，确定抽样单位，确定抽样空间。
无偏样本：该样本与总体样本具有相似特性，利用相似特性对总体本身做出判断。一个无偏样本的分布形状与作为其来源的总体的分布形状相似。

几何分布

假设成功一次的概率为p，几何分布是关于成功一次所需要试验的次数的概率分布。
$p(x=r)=pq^{r-1}$ 指第r次成功，前r-1次都失败的概率。
期望：成功一次所需要的期望次数， $\frac{1}{p}$
方差： $Var(X) = q/p^2$

ps：方差的一般计算公式： $Var(X) = E(X^2)-E^2(X)$

二项分布

说起二项分布，先说一下伯努利试验，也就是n次独立重复试验。
伯努利试验特点：

每次试验中事件只有两种结果。
每次试验中事件发生的概率相同。
n次试验的事件相互之间独立。
概率公式： $p(X=r) = {C}^r_n*{p}^r*(q)^{n-r}$ (p为单次试验成功的概率，p为单次试验失败的概率)
上诉公式表示：在n次试验中，成功r次的概率。
期望： $E(X)=np$
方差： $Var(X)=npq$

举一个例子来说明：
假设小明投篮成功的概率为0.3，共投了10次。
投篮只有投中或者不中，每次投中的概率不变为0.3，前一次投篮不影响后一次投篮，符合伯努利试验条件。
小明投中的次数符合二项分布。
$P(X=3) = C_{10}^3*0.3^3*0.7^7$
期望：E(X) = 10 * 0.3 = 3
方差：Var(X) = 10 * 0.3*0.7 = 2.1

泊松分布

泊松分布由二项分布推导而来。
泊松过程：把单位时间分为无限份，每一份的概率为
$\lambda/n$ ,随机变量X符合二项分布，可由二项分布公式推导出泊松分布公式。
详情见：CSDN博客
泊松分布适用于描述单位时间内随机事件发生的次数。
以视频上的例子来说明：
假如你是一名交通工程师，想知道任意时刻通过街上某一点的车辆数，确定某一个小时内100辆车通过的概率。
假设：

街上车流量任意情况没有差异。（虽然真实情况存在某些时候车流量大，但这里简化处理）
一段时间的车流量对另一段时间的车流量没有影响。

首先定义一个随机变量X，表示一个小时内通过的车辆数，然后通过求出随机变量的概率分布，这样就能求出某一个小时内通过100辆车的概率。

$P(X=k)=\frac{\lambda^k}{k!}e^{-{\lambda}}$
泊松分布的均值和方差均为 $\lambda$ .
泊松分布理解

学习笔记（二）

大数定律

大数定律：当我们的样本数据量足够大的时候，我们就可以用样本的平均值来估计总体平均值。
用Python实现大数定律过程

numberSize = 1000
randData = np.random.normal(loc=10,scale=50,size=numberSize)  #loc为正态分布的均值，scale为标准差，size为输出的值
randData_average = []                                       # 当使用  np.random.rand(size)是标准的正态分布
sum_rand = 0
for i in range(len(randData)):
    sum_rand += randData[i]
    randData_average.append(sum_rand/(i+1))
x = np.arange(0,numberSize,1)
y  = randData_average
plt.plot(x,y)
plt.plot([0,numberSize],[10,10],'r')

大数定律
从图中可以发现：当迭代次数逐渐增大的时候，样本的均值接近期望值10.
参考：大数定律

赌徒谬论
上次我在看别人打牌的时候，有个人输了蛮多钱，就说，后面一定会赢钱，前面都输了这么多了。这一点很明显是错的，每一场牌局都是一次独立的试验，每一场输赢的概率都不变，前面的结果不影响后面的情况。
是不是大数定律失效了呢？明显不是，大数定律说的是，样本数据量足够大。

正态分布

若随机变量X服从一个数学期望为 $\mu$ ,标准方差为 $\sigma^2$ 的高斯分布，记为：X~ $N(\mu,\sigma^2)$
概率密度公式为： $f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
标准正态分布是 $\mu$ =0， $\sigma$ =1的正态分布。
我们在计算概率的时候一般会使用z变换将正态分布转化为标准正态分布来计算。
注意：

68.27%的面积在平均值左右一个标准差内
95.45%的面积在平均值左右两个标准差内
99.73%的面积在平均值左右三个标准差内