数据蛙数据分析每周作业统计学

Datawhale统计学一周集训——任务一

2019-01-03  本文已影响21人  晓迦

学习内容

学习内容(一)
可汗学院统计学12-26集,统计学基础知识、二项分布及泊松分布
学习内容(二)
可汗学院统计学27-34集,大数定理、正态分布
其他资料
《深入浅出统计学》《商务与经济统计》

学习笔记(一)

样本和总体

总体:研究对象的全部。
样本:研究中实际观测或调查的一部分个体。
统计推断的目的是要从样本含有的信息中提取总体的信息。
样本均值:\ \hat{x} = \frac{\sum_{i=1}^{n}x_i}{n}
样本方差:\ s = \sqrt{\frac{{\sum({x_i- \hat{x})^2}}}{n-1}}
为什么样本方差的分母是n-1?
比较通俗的解释:
因为所得到的样本均值不等于总体均值,导致样本方差在计算的时候偏小,这时候通过减小分母量来使修正样本偏差。
严肃的解释:
由均值的计算公式知:一旦计算平均值,n个变量就是不再独立了,都与均值产生了联系,也就是说在n个随机变量Xi 中只要知道了其中的任意n-1个及均值,就能求出另外一个,故能自由地取值的随机变量只有n-1个。所以在用均值计算方差时,能自由变化的随机变量只有n-1个,所以方差要除是n-1。
参考:CSDN博客
知乎
设计样本:确定目标总体,确定抽样单位,确定抽样空间。
无偏样本:该样本与总体样本具有相似特性,利用相似特性对总体本身做出判断。一个无偏样本的分布形状与作为其来源的总体的分布形状相似。

几何分布

假设成功一次的概率为p,几何分布是关于成功一次所需要试验的次数的概率分布。
p(x=r)=pq^{r-1} 指第r次成功,前r-1次都失败的概率。
期望:成功一次所需要的期望次数,\frac{1}{p}
方差:Var(X) = q/p^2

ps:方差的一般计算公式:Var(X) = E(X^2)-E^2(X)

二项分布

说起二项分布,先说一下伯努利试验,也就是n次独立重复试验。
伯努利试验特点:

举一个例子来说明:
假设小明投篮成功的概率为0.3,共投了10次。
投篮只有投中或者不中,每次投中的概率不变为0.3,前一次投篮不影响后一次投篮,符合伯努利试验条件。
小明投中的次数符合二项分布。
P(X=3) = C_{10}^3*0.3^3*0.7^7
期望:E(X) = 10 * 0.3 = 3
方差:Var(X) = 10 * 0.3*0.7 = 2.1

泊松分布

泊松分布由二项分布推导而来。
泊松过程:把单位时间分为无限份,每一份的概率为
\lambda/n,随机变量X符合二项分布,可由二项分布公式推导出泊松分布公式。
详情见:CSDN博客
泊松分布适用于描述单位时间内随机事件发生的次数。
以视频上的例子来说明:
假如你是一名交通工程师,想知道任意时刻通过街上某一点的车辆数,确定某一个小时内100辆车通过的概率。
假设:

首先定义一个随机变量X,表示一个小时内通过的车辆数,然后通过求出随机变量的概率分布,这样就能求出某一个小时内通过100辆车的概率。

P(X=k)=\frac{\lambda^k}{k!}e^{-{\lambda}}
泊松分布的均值和方差均为\lambda.
泊松分布理解

学习笔记(二)

大数定律

大数定律:当我们的样本数据量足够大的时候,我们就可以用样本的平均值来估计总体平均值。
用Python实现大数定律过程

numberSize = 1000
randData = np.random.normal(loc=10,scale=50,size=numberSize)  #loc为正态分布的均值,scale为标准差,size为输出的值
randData_average = []                                       # 当使用  np.random.rand(size)是标准的正态分布
sum_rand = 0
for i in range(len(randData)):
    sum_rand += randData[i]
    randData_average.append(sum_rand/(i+1))
x = np.arange(0,numberSize,1)
y  = randData_average
plt.plot(x,y)
plt.plot([0,numberSize],[10,10],'r')
大数定律
从图中可以发现:当迭代次数逐渐增大的时候,样本的均值接近期望值10.
参考:大数定律

赌徒谬论
上次我在看别人打牌的时候,有个人输了蛮多钱,就说,后面一定会赢钱,前面都输了这么多了。这一点很明显是错的,每一场牌局都是一次独立的试验,每一场输赢的概率都不变,前面的结果不影响后面的情况。
是不是大数定律失效了呢? 明显不是,大数定律说的是,样本数据量足够大。

正态分布

若随机变量X服从一个数学期望为\mu,标准方差为\sigma^2的高斯分布,记为:X~N(\mu,\sigma^2)
概率密度公式为:f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
标准正态分布是\mu=0,\sigma=1的正态分布。
我们在计算概率的时候一般会使用z变换将正态分布转化为标准正态分布来计算。
注意:

上一篇下一篇

猜你喜欢

热点阅读