Datawhale统计学一周集训——任务一
学习内容
学习内容(一)
可汗学院统计学12-26集,统计学基础知识、二项分布及泊松分布
学习内容(二)
可汗学院统计学27-34集,大数定理、正态分布
其他资料
《深入浅出统计学》《商务与经济统计》
学习笔记(一)
样本和总体
总体:研究对象的全部。
样本:研究中实际观测或调查的一部分个体。
统计推断的目的是要从样本含有的信息中提取总体的信息。
样本均值:
样本方差:
为什么样本方差的分母是n-1?
比较通俗的解释:
因为所得到的样本均值不等于总体均值,导致样本方差在计算的时候偏小,这时候通过减小分母量来使修正样本偏差。
严肃的解释:
由均值的计算公式知:一旦计算平均值,n个变量就是不再独立了,都与均值产生了联系,也就是说在n个随机变量Xi 中只要知道了其中的任意n-1个及均值,就能求出另外一个,故能自由地取值的随机变量只有n-1个。所以在用均值计算方差时,能自由变化的随机变量只有n-1个,所以方差要除是n-1。
参考:CSDN博客
知乎
设计样本:确定目标总体,确定抽样单位,确定抽样空间。
无偏样本:该样本与总体样本具有相似特性,利用相似特性对总体本身做出判断。一个无偏样本的分布形状与作为其来源的总体的分布形状相似。
几何分布
假设成功一次的概率为p,几何分布是关于成功一次所需要试验的次数的概率分布。
指第r次成功,前r-1次都失败的概率。
期望:成功一次所需要的期望次数,
方差:
ps:方差的一般计算公式:
二项分布
说起二项分布,先说一下伯努利试验,也就是n次独立重复试验。
伯努利试验特点:
- 每次试验中事件只有两种结果。
- 每次试验中事件发生的概率相同。
- n次试验的事件相互之间独立。
概率公式: (p为单次试验成功的概率,p为单次试验失败的概率)
上诉公式表示:在n次试验中,成功r次的概率。
期望:
方差:
举一个例子来说明:
假设小明投篮成功的概率为0.3,共投了10次。
投篮只有投中或者不中,每次投中的概率不变为0.3,前一次投篮不影响后一次投篮,符合伯努利试验条件。
小明投中的次数符合二项分布。
期望:E(X) = 10 * 0.3 = 3
方差:Var(X) = 10 * 0.3*0.7 = 2.1
泊松分布
泊松分布由二项分布推导而来。
泊松过程:把单位时间分为无限份,每一份的概率为
,随机变量X符合二项分布,可由二项分布公式推导出泊松分布公式。
详情见:CSDN博客
泊松分布适用于描述单位时间内随机事件发生的次数。
以视频上的例子来说明:
假如你是一名交通工程师,想知道任意时刻通过街上某一点的车辆数,确定某一个小时内100辆车通过的概率。
假设:
- 街上车流量任意情况没有差异。(虽然真实情况存在某些时候车流量大,但这里简化处理)
- 一段时间的车流量对另一段时间的车流量没有影响。
首先定义一个随机变量X,表示一个小时内通过的车辆数,然后通过求出随机变量的概率分布,这样就能求出某一个小时内通过100辆车的概率。
泊松分布的均值和方差均为.
泊松分布理解
学习笔记(二)
大数定律
大数定律:当我们的样本数据量足够大的时候,我们就可以用样本的平均值来估计总体平均值。
用Python实现大数定律过程
numberSize = 1000
randData = np.random.normal(loc=10,scale=50,size=numberSize) #loc为正态分布的均值,scale为标准差,size为输出的值
randData_average = [] # 当使用 np.random.rand(size)是标准的正态分布
sum_rand = 0
for i in range(len(randData)):
sum_rand += randData[i]
randData_average.append(sum_rand/(i+1))
x = np.arange(0,numberSize,1)
y = randData_average
plt.plot(x,y)
plt.plot([0,numberSize],[10,10],'r')
大数定律
从图中可以发现:当迭代次数逐渐增大的时候,样本的均值接近期望值10.
参考:大数定律
赌徒谬论
上次我在看别人打牌的时候,有个人输了蛮多钱,就说,后面一定会赢钱,前面都输了这么多了。这一点很明显是错的,每一场牌局都是一次独立的试验,每一场输赢的概率都不变,前面的结果不影响后面的情况。
是不是大数定律失效了呢? 明显不是,大数定律说的是,样本数据量足够大。
正态分布
若随机变量X服从一个数学期望为,标准方差为的高斯分布,记为:X~
概率密度公式为:
标准正态分布是=0,=1的正态分布。
我们在计算概率的时候一般会使用z变换将正态分布转化为标准正态分布来计算。
注意:
- 68.27%的面积在平均值左右一个标准差内
- 95.45%的面积在平均值左右两个标准差内
- 99.73%的面积在平均值左右三个标准差内