大数据中的统计学基础——Day4

2020-08-22  本文已影响0人  XaviSong

本章内容

  1. 随机变量
  2. 分布律、0-1分布、伯努利试验
  3. 二项分布、n重伯努利试验
  4. 泊松分布
  5. 分布函数(累积分布函数CDF)
  6. 概率密度函数
  7. 均匀分布
  8. 正态分布

一、随机变量

抛一颗骰子,用X记录得到的点数

将一颗硬币抛三次,用Y记录三次抛掷得到正面朝上的总数

对于明天的天气,用Z ={0:不下雨,1:下雨},记录明天是否下雨

以上的X、Y. Z都是随机变量——一个从样本空间映射到实数域的函数

定义:设随机试验的样本空间为S={e} , X=X(e)是定义在样本空间S.上的实值单值函数,称X=X(e)为随机变量。

离散与连续的区别就看能不能写出随机变量的每一个取值,是否每一个取值都有一定的概率。

二、分布律、0-1分布、伯努利试验

试验:将一颗硬币抛三次。用X记录硬币在三次抛掷中正面向上的次数。将X的所有可能取值相对应的概率算出来。

样本空间:S={HHH,HHT,HTH,THH,HTT,THT,TTH,TTT}

X所有可能的取值:0,1,2,3

P(X=0)=P{TTT}=1/8

P(X=1)=P{HTT,THT,TTH}=3/8

P(X=2)=P{HHT,HTH,THH}=3/8

P(X=3)=P{HHH}=1/8

离散型随机变量X的分布律为:

例1:从生产线上随机抽产品进行检测,设产品的次品率为p, 0<p<1 ,若查到一只次品就得停机检修,设停机时已检测到X只产品,试写出X的概率分布律。

例2:某人骑自行车从学校到火车站, 一路上要经过3个独立的交通灯,设各灯工作独立且设各灯为红灯的概率为p , 0<p<1 ,以X表示首次停车时所通过的交通灯数,求X的概率分布律。

设Ai={第i个灯为红灯},则P(Ai) = p, i = 1,2,3。Ai之间相互独立。

如果只经过一个交通灯,那么X的取值只能是0或1.分布律变为:

像这种,随机变量只能取0或1的情况(试验的可能结果只分为两种情况),我们称X服从以p为参数的(0-1)分布或两点分布

这种结果只分为两种情况的试验又称为伯努利试验。

三、二项分布与n重伯努利试验

将一个伯努利试验重复n次,就是n重伯努利试验。

举例:
二项分布:

可归纳出:

这时我们称X服从参数为n,p的二项分布。分布律为

,记为X~B(n,p)

当n= 1时,二项分布就是(0-1)分布。

举例:

某人独立射击400次,设每次命中率为0.02, 0<p<1,设命中X次

(1) 求X的概率分布律;(2) 求至少有两次次命中的概率。

不放回抽样在样本总量很大的情况下可以近似使用二项分布,当放回处理,误差影响不大。

例2:按规定,某种型号电子元件的使用寿命超过1500小时的为一级品.已知某一大批产品的一级品率为0.2,现在从中随机地抽查20只.问20只元件中恰有k只(k=0,1,..20)为一级品的概率是多少?

四、泊松分布

泊松定理:
举例:

计算机硬件公司制造某种特殊型号的微型芯片,次品率达0.1%,各芯片成为次品相互独立.求在1000只产品中至少有2只次品的概率.以X记产品中的次品数,X~b( 1000,0.001).

利用近似公式计算:

五、累积分布函数(CDF)

区别于描述离散型随机变量的分布律,使用CDF来描述连续型随机变量。CDF是更通用的描述方式,离散型与连续型都可以满足。

设X是一个随机变量,x是任意实数,函数F(x)=P{X≤x}称为X的分布函数(累积分布函数)

分布函数具有以下性质:

举例:
1、离散型随机变量:
2、连续型随机变量:

六、概率密度函数

承接上例:
概率密度函数(PDF):
概率密度函数满足以下性质:
如何理解概率密度函数:

其意义表示在任意X = x点处左右一个很小的邻域中取值的概率,这样CDF才可以用积分形式来表达。

七、均匀分布

注意:对于连续型随机变量X,X等于某个特定值的概率很小,基本可以看做是0

八、正态分布

1、性质:

特别的,当μ=0, σ2 =1时,称X服从标准正态分布,其概率密度和分布函数分布用φ(x) , φ (x)。

2、正态分布与标准正态分布的转换:
举例:
3、二项分布与正态分布的联系:

二项分布是离散情况下的正态分布。当n足够大时,可以用正态分布近似二项分布,从而避免二项分布中繁杂的计算。 若X~B(n,p),当n足够大时,有 X近似服从正态分布N(np,np(1-p))

上一篇 下一篇

猜你喜欢

热点阅读