概率

机器学习数学基础(二)概率论(上)

2018-01-09  本文已影响31人  xhades

目录


1. 概率论基础

1.1 概率论基本概念

1.1.1 什么是概率

表示事件发生可能大小的一个量叫做概率

1.1.2 概率公式
(1)条件概率公式

P(A|B)称为事件B发生的情况下A发生的概率,计算公式如下:

通常,条件概率P(A|B)和无条件概率P(A)是不同的。

(2)全概率公式
图片来自《概率论与数理统计(浙大 第四版)》
在很多实际问题中,往往不易直接求出概率P(A),但却容易找到S的一个划分B1,B2,...,Bn,且BiP(A|Bi)为已知,则根据全概率公式很容易求出P(A)
(3)贝叶斯公式

根据前面条件概率公式全概率公式可以推导出贝叶斯公式,如下:

贝叶斯公式
在这里,P(Bi)B的先验概率,之所以称为“先验”,是因为不需要考虑任何A方面的因素。

1.2 常见概率分布

1.2.1 0-1分布

0-1分布是经常遇到的一种分布,定义如下:

图片来自《概率论与数理统计(浙大 第四版)》
并且:
期望 E(X) = 1p + 0(1-p) = p
方差 D(X) = E(X^2) - [E(X)]^2 = pq
1.2.2 二项分布

设实验E只有两个可能结果A和B,则称E为伯努利(Bernoulli)实验,设P(A)=p(0<p<1),此时P(B)=1-p,将E独立重复的执行n次,则称这一串的重复实验为n重伯努利实验

伯努利实验的特点:

二项分布即重复n次的伯努利实验,每次实验结果为A的概率是p,结果为B的概率是q(其中q=1-p),则在n次实验中有k次为A,n-k次结果为B的概率为:


即有
显然
观察下面这个表达式
发现刚好是(p+q)^n 的展开式中出现p^k的那一项,我们称随机变量X服从参数为n,p的二项分布,并记为X~b(n,p)。

当n=1时,二项分布就是(0-1)分布

期望E(X)为



方差D(X)为


1.2.3 泊松分布

泊松分布适合描述单位时间(空间)内随机事件的发生次数,例如,一本书一页中的印刷错误数、某地区一个时间间隔内发生交通事故的次数等。


图片来自《概率论与数理统计(浙大 第四版)》 泊松分布期望

在总结以下几个概率分布前,先解释一下连续型随机变量

一般,如果对于随机变量X的分布函数F(x),存在非负函数f(x),使对于任意实数x有


则称X连续性随机变量,其中函数f(x)称为X概率密度函数,简称概率密度

实际应用中遇到的基本上是离散型或者连续性随机变量,本文也只讨论这两种随机变量。

概率密度函数有以下几个特点:

下面总结一下三种重要的连续型随机变量的概率密度。

1.2.4 均匀分布

若连续型随机变量X具有概率密度


则称X在区间(a,b)上服从均匀分布,记为X~U(a,b)

很容易推导出X的分布函数为

1.2.5 指数分布

若连续型随机变量X概率密度为


其中,θ>0为常数,则称X服从参数为θ的指数分布
1.2.6 正态分布

若连续型随机变量X的概率密度为


其中μ,σ(σ>0)为常数,则称X服从参数为μ,σ的正态分布或高斯分布(Gauss),记为X~N(μ,σ^2)
1.2.7 Beta分布

暂时省去500字

2.统计量

2.1 独立和不相关

给定A,B两个事件,如果满足等式
P(AB) = P(A)P(B)
则称事件A,B相互独立,简称A,B独立

其中:
独立一定不相关;
不相关不一定独立;
实际上不相关就是两者没有线性关系,但是不排除存在其他关系的可能性,而独立就是不存在任何关系。

2.2 期望

2.2.1 定义
2.2.2 性质

2.2 方差

2.2.1 定义

X是一个随机变量,若E{[X-E(X)]^2}存在,则称E{ [X-E(X)]^2 }是X方差,记做D(X)或者Var(x),即
D(X)=Var(x)=E{[X-E(X)]^2}

2.2.2 性质

2.3 协方差

2.3.1 定义

E{[X-E(X)][Y-E(Y)]}称为随机变量XY协方差,记为Cov(X,Y)

协方差是两个变量是否具有相同变化趋势的度量:

2.3.2 性质


称为随机变量XY相关系数

参考资料:
[1] 《概率论与数理统计(浙大 第四版)》

上一篇 下一篇

猜你喜欢

热点阅读