自然语言处理——2.数学基础

2018-09-26 本文已影响38人 SpareNoEfforts

概率论基础

概率(probability)

概率亦称“或然率”。它反映随机事件出现的可能性大小的量度。随机事件是指在相同条件下，可能出现也可能不出现的事件。

最大似然估计(maximum likelihood estimation)

条件概率(conditional probability)

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为：P（A|B），读作“在B的条件下A的概率”。

全概率公式(full probability)

公式表示若事件A1，A2，…，An构成一个完备事件组且都有正概率，则对任意一个事件B都有公式成立。

贝叶斯决策理论(Bayesian decision theory)

贝叶斯决策理论方法是统计模型决策中的一个基本方法，其基本思想是：
★已知类条件概率密度参数表达式和先验概率
★利用贝叶斯公式转换成后验概率
★根据后验概率大小进行决策分类

假设研究的分类问题有 $c$ 个类别，各类别的状态用 ${w_i}$ 表示， $i = 1,2...,c$ ；对应于各个类别 ${w_i}$ 出现的先验概率为 $P({w_i})$ ；在特征空间已观察到某一向量 $\overline x = {[{x_1},{x_2},...,{x_d}]^T}$ 是 $d$ 维空间上的某一点，且条件概率密度函数 $p(\overline x |{w_i})$ 是已知的。那么，利用贝叶斯公式我们可以得到后验概率。

$p({w_i}|\overline x ) = \frac{{p(\overline x |{w_i})p({w_i})}}{{\sum\limits_{j = 1}^c {p(\overline x |{w_j})p({w_j})} }}$

贝叶斯法则(Bayes’ theorem)

所谓贝叶斯法则，是指当分析样本大到接近总体数时，样本中事件发生的概率将接近于总体中事件发生的概率。

二项式分布(binomial distribution)

二项分布就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关，事件发生与否的概率在每一次独立试验中都保持不变，则这一系列试验总称为n重伯努利实验，当试验次数为1时，二项分布服从0-1分布。

期望(expectation)

在概率论和统计学中，数学期望(mean)（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。它反映随机变量平均取值的大小。

方差(variance)

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。
$Var(X) = E({(X - E(X))^2}{\rm{ = E(}}{{\rm{X}}^{\rm{2}}}{\rm{) - }}{{\rm{E}}^{\rm{2}}}{\rm{(X)}}$

信息论基础

如果X 是一个离散型随机变量，其概率分布为： ${\rm{p(x) = P(X = x),x}} \in {\rm{X}}$ 。 $X$ 的熵 $H(X)$ 为：

${\rm{H(X) = - }}\sum\limits_{x \in X} {p(x){{\log }_2}p(x)}$

其中，约定 $0log 0 = 0$ 。
$H(X)$ 也可以写为 $H(p)$ 。通常熵的单位为二进制位比特(bit)。

熵又称为自信息(self-information)，表示信源X 每发一个符号(不论发什么符号)所提供的平均信息量。熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大，它的不确定性越大。那么，正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。

联合熵

如果 $X, Y$ 是一对离散型随机变量 $X, Y$ ~ $p(x, y)$ ， $X, Y$ 的联合熵 $H(X, Y)$ 为：
$H(X,Y) = - \sum\limits_{x \in X} {\sum\limits_{y \in Y} {p(x,y){{\log }_2}p(x,y)} }$
联合熵实际上就是描述一对随机变量平均所需要的信息量。

条件熵

给定随机变量 $X$ 的情况下，随机变量 $Y$ 的条件熵定义为：

连锁规则 如下连锁规则
熵率

一般地，对于一条长度为 $n$ 的信息，每一个字符或字的熵为：
${H_{rate}} = \frac{1}{n}H({X_{1n}}) = - \frac{1}{n}\sum\limits_{{x_{1n}}} {p({x_{1n}})\log } p({x_{1n}})$
这个数值我们也称为熵率(entropy rate)。其中，变量 $X_1n$ 表示随机变量序列 $(X_1,...X_n)$ , $x_1n=(x_1,...,x_n)$ 表示随机变量的具体取值。
有时将 $x_1n$ 写成： $x_1^n$

相对熵(relative entropy, 或称Kullback-Leiblerdivergence, KL 距离)

两个概率分布 $p(x)$ 和 $q(x)$ 的相对熵定义为：
$D(p||q) = \sum\limits_{x \in X} {p(x)} \log \frac{{p(x)}}{{q(x)}}$
该定义中约定 $0 log (0/q) = 0$ , $p log (p/0) = \infty$ 。

相对熵常被用以衡量两个随机分布的差距。当两个随机分布相同时，其相对熵为0。当两个随机分布的差别增加时，其相对熵也增加。

交叉熵(cross entropy)

如果一个随机变量 $X$ ~ $p(x)$ ， $q(x)$ 为用于近似 $p(x)$ 的概率分布，那么，随机变量 $X$ 和模型 $q$ 之间的交叉熵定义为：

$H(X,q) = H(X) + D(p||q) = - \sum\limits_x {p(x)\log q(x)}$

交叉熵的概念用以衡量估计模型与真实概率分布之间的差异。

困惑度(perplexity)

在设计语言模型时，我们通常用困惑度来代替交叉熵衡量语言模型的好坏。给定语言 $L$ 的样本
$l_1^n = {l_1}...{l_n}$ ， $L$ 的困惑度 $PP_q$ 定义为：
$P{P_q} = {2^{H(L,q)}} \approx {2^{ - \frac{1}{n}\log q(l_1^n)}} = {[q(l_1^n)]^{ - \frac{1}{n}}}$
语言模型设计的任务就是寻找困惑度最小的模型，使其最接近真实的语言。