机器学习相关数学概念

2018-07-08 本文已影响0人 Moscow1147

Positano 波西塔诺

极大似然估计

已知观察样本 $\{X_1, X_2, \cdots, X_n\}$ ，已知概率分布模型，估计概率分布模型中的参数，使得产生这个观察样本的可能性最大。

概率质量函数

概率质量函数 (Probability Mass Function) PMF 是离散随机变量在各特定取值上的概率: $f_X(x)$ ,代表随机变量 $X=x$ 时的概率。

累积分布函数

累积分布函数又称分布函数 (Camulative Distribution Function) CDF 。 $F(x) = P\{X \leq x\}$ 表示为随机变量小于等于某个值得概率，这个表达式称之为 $X$ 的分布函数。

概率密度函数

概率密度函数 PDF 在 $(-\infty , x]$ 上的积分其实就是分布函数 $F(x)$ 的值。X 为连续随机变量。

伯努利分布

伯努利分布又称为两点分布或者 0-1 分布。伯努利实验是只有两种可能的单次随机试验。分布律为 $P\{X=x\}= p^x(1-p)^{1-x}$

二项分布

Binomial Distribution 是 n 重伯努利分布实验成功次数的离散概率分布，记为 $X{\sim}B(n, p)$ 。

多项式分布

多项式分布 Multinomial Distribution 是二项分布的推广。一次实验可能产生 m 个结果，m 个结果发生的概率对立(和为1)，则发生其中一个结果 X 次的概率就是多项式分布。

逻辑斯蒂分布

Logistic Distribution

先验概率

先验概率就是事情尚未发生之前，我们对事件的概率的估计。利用过去历史资料计算的得来的先验概率称之为客观先验概率；当历史资料无从取得或不完全取得时，凭借人们的主观经验判断而得到的概率称之为主管先验概率。

后验概率

通过调查或其他方式获取新的附加消息，利用贝叶斯公式对先验概率进行修正而到的概率。这是在考虑了一个事实之后的条件概率。

似然函数

似然函数是一种统计模型参数 $\theta$ 的函数，反应的是样本发生的概率。数学表达式为 $L(\theta) = L(x_1, x_2, ..., x_n ; \theta_1, \theta_2, \cdots, \theta_n)$ 。参数 $\theta$ 不同，事件 A 发生的概率 $P(A\mid\theta)$ 也不同。在离散随机变量上 $L(\theta) = L(x_1, x_2, \cdots, x_n;\theta) = \prod_{i=1}^nP(x_i;\theta)$ 。对似然函数取对数即为对数似然函数。

极大似然估计法原理就是固定样本观测值 $(x_1,x_2,\cdots,x_n)$ 挑选参数 $\theta$ ，使 $L(x_1,x_2,\cdots,x_n;\hat{\theta})=maxL(x_1,x_2,\cdots,x_n;\theta)$ 。在误差服从正态分布的前提下，最小二乘法与极大似然估计思想本质上是相同的。

条件概率

事件 A 在另外一个事件 B 已发生情况下的概率 $P(A\mid B)$ 。

方向导数

方向导数可以理解为对某一维的偏导的左右两个导数。

梯度

所有方向导数中只存在一个最大值(一个面过一点的切平面只有一个，过这一点的所有切线方向都会在这个切平面上)。梯度是一个向量，梯度的方向是此点方向导数取得最大值时的方向，梯度的值是方向导数的最大值。对每一个点 $(x_0,y_0)$ 可以定义出一个向量 $f_x(x_0,y_0)\vec{i} + f_y(x_0,y_0)\vec{j}$ 为P点的梯度 $\Delta{f(x_0,y_0)}$ 。

几率

几率(odds) 指事件发生与不发生的概率比值。若发生的概率为 p , $odds = \frac{p}{1-p}$ .

对数几率 (log odds 或 logit) $logit(p) = log\frac{p}{1-p}$ .