分析101

Hoeffding不等式简介

2021-06-14  本文已影响0人  Boye0212

1 Hoeffding不等式

Hoeffding不等式是非常有用的一个不等式,在机器学习、统计学等领域,都发挥着巨大的作用。

它的思想与Markov不等式有些类似,我们先给出它的形式:

Hoeffding不等式Y_1,\ldots,Y_n为独立观测,E(Y_i)=0a_i\leq Y_i\leq b_i。对于\epsilon\gt 0\forall t \gt 0,有
P(\sum_{i=1}^{n} Y_i \geq \epsilon) \leq e^{-t\epsilon} \prod_{i=1}^{n} e^{t^2 (b_i-a_i)^2/8}

2 证明

首先,\forall t\gt 0,利用Markov不等式,我们有
\begin{aligned} &P\left(\sum_{i=1}^{n} Y_i \geq \epsilon\right)\\ = & P\left(e^{t\sum_{i=1}^{n} Y_i} \geq e^{t\epsilon}\right)\\ \leq & e^{-t\epsilon} E\left(e^{t\sum_{i=1}^{n} Y_i} \right)\\ = & e^{-t\epsilon} \prod_{i=1}^{n} E\left(e^{t Y_i} \right) \end{aligned}

而又由于a_i\leq Y_i\leq b_i,我们可将Y_i表示为Y_i=\alpha b_i+(1-\alpha)a_i,其中\alpha=\dfrac{Y_i-a_i}{b_i-a_i},利用Jensen不等式以及指数函数的凸性,有
e^{tY}\leq \dfrac{Y_i-a_i}{b_i-a_i} e^{tb_i} + \dfrac{b_i-Y_i}{b_i-a_i} e^{ta_i}

两边取期望后,再构造一个函数g(u),可得
E\left(e^{tY}\right) \leq -\dfrac{a_i}{b_i-a_i} e^{tb_i} + \dfrac{b_i}{b_i-a_i} e^{ta_i} = e^{g(u)}

其中u=t(b_i-a_i)g(u)=-\gamma u+\log(1-\gamma+\gamma e^u)\gamma=-\dfrac{a_i}{b_i-a_i}

我们可知g(0)=g'(0)=0,并且\forall u\gt 0,有g''(u)\leq 1/4

现在,我们需要用到Taylor定理:若g为光滑函数,则\exists \xi\in(0,u),使得g(u)=g(0)+g'(0)u+\dfrac{1}{2}g''(\xi) u^2。利用Taylor定理,必定\exists \xi\in (0,u),使得
\begin{aligned} &g(u)\\ =& g(0)+g'(0)u+\dfrac{1}{2}g''(\xi) u^2\\ =& \dfrac{1}{2}g''(\xi) u^2\\ \leq & \dfrac{u^2}{8}\\ =& \dfrac{t^2(b_i-a_i)^2}{8} \end{aligned}

代回之后,我们有
E\left(e^{tY_i}\right) \leq e^{g(u)}\leq e^{t^2(b_i-a_i)^2/8}

代回最上式,得证。

3 Bernoulli分布情形

这里我们考虑一种特殊情况:Bernoulli分布。由于Bernoulli分布的随机变量是有界的,因此可以用Hoeffding不等式,该结论也可以看作是Hoeffding不等式的一种形式:

假设X_1,\ldots,X_n\sim \text{Bernoulli}(p),记\bar{X}_n = n^{-1}\sum_{i=1}^{n}X_i,则\forall \epsilon \gt 0,有
P(|\bar X_n - p|\gt \epsilon) \leq 2e^{-2n\epsilon^2}

证明:令Y_i=(1/n)(X_i-p),有E(Y_i)=0,且a\leq Y_i\leq b,其中a=-p/nb=(1-p)/n。直接应用Hoeffding不等式,有\forall \epsilon\gt 0\forall t \gt 0:
P(\bar{X}_n -p \geq \epsilon) = P(\sum_{i=1}^{n} Y_i \geq \epsilon) \leq e^{-t\epsilon} \prod_{i=1}^{n} e^{t^2/(8n^2)}

由于上式对于任意t \gt 0都成立,取t=4n\epsilon,得到
P(\bar{X}_n -p \geq \epsilon) \leq e^{-4n\epsilon^2} \prod_{i=1}^{n} e^{2\epsilon^2} = e^{-2n\epsilon^2}

同理,若令Y_i=(1/n)(p-X_i),则有
P(p-\bar{X}_n \geq \epsilon) =P(\bar{X}_n -p \leq -\epsilon) = e^{-2n\epsilon^2}

将两个不等式合并后,得证。

4 应用

我们来看一个简单的应用,目的是说明Hoeffding不等式的上限,可能会比如Chebyshev不等式等更紧。

假设X_1,\ldots,X_n\sim \text{Bernoulli}(p),取n=100\epsilon=0.2,使用Chebyshev不等式,我们有
P(|\bar X_n - p|\gt \epsilon) \leq \dfrac{p(1-p)/n}{\epsilon^2}\leq 0.0625

而使用第3节中的Hoeffding不等式,有
P(|\bar X_n - p|\gt \epsilon) \leq 0.00067

可以看到,Hoeffding不等式的上界要小得多。

上一篇下一篇

猜你喜欢

热点阅读