PAC概率近似正确学习模型

2021-02-05  本文已影响0人  闪电侠悟空

一个upper bound的推导和理解

有了精度参数\epsilon, 我们就可以定义失败的假设 L_{(D,f)}(h_S)>\epsilon. 我们有m个训练样本(x_1,...,x_m),是通过采样产生的,组成了样本集合S。不同人/时间,采样的结果是不一样的,就有不同的样本集合,比如有S_1, S_2, ...,S_N. 这些样本集合有多大概率产生失败的predictor呢?记训练实例集为S|x=(x_1,...,x_m). 我们关心的是下面概率的上界。

D^m(\{S|x:L_{(D,f)}(h_S)>\epsilon\}) #m-组实例采样中 导致失败预测器的 概率。

怎么算这个上界 upper bound?

  1. 引入bad hypothesis set的集合
    \mathcal{H}_B =\{h\in \mathcal{H}:L_{(D,f)}(h)>\epsilon\}.
  2. 从bad hypothesis出发,定义数据误导集
    M=\{S|x:\exists h \in \mathcal{H}_B,L_S(h)=0 \}
    也就是误导集是依赖bad hypothesis的,不同的h_B会有不同的误导集,整个误导集是所有bad hypothesis的并集。
  3. 回到关注的问题中的集合\{S|x:L_{(D,f)}(h_S)>\epsilon\}, 这个集合等价于:
    \{S|x:L_{(D,f)}(h)>\epsilon,L_S(h)=0\},继续等价于:
    \{S|x:h \in \mathcal{H}_B,L_S(h)=0\},子集关系就出来了:
    \{S|x:L_{(D,f)}(h_S)>\epsilon\}\subseteq M, 这个集合只是误导集的子集而已。
  4. 概率不等关系也就出来了:
    D^m(\{S|x:L_{(D,f)}(h_S)>\epsilon\})\leq D^m(M)
  5. 从第2点中可以看出M还是个并集。M = \mathop{\cup}_{h\in\mathcal{H}_B}\{S|x:L_S(h)=0\}。利用联合界的方式缩放:
    D^m(M)\leq\mathop{\Sigma}_{h\in\mathcal{H}_B} D^m(\{S|x:L_S(h)=0\}).
  6. 固定某个"bad"假设,展开:
    D^m(\{S|x:L_S(h)=0\})=D^m(\{S|x:\forall i, h(x_i)=f(x_i)\})=\mathop{\Pi}_{i=1}^m D(\{x_i: h(x_i)=f(x_i)\})
  7. 对于每个sample, D(\{x_i: h(x_i)=f(x_i)\})=1-L_{(D,f)}(h)\leq 1-\epsilon\leq e^{-\epsilon}, 注意第6步中使用的bad hypothesis, 所以不等式成立。
  8. 所以整个的上界upper bound
    D^m(\{S|x:L_{(D,f)}(h_S)>\epsilon\})\leq |\mathcal{H}|e^{-\epsilon m}
    说明:

推论2.3

假设 m\geq \frac{log(|\mathcal{H}|/\delta)}{\epsilon}

D^m(\{S|x:L_{(D,f)}(h_S)>\epsilon\})\leq |\mathcal{H}|e^{-\epsilon m}\leq \delta

说明:在m足够大的时候,在独立同分布的样本集S上,最少以1-\delta的大概率保证h_S有效,即 L_{(D,f)}(h_S)\leq \epsilon.

上一篇下一篇

猜你喜欢

热点阅读