机器为什么能够学习?
本系列是台湾大学资讯工程系林軒田(Hsuan-Tien Lin)教授开设的《机器学习基石》课程的梳理。重在梳理,而非详细的笔记,因此可能会略去一些细节。
该课程共16讲,分为4个部分:
- 机器什么时候能够学习?(When Can Machines Learn?)
- 机器为什么能够学习?(Why Can Machines Learn?)
- 机器怎样学习?(How Can Machines Learn?)
- 机器怎样可以学得更好?(How Can Machines Learn Better?)
本文是第2部分,对应原课程中的4-8讲。
本部分的主要内容:
- 用案例引出学习可行性的疑问;
- 详细介绍VC维理论,它给出了机器学习的可靠性保证;
- 介绍误差的度量,以及对误差权重不同的情况的处理方法。
1 学习可行性的疑问
先来一个小学奥数题/公务员考试题:
其实这个题没有标准答案,以下两种解答都是对的:
- 对称为,非对称为,因此答案是;
- 最左上角的格子白色为,黑色为,因此答案是;
因此,选择不同的规则,你会获得不同的答案。那么,如果给你一些历史数据,机器学习出某种规则,是否也会遇到这样的情况呢?
2 机器学习的可靠性保证
2.1 Hoeffding不等式
来看另一个问题:有一个罐子,里面装有许许多多黄色和绿色的小球,该如何估计黄球的比例?
很简单,抽样就行了。抽出一部分样本,计算得到样本中的黄球比例,用这个比例作为罐子中的黄球比例的估计即可。这样的估计准不准呢?在统计学中,有Hoeffding不等式给出准确率的界限:
其中为抽样的样本个数。这个式子的意思是,和相差较远的概率会有一个上限,在大样本下,这个上限会比较小,因此可以叫做概率近似正确(PAC,probably approximately correct)。
2.2 机器学习中的Hoeffding不等式
现在将这个过程类比到机器学习中。罐子中的小球对应于中的单个数据,给定假设集中的一个假设,罐子中黄球的比例就对应于中使得的的比例。现在抽取出一部分样本,这个样本对应于现有的数据集,我们可以很容易地知道对中每一个数据是否有,若相等,对应的小球为黄色,反之为绿色。我们的目的,是要知道在整个中满足的的比例有多少。
若足够大,且为i.i.d.,对于某个固定的来说,就可以用已知的去推断,从而判断该的表现如何,如下图:
根据Hoeffding不等式,就是
如果和足够接近,并且足够小,这就能保证足够小,也就能判断出对于抽样过程,有。
但是,这只能用来判断某个是否足够好。如果现在是用算法从假设集中选出一个,再套用上面的不等式,就会有问题。试想一下,假设有150个人,每人丢5次硬币,就有超过99%的概率会出现有某个丢5次硬币都是正面的人,这能说明他的丢硬币技术比其他人高吗?如果选择他作为我们的“”,能保证他以后再去丢硬币,得到正面的概率也比其他人更大吗?
同理,如果是从中选出一个在样本内误差最小的,能保证它在外也是更好的吗?想要得到这样的保证,还需对不等式做一些修正。
对每个,都可能会有一些,使得在它上面的和真正的相差很大,把这种称作“坏的”,Hoeffding不等式本质上是保证抽到坏的的概率有一个上限。记,即共有个,我们想要保证的是不管最后选出了哪个,是“坏的”的概率都有较小的上限,因此,要计算的应该是对至少一个来说是“坏的”的概率:
这才是选出来的的和距离的上限。但在上面的过程中,因为对事件的并集直接用了加的运算,这个上限被放得太大了,由于不同的对应的“坏的”很可能有很大重叠,因此真实的上限应该要小得多。如图:
另外,如果是有限的,根据上式,我们还是可以通过增大来保证和足够接近,但如果是无限的呢?如在PLA中,系数的取值就可以是无限多个,因此PLA的是无穷大的。
2.3 VC维
为无穷大时,还是有办法的。尽管PLA的是无穷大,但其实,我们可以对它的中的元素进行分类,只要样本个数是有限的,它的类别就是有限的。比如在只有一个样本的情况中,二维PLA的中的元素(就是二维平面上的所有直线)可以简单分为两类,一类是把该样本点分为正的,一类是把该样本点分为负的:
而在两个样本的情况中,中的元素可以分为4类:
三个样本时可分为8类:
但若3个点共线,那么只有6类:
而当有4个样本时,中的元素最多只能分成14类:
这说明,在PLA中,有个样本时,有效的会小于等于。
接下来,引入几个概念:
- 二分(Dichotomies):对个样本,每个样本都有正负两种可能,将所有样本组成的每一种可能称为一个dichotomy,dichotomies的集合可记为,显然,集合中元素个数的上限是;
- 成长函数(Growth Function):定义成长函数,它的上限是,对于大多数模型(如二维感知机)的来说,比小,仅为多项式大小;
- 打散(Shatter):如果可以完全实现个样本的种dichotomies,则称个点可被打散;
- 突破点(Break Point):若个点无论如何也无法被打散,则称为的break point,根据定义,所有比大的整数也都会成为break points,对于二维感知机来说,从4开始就是它的break point。
接下来就是要找到,break point和的关系。
我们继续引入界限函数(Bounding Function)的概念:,它是当最小的break point为时的最大可能。那么,该如何计算它或者它的上限?
首先,当时,表示任意两个点都不能被打散,因此当时有,即最多能列举出3种dichotomies(4种就是这两个点被打散了),当时有(穷举法可知)。而当时,由于任何一个点都不能被打散,因此只能有一种dichotomy,即。另外,如果,由于小于个样本点都能被打散,因此会有。而如果,那么只需在个被打散的点中拿掉一种dichotomy,就能满足这个点不被打散的概念了,因此有。
到目前为止,在下面这张函数表中还有一部分没有计算:
不妨先来看该如何计算。如果用穷举法,可以得出:
观察这11种dichotomies发现,它们可以分成两组,其中一组的前3个点是有重复的,它们成为不同的dichotomies仅仅是因为不同,而另一组的前3个点没有重复。
如果把前3个点有重复的8种dichotomies记为(只看前3个点就是种),后3种记为,那么就有。而其实,无非就是比多了一个点,假设现在把最后一个点去掉,那么前3个点只可能有种dichotomies(因为第一组种是前面3个点各重复两次,因此需要剔除一半),由于中任意3个点都不能被打散,因此前3个点也必须不能被打散,所以有。
另一方面,由于组中的4个点中,任意3个点都不能被打散,而第4个点是在每一组前3个点固定的情况下取正/负,因此前3个点中的任意2个点都不能被打散(否则在加入第4个点后就会有3个点被打散)。因此,必须要保证。
由此可知,,以此类推,有,最终结果如图:
用数学归纳法即可证明:,具体过程在此略过。事实上,可以证明得,具体的数学过程较复杂,课程中也略过了。该式说明,中成长最快的一项最多就是的成长速度。
由的定义,只要break point 存在,那么的上限就是,也因此,中成长最快的一项最多就是的成长速度。
在有了后,想用它取代,还需要做一些处理,具体在此略过。最后可以得到的是Vapnik-Chervonenkis(VC) bound:
定义VC维(VC dimension)为满足的最大的,也即能打散的最大的点的个数,或最小的break point减1。当且时,有。
对于维感知机模型来说,有(证明略)。只要是有限的,就可以完成泛化。就相当于是的powerfulness。
2.4 VC Bound与模型复杂度惩罚
对于,如果在统计上足够大,有
不等式左侧表示“坏的”的几率。若将不等式右边记为,可将反表示为,就代表了对模型复杂度的惩罚。
可以看出,至少有的概率,能满足
和error的关系如下图:
要找到最优的,才能使error最小。
VC Bound只是一个非常宽松的理论界限。比如设定,,,那么根据前式,可得到,但在实践中,往往只需要的数据量就够了。
2.5 有噪声时的VC Bound
如果标签被打错了,或是同一个人被打了不同标签,又或是的信息不准确,都会引入噪声。在有噪声时,VC Bound依旧有效吗?
回到之前小球的例子,之前的小球,每个小球的颜色都是确定的,这种情况叫做是“deterministic”的,在有噪声的情况中,可以认为每个小球的颜色服从某种概率,即,这叫做是“probabilistic”的。可以证明如果,那么VC理论依旧是有效的。
有噪声时,学习的目标是在常见的样本上,学习。新的学习流程如下:
VC理论依旧有效,pocket算法就是个很好的例子。
3 误差度量
在这里介绍一种逐点的误差度量(pointwise error measure),可以表达成,可记为,可记为y。
有两种比较重要的pointwise error measure:
- ,这一般用在分类问题中;
- ,这一般用在回归问题中。
在有了误差度量后,学习流程如下:
在分类问题中,错误可分为两类,如下图所示:
根据这两类错误的重要性不同,可以对它们赋予不同的权重。因此,不同的应用可以有不同的。在算法中考虑误差度量时(记用在算法中的错误度量为),最好的情况当然是直接令,但这可能会导致很难计算,比如会带来NP-hard问题等,一般来说,最好要设计一个对于来说能比较容易进行最优化的,最好要有闭式解(closed-form solution)或有凸的目标函数。
在中加入误差度量的设计后,学习流程如下:
对于两类错误权重不同的情况,可以用“virtual copying”的策略去学习。以pocket算法为例,假设false reject错误的权重为1,false accept错误的权重为1000,在计算时不必真的对每个样本点赋予权重,可以“虚拟地”将的点复制1000份。在实践中,也不必真的复制,可以在随机选择样本点时,让算法随机选出的点的概率增大1000倍即可。