机器学习相关学习笔记

2. 错误与噪音

2018-04-02  本文已影响5人  edwin1993

在真实数据中,错误与噪音是不可避免的,对于这些问题的处理也同样非常重要。

错误评估

为了衡量模型的总体效果,我们统计总体错误,而总体误差的评估依据是每个数据点处所得到的误差情况。

image.png
选择误差函数

以指纹识别为例进行说明:


f f
+1 -1
h +1 no error 错误接受
h -1 错误拒绝 no error

误差在不同的应用领域会带来不同的代价。

那么此时误差惩罚的权重应该对拒绝误差加重。

+1 -1
+1 0 1
-1 10 0

那么此时误差惩罚的权重应该对接受误差加重。

+1 -1
+1 0 1000
-1 1 0
噪音数据

因为种种原因,我们所获得的数据不可能是纯净的,比如:
x1 = x2 但 y1 != y2
所以很多时候我们不直接使用 y = f(x) 而是使用p(y|x)

学习总结

学习过程中,下图中的上式是我们所知道的,下式是我们所需要求解出的。上式给了我们的模型泛化的能力,当我们所最终确定的函数g在样本中的误差Ein较小时,因为Eout≈Ein,那么就可以得到一个Eout ≈ 0的结果。


所以,学习问题被分为了两个部分:


image.png

以上两点无法同时满足,需要一些调和。


image.png
上一篇下一篇

猜你喜欢

热点阅读