AI数学基础15——Bias（偏差） and Variance（

2018-05-23 本文已影响27人 LabVIEW_Python

在讨论预测模型时，预测误差（ Prediction errors）可以分为三类：

1，由Bias导致的误差error due to "bias"

2，由Variance导致的误差error due to "variance"

3，由Noise导致的误差error due to "Noise"

所以：Error = bias + variance + noise. 下面我们主要讨论Bias和Variance

Bias（偏差）和Variance（方差）的定义与区别，如下图所示

由Bias导致的误差：当数据足够，模型不够逼近或表达数据规律时，模型的预测值会偏离正确值很远，预测准确率很低，这种现象叫欠拟合（under-fitting）。简单来说，模型不对，就一定会出现偏差（Bias）。Bias衡量模型拟合训练数据规律的能力。

当Bias比较高，甚至无法拟合训练集，那么就要重新选择一个新的网络，比如有更多的隐藏层或者隐藏单元。

由Variance导致的误差：方差（Variance）体现模型泛化能力(Generalization)。若一个模型对训练数据有效，对测试数据无效，则说明该模型泛化能力差，或者说，由Variance导致的误差大，也表明该模型对训练数据过拟合（over-fitting）。Variance越小，模型的泛化能力越高，对新的具备同样分布规律的数据预测效果越好。

当Variance比较高，最好的解决办法就是采用更多的数据；若不能获得更多的数据，可以通过正则化（Regularization）来减少过拟合。

模型的复杂度、Bias、Variance和Error的关系，可见下图：

如图所示，一个最佳的模型，其复杂度适中，其Variance和Bias都比较平衡，导致总体Error最小。

每个分类器都有一个最小的Error Rate，这个最小的，或者叫最优化的Error Rate叫Bayes Error Rate。模型的Error rate 接近 Bayes Error Rate，我们就认为该模型的Error Rate合格了，或者接近最优了。

参考文献

《Understanding the Bias-Variance Tradeoff》

《Bias–variance tradeoff》

AI数学基础15——Bias（偏差） and Variance（

猜你喜欢

热点阅读