偏差(Bias)、方差(Variance)、噪声、泛化误差

2021-06-30  本文已影响0人  南朝容止

聊到这几个概念,一般人如果不认真看,还真容易搞混。看上去貌似很高大的术语,其实理解后很简单。接下来,咱们就看下。

偏差

是指在同一份数据集上,训练一个模型,模型的预测值和r人工标注值(注意人工标注值并非Ground Truth,人工会有失误,错误)之间的差距。

方差

多个大小规模一样的不同数据集,训练多个不同的模型,每个模型都会有一个预测值,然后算不同预测值的方差。
这里请注意:
方差是衡量不同模型预测结果的一致性,也就是模型的稳定性,如果在不同训练集上,训练出来的多个模型,大家高度一致,那么方差就小,否则方差大。方差小,也说明了,模型在未知数据上的泛化能力强. 当在一份数据上训练模型时,其他训练数据,可能看成验证集,其他数据训练的模型和当前这份高度一致,不就是说明了训练集和验证集指标一样,没有过拟合,泛化能力强

噪声

噪声是指标注的错误,为Ground Truth与数据集中的实际标记间的偏差

泛化误差

image.png

理解

这几个指标很好理解,结合下面这张图:


image.png

结论

方差是体现的未知数据的泛化能力。
偏差是体现的当前训练数据上的 拟合能力。
泛化误差 模型的综合能力。 兼顾 当前数据和未知数据的 综合能力。

<==============================================>

问题

Boosting/Bagging 与 偏差/方差 的关系?

上一篇 下一篇

猜你喜欢

热点阅读