岭回归与正则化

2024-06-25 本文已影响0人 Noza_ea8f

什么是岭回归？

想象你有一堆数据点，并且你想用一条直线去尽量接近这些点。在统计学中，这种做法被称为线性回归。但是，有时候数据的趋势并不是完全直的，你可能需要一个更复杂的模型来完美地适应这些点，比如使用曲线。

更复杂的模型（如曲线）虽然可以完美地适应旧数据，但可能并不擅长预测新的数据点。这就类似于你过度学习课本上的内容而无法在实际问题中运用所学知识。

岭回归通过添加一个“惩罚项”到模型中，限制模型的复杂度。这个惩罚项确保模型不会太复杂，从而帮助模型在适应旧数据和预测新数据之间找到平衡。

正则化是一种防止模型过度复杂的技术。在机器学习中，如果你的模型太复杂，它可能会开始捕捉数据中的随机噪声而不是真正的信号。这会导致在新的数据上表现不佳。

正则化通过给模型的参数添加惩罚来实现。例如，如果你的模型是
y=ax +bx+c，正则化可能会尝试使 a、b 和 c 的值尽可能小，因为这些较小的值通常意味着模型比较简单。

所以，岭回归是一种特定的正则化技术，用于线性回归模型。它通过在模型的损失函数中加入一个与模型参数大小相关的惩罚项（正则化项），来限制模型的复杂度。这样做可以帮助模型在训练数据上的表现和在未见数据上的泛化能力之间找到一个更好的平衡点。