正则化与拉普拉斯平滑

2019-12-13 本文已影响0人 JerryLoveCoding

正则化，是一种可以改善或者减少过度拟合问题(over-fitting)的技术。
拟合：拟合牵扯到一个泛化能力的问题，对于训练好的模型，若在训练集表现差，不必说在测试集表现同样会很差，这可能是欠拟合（under fitting）导致；若模型在训练集表现非常好，却在测试集上差强人意，则这便是过拟合（over fitting）导致的，过拟合与欠拟合也可以用Bias（偏差）与 Variance（方差）的角度来解释，欠拟合会导致高 Bias ，过拟合会导致高 Variance ，所以模型需要在 Bias 与 Variance 之间做出一个权衡。

解决欠拟合的方法：
1、增加新特征，可以考虑加入进特征组合、高次特征，来增大假设空间;
2、尝试非线性模型，比如核SVM 、决策树、DNN等模型;
3、如果有正则项可以较小正则项参数;
4、Boosting ,Boosting 往往会有较小的 Bias，比如 Gradient Boosting 等.

解决过拟合的方法：
1、交叉检验，通过交叉检验得到较优的模型参数;
2、特征选择，减少特征数或使用较少的特征组合，对于按区间离散化的特征，增大划分的区间;
3、正则化，常用的有 L1、L2 正则。而且 L1正则还可以自动进行特征选择;
4、如果有正则项则可以考虑增大正则项参数;
5、增加训练数据可以有限的避免过拟合;
6、Bagging ,将多个弱学习器Bagging 一下效果会好很多，比如随机森林等.

拉普拉斯平滑
平滑本质上讲就是希望参数每次迭代的变化不要太过于剧烈

正则化与拉普拉斯平滑

猜你喜欢

热点阅读