第十一课 贝叶斯统计正则化

2016-12-15  本文已影响0人  yz_wang

**就是要找更好的估计方法来减少过度拟合情况的发生。 **

大纲

笔记:http://www.cnblogs.com/XBWer/p/4336071.html

问题提出
如果选取的特征太少,欠拟合,对于训练集的拟合效果不好,对于测试集的预测效果应该也不会好;但是如果选取的特征太多,过拟合,对于训练集的拟合效果非常好,但是对于测试集的集合效果会变差。

欠拟合 合适的拟合 过拟合

解决过拟合的方法:

</br>

1. 贝叶斯统计及其正则化

</br>
贝叶斯公式(用来求后验概率的):


贝叶斯公式

对于参数theta的值

后验概率

这个公式的计算量其实很大,所以实际应用中一般都用最大化后验概率来求出theta,然后带入假设模型htheta(x)中预测:

最大化后验概率

可以与极大似然估计求theta的公式比较一下:

极大似然估计

发现其实用贝叶斯法求theta只是在末尾加了一个p(theta).

用后验概率法得到的参数theta更不容易拟合,从而降低了过拟合的概率。

</br>
正则化
模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。

对于代价函数:

线性回归的正则化

逻辑回归的正则化

</br>
</br>

2. 在线学习

</br>
什么是在线学习?

感知器
就是二类分类的线性分类模型,其输入为样本的特征向量,输出为样本的类别,取+1和-1二值,即通过某样本的特征,就可以准确判断该样本属于哪一类。顾名思义,感知机能够解决的问题首先要求特征空间是线性可分的,再者是二类分类,即将样本分为{+1, -1}两类。

对于感知器算法来说,若正负样本线性可分,那么在线学习算法也是收敛的。

3. 算法的改进方法

</br>
a. 算法诊断
如果现存算法的预测效果比较差,可以考虑的改进因素一般有:

怎么去选择最有效的改进算法是这部分的目的。

</br>

b. 销蚀分析
比如对于垃圾邮件分类器来说,先构建一个初始分类器,然后考虑一些比较高级的特征,比如邮件的语法风格、邮件的主机信息、邮件标题等。先将所有特征全加入到分类器中,然后逐个剔除,观察性能的下降幅度,将那些没有使性能下降或下降很少的特征删去。

上一篇 下一篇

猜你喜欢

热点阅读