吴恩达机器学习笔记(四)

2018-12-20  本文已影响0人  yh_y

视频课简记

7、正则化

7.1  过拟合的问题

        在数据拟合方面存在着三种结果:

三种数据拟合情况

        第一种称之为欠拟合,也叫高偏差;第二种刚好拟合了数据;第三种称之为过拟合,也叫高方差。在过拟合中,假设函数很好的匹配了训练集,但并不能很好的匹配测试集。

        过度拟合的问题常在变量过多的时候出现,同样的,逻辑回归中也有这三种情况:

逻辑回归中的数据拟合

        可以得出一个简单的结论,x的次数越高数据拟合的越好,但模型预测能力会变差。老师给出了两种解决过拟合的思路:

        (1)尽量减少选取变量的数量,方法:可以通过人工检查变量清单选择应该保留的变量;可以使用模型算法自动的选择应该保留的变量。

        (2)正则化,在保留所有特征量的情况下,但需要减少量级或减小\theta_j。当有很多特征时,其中每个变量都能对预测的y值产生一点影响。

7.2  代价函数

        上一节中过拟合的假设函数通常是高次项,如果我们对高次项的系数进行惩罚,让其接近于0的话,一方面化简了模型,另一方面使模型更好的拟合了数据,这大概是正则化的思想过程。

        为了惩罚高次项的系数,需要修改一下代价函数,如下:

修改后的代价函数

        通过加大这两个参数在代价函数中的放大倍数,在代价函数最小化的过程中这两个参数会非常小。

        当我们不知道应该惩罚哪些特征的时候,就对所有特征进行惩罚,除了\theta_0

对所有特征惩罚

        其中\lambda 为正则化参数,调节其大小可以控制惩罚力度,惩罚太猛就剩下\theta_0了,太小没效果。所以要选择一个合理的值。

7.3  正则化线性回归

        求解线性回归的最小代价函数我们之前学习了梯度下降还有正规方程,来看看怎么把正则化用在这两个算法。

        首先是梯度下降

梯度下降+正则化

        因为我们并不用对\theta_0进行正则化,所以单独提取出来一个式子。对于下面的式子也可以调整一下:

提出公因式\theta_j

        可以发现它和普通的梯度下降不同的是在每次更新的时候给\theta_j乘了一个系数,且这个系数是稍微比1小的数,相当于每次更新缩小了\theta_j一点点。

        而在正规方程中的正则化公式如下,原理还不是很懂,也没找到相关推导资料,先搁着:

正则化正规方程

7.4  正则化的逻辑回归模型

        逻辑回归中梯度下降算法的正则化和线性回归类似,在尾部加一项就可以了

逻辑回归梯度下降的正则化表达

        虽然正则化的逻辑回归中的梯度下降和正则化的线性回归中的表达式看起来一样,但由于两者的h_\theta(x)不同所以还是有很大差别。

小总结

        这周学习了过拟合处理办法之一的正则化,还是过拟合问题理解得还行,毕竟老师真的解释的很详细。正则化部分,在梯度下降中因为做了变式就直观很多了。

提出公因式

        但是对于正规方程的正则化理解不透彻,线代基础还是太差。

上一篇下一篇

猜你喜欢

热点阅读