Andrew Ng ML(2)——linear regressi

2018-12-05  本文已影响0人  tmax

linear regressing with multiple variables(supervised learning)


梯度下降(多变量)

单特征值与多特征值的梯度下降公式(特征值:variable\feature\n)

在两个或者多个特征值范围差距太大时,cost function的等高线图会呈现出细长的椭圆形,会导致梯度下降缓慢(可以做一定的处理,使多个特征值范围限制在同一个范围内)


对于特征值范围的选择,不一定要限制在-1~1之间,但是范围不能太大或者太小

x_i \leftarrow \frac{x_i-\mu_i}{s_i}\mu_i代表第i个特征值的平均值s_i代表第i个特征变量的标准差max-min

确定梯度下降正常工作的方法:1:画出cost function的值与对应迭代次数的函数图像,观察是否收敛(通常使用的方法) 2.确定一个\varepsilon的值,自动收敛测试

确定梯度下降正常工作的方法 所取的alpha(学习率)太大可能出现的情况
summary

if \alphatoo small: slow convergence
if \alphatoo large: cost functionJ(\theta) may not decrease on every iteration,may not converge(slow converge also possible)
To choose \alpha ,try ...,0.001,0.003,0.01,0.03,0.1,0.3,1...



对theta 求偏微分,即能求得最优解 e.g.:
Q:\theta=(X^TX)^{-1}X^Ty是如何求出来的???

X\theta=y(其中X_{m \times(n+1)},\theta_{(n+1)\times 1},y_{m\times 1}
由于X并不是方阵,也就没有逆矩阵,所以首先需要两边同乘X^T
即:X^TX\theta=X^Ty(其中X^TX为方阵)
易得,\theta=(X^TX)^{-1}X^Ty

Q:(X^TX)不可逆怎么办???

1.检查特征之间是否线性相关 2.检查是否特征太多(样本太少)或者使用正规化

总结
梯度下降和正规化优缺点以及选择

梯度下降的向量计算方式

上一篇 下一篇

猜你喜欢

热点阅读