交叉熵数损失推导

2022-07-07  本文已影响0人  leon0514

交叉熵数损失推导

L(\theta) = \prod_{i=0}^n{P(y^{(i)}|x^{(i)};\theta)} = \prod_{i=0}^n{h_\theta(x^{(i)})^{y^{(i)}}}*(1-h_\theta(x^{(i)}))^{1-y^{(i)}}

对数似然估计 - 取对数

ln(L(\theta)) = \sum_{i=0}^n{ln(h_\theta(x^{(i)})^{y^{(i)}}) + ln((1-h_\theta(x^{(i)}))^{1-y^{(i)}})} = \sum_{i=0}^n{y^{(i)}ln(h_\theta(x^{(i)})) + (1-y^{(i)})*ln((1-h_\theta(x^{(i)})))}

g_\theta(x) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n,(x_0 = 0) \\ g_\theta(x) = \theta^Tx

化简得

L(\theta) = -\sum_{i=0}^n{y^{(i)}ln(\frac{1}{1+e^{-g_\theta(x^{(i)})}}) + (1-y^{(i)})*ln((1-\frac{1}{1+e^{-g_\theta(x^{(i)})}}))} \\ = \sum_{i=0}^n{y^{(i)}ln(1+e^{-g_\theta(x^{(i)})}) - (1-y^{(i)})*(ln(\frac{e^{-g_\theta(x^{(i)})}}{1+e^{-g_\theta(x^{(i)})}})}) \\ = \sum_{i=0}^n{y^{(i)}ln(1+e^{-g_\theta(x^{(i)})}) - (1-y^{(i)})*(-g_\theta(x^{(i)}) - ln(1+e^{-g_\theta(x^{(i)})}})) \\ = \sum_{i=0}^n{g_\theta(x^{(i)}) - y^{(i)}*g_\theta(x^{(i)}) + ln(1+e^{-g_\theta(x^{(i)})})} \\ = \sum_{i=0}^n{ln(e^{g_\theta(x^{(i)})}) - y^{(i)}*g_\theta(x^{(i)}) + ln(1+e^{-g_\theta(x^{(i)})})} \\ = \sum_{i=0}^n{ln(e^{g_\theta(x^{(i)})}+1) - y^{(i)}*g_\theta(x^{(i)})}

\theta_j求导得

\frac{\partial_L}{\partial_{\theta_j}} = \sum_{i=0}^n\frac{x^{(i)}_j*e^{g_{\theta}(x^{(i)})}} {e^{g_{\theta}(x^{(i)})}+1} - y^{(i)}*x^{(i)}_j \\ = \sum_{i=0}^n{x^{(i)}_j* (\frac{e^{g_{\theta}(x^{(i)})}}{e^{g_{\theta}(x^{(i)})}+1} - y^{(i)})} \\ = \sum_{i=0}^n{x^{(i)}_j*(h_\theta(x^{(i)}) - y^{(i)})}

上一篇 下一篇

猜你喜欢

热点阅读