[監督式]Logistic Regression(邏輯回歸)

2018-11-10  本文已影响0人  RJ阿杰

回顧分類問題

Logistic Regression

可分為3個部分,1.定義Function set,2.定義Loss function,3.做Gradient Descent。

Function Set

這邊我們先以二元分類來說明。

邏輯回歸與線性回歸hypothesis set之差異

Loss Function

N:樣本數。
P_{w,b}(C_1|x):特徵x確定時,\hat{y}=C_1=1的機率。
P_{w,b}(C_2|x):特徵x確定時,\hat{y}=C_2=0的機率。
假設C_1資料由P_{w,b}(C_1|x)=P_{w,b}(\hat{y}=1|x)=f_{w,b}(x)=\sigma\left(\sum_{i=1}^{N}w_ix_i+b\right)這個機率分佈所產生的,C_2資料=P_{w,b}(\hat{y}=0|x)=f_{w,b}(x)

L(w,b)就是由這些數據點產生P_{w,b}(\hat{y}|x)的機率,因為每個數據點獨立所以等於由每個數據點產生\hat{y}(f_{w,b}(x^1)、f_{w,b}(x^2)、(1-f_{w,b}(x^3))...)機率的乘積。
我們要找到某個(w,b)使L這個機率最大,就是求斜率等於零(函數的最高點或最低點),找到的這個(w,b)就是P(x|C_1)(w,b)
注意:因為x^3C_2,所以x^3產生C_2的機率為(1-f_{w,b}(x^3))f_{w,b}(x^3)x^3產生C_1的機率。

圖一
  1. -ln(p(\hat{y}|x))
    -ln(p(\hat{y}|x)) = -ln(f_{w,b}(x)^{\hat{y}} \cdot q^{1- \hat{y}})
    =-[ln(f_{w,b}(x)^{\hat{y}}) + ln((1-f_{w,b}(x))^{1-\hat{y}})]
    =-[\hat{y}ln(f_{w,b}(x)) + (1-\hat{y})ln(1-f_{w,b}(x))]
  2. -ln(f_{w,b}(x))由圖三可證明:
    -ln(f_{w,b}(x)) = -ln(p(\hat{y}=1|x)) = -[\hat{y}ln(f_{w,b}(x)) + (1-\hat{y})ln(1-f_{w,b}(x))],\hat{y}代入1
    -ln(1-f_{w,b}(x)) = -ln(p(\hat{y}=0|x)) = -[\hat{y}ln(f_{w,b}(x)) + (1-\hat{y})ln(1-f_{w,b}(x))],\hat{y}代入0
    所以可以推得:
    -ln(L(w,b)) = \sum_{j=1}^{N}-[\hat{y}^jln(f_{w,b}(x^j)) + (1-\hat{y}^j)ln(1-f_{w,b}(x^j))]
    =-ln(\prod_{j=1}^NP_{w,b}\left({\hat{y}^j|x^j}\right))(∏為所有數值的乘積)
    結論:L(w,b) = \prod_{j=1}^NP_{w,b}\left({\hat{y}^j|x^j}\right)
圖二 圖三

邏輯回歸與線性回歸loss function之差異

最佳的hypothesis

Discriminative v.s. Generative

多類別分類(Multi-class Classification)

我們有3個類的時候,我們想像成求3個二元分類問題。
m個樣本、n個特徵、K個類別,\theta^T=w^T,將x多一個全為1的特徵,b換成w_0

Hypothesis Loss function Gradient

Logistic Regression的限制

Logistic Regression無法做非線性分類,需要使用Neural Network,或手動作特徵轉換。

參考李宏毅老師ML課程

上一篇 下一篇

猜你喜欢

热点阅读