[分类] Linear Discriminant Analysi

2018-11-09 本文已影响0人数据麻瓜

LDA是一个分类模型，可以处理多category的问题。
模型是： $P(G=k|X=x)=\frac{f_k(x)\pi_k}{\sum_{l=1}^K f_l(x)\pi_l}$ (*),即在知道x值的情况下，属于k类的可能性，选择最大的 $P_k$ 作为点x的类。其中 $f_k(x)=P(X=x|G=k),\pi_k=P(G=k),\sum_{k=1}^K \pi_k=1$ 。这个模型基于的统计理念非常常见，就是先验概率和后验概率用全概率公式和Bayes定理互相推导。
(*) 中 $\sum_{l=1}^K f_l(x)\pi_l$ 对所有k来说都一样，所以选择的重点在于 $f_k(x)\pi_k$ 。

如果我们假设 $f_k(x)$ 是一个multivariate Gaussian,且对于所有k类，方差相同 $\Sigma_k=\Sigma$ ,则 $f_k(x)=\frac{1}{(2\pi)^{p/2}|\Sigma_k|^{1/2}}e^{-\frac{1}{2}(x-\mu_k)^T\Sigma_k^{-1}(x-\mu_k)}$ , $\delta_k(x)=log(f_k(x)\pi_k)=C+x^T\Sigma^{-1}\mu_k-\frac{1}{2}\mu_k^T\Sigma^{-1}\mu_k+log(\pi_k)$
如果 $\delta_1(x) >\delta_2(x)$ ,那就把点分到class 1

edx-Machine Learning-Wk3
如果

edx-Machine Learning-Wk3

确定了模型之后，进行参数估计，有最大似然估计可得

$\hat{\pi}_k=N_k/N$
$\hat{\mu}_k=\sum_{g_i=k} x_i/N$
$\hat{\Sigma}=\sum_{k=1}^K\sum_{g_i=k}(x_i-\hat{\mu}_k)(x_i-\hat{\mu}_k)^T/(N-K)$
总共需要估计(K-1)*(p+1)个参数

这个模型跟适用于large and diverse set。

Discriminant Analysis最核心的点是假定k类有k个不同的distribution，然后计算在已知k的情况下，对于待分类点x计算条件概率(Bayes Rule)，然后选出条件概率最高的那一个类。

所以这个模型有很多的变通之处，例如，我们一定要假定正态分布吗？不一定，之所以倾向多维正态的原因是针对线性/Quadratic的决策边界，正态的结果会更稳定，但其实是可以选择别的分布假设的。

优化

Regularized Discriminant Analysis:
$\hat{\Sigma}_k(\alpha)=\alpha(\hat{\Sigma}_k)+(1-\alpha)\hat{\Sigma},\hat{\Sigma}$ is the pooled covariance matrix as used in LDA, 这样的话通过引入 $\alpha$ 来实现LDA和QDA的转化， $\alpha$ 由CV来决定

[分类] Linear Discriminant Analysi

猜你喜欢

热点阅读