生信算法流程

PCA的推导与求解(一)

2020-10-19  本文已影响0人  生信编程日常

主成分分析(Principal Component Analysis, PCA),是一种非监督机器学习算法,主要应用于数据的降维。另外,还可以应用于可视化、去噪等方面。

如下图所示,对于横纵轴的两个特征,关键是怎样找到到一个轴,使得样本空间的所有点映射到这个轴后,方差最大(各个点差别最大)。

主成分分析的步骤为:

  1. 对所有的样本点进行demean处理(使得样本的均值为0)
  2. 我们项要求一个轴的方向 w = (w1, w2)
  3. 使得所有的样本映射到w以后,有:

    最大。

由于之前进行了demean处理,那么\bar{X}_{project} 为0,上式相当于:

假设我们的方向向量为w(w1, w2), 样本点X^\left(i\right)\left(X_1^\left(i\right), X_2^\left(i\right)\right),则映射到该方向上的(即求解的)为\left(X_{pr1}^\left(i\right), X_{pr2}^\left(i\right)\right)

所以最上是要求:



最大。

在N维向量中也就是:


这其实就是一个目标函数的最优化问题,可以用梯度上升法求解。

以上是https://coding.imooc.com/learn/list/169.html [python3入门机器学习]课程做的笔记。

上一篇下一篇

猜你喜欢

热点阅读