第十五课 奇异值分解

2016-12-19  本文已影响0人  yz_wang

本讲大纲:

  1. 潜在语义索引(Latent Semantic Indexing)
  2. 奇异值分解(Singular value decomposition )
  3. 独立成分分析(Independent Component Analysis)

逻辑关系
LSI潜在语意索引是PCA主成分分析的一个应用,而SVD奇异值分解是LSI(PCA)的一个实现。
ICA独立成分分析是务监督学习的一种。

1. 隐含语意索引 LSI

参考:http://blog.csdn.net/u011450885/article/details/46500901
是自然语言处理的一项技术,在自然语言处理中,最常见的两类的分类问题分别是,将文本按主题归类(比如将所有介绍亚运会的新闻归到体育类)和将词汇表中的字词按意思归类(比如将各种体育运动的名称个归成一类)。
分类的关键是计算相关性。我们首先对两个文本计算出它们的内容词,或者说实词的向量,然后求这两个向量的夹角。当这两个向量夹角为零时,新闻就相关;当它们垂直或者说正交时,新闻则无关。当然,夹角的余弦等同于向量的内积。从理论上讲,这种算法非常好。但是计算时间特别长。
主成分分析中隐含语音索引的意思就是,通过降维的手段,将意义相同的词映射到低维空间中的同一个维度上去。

2. 奇异值分解 SVD

如果用一个矩阵来表示一百万篇文章和五十万词的关联性,每一行对应一篇文章,每一列对应一个词:


这个矩阵的元素个数非常巨大。行数M=1,000,000,列数N=500,000。

奇异值分解就是把上面这样一个大矩阵,分解成三个小矩阵相乘,如下图所示。这三个矩阵的元素总数远远小于上面的大矩阵A。以此来降低存储量和计算量。


三个矩阵有非常清楚的物理含义。

应用:个性化推荐、文本及web挖掘、降噪

扩展:奇异值分解的几何意义
参考,推荐:http://blog.chinaunix.net/uid-20761674-id-4040274.html
矩阵线性变换的几何解释,很清楚:http://blog.sciencenet.cn/home.php?mod=space&uid=696950&do=blog&quickforward=1&id=699380

</br>

3. 独立成分分析 ICA

3.1 基本概念

</br>
首先区分两个概念:

与PCA主成分分析的区别

首先相同点是目的都是找到一个方向,即一个n维向量w,使得线性组合wTx的某种特征最大化。

理解:经典鸡尾酒会问题


其中s代表人,x代表话筒,A是距离。x已知,s和A未知,需要推出s。



</br>

3.2 ICA的算法

参考:http://blog.csdn.net/u012409883/article/details/17091383

上一篇 下一篇

猜你喜欢

热点阅读