统计学习方法——修炼学习笔记17:潜在语义分析

2020-04-15  本文已影响0人  Sam_L

潜在语义分析LSA:
是一种无监督学习,主要用于文本的话题分析。
特点:
通过矩阵分解发现文本与单词直接的基于话题的语义关系。

文本信息处理中,传统的方法以单词向量表示文本的语义内容,以单词向量空间的度量表示文本直接的语义相似度。
潜在语义分析旨在解决这种方法不能准确表示语义的问题,试图从大连的文本数据中发现潜在话题,以话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间的语义相似度。这也是话题分析的基本想法

潜在语义分析使用的是非概率的话题分析模型。具体地,
将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行奇异值分解,从而得到话题向量空间,以及文本在话题向量空间的表示。

奇异值分解特点是分解的矩阵正交。
非负矩阵分解NMF是另一种矩阵的因子分解方法,其特点是分解的矩阵非负。也用于话题分析。

一、单词向量空间与话题向量空间

1、单词向量空间

文本信息处理,比如文本信息检索、文本数据挖掘的一个核心问题是对文本的语义内容进行表示,并进行文本之间的语义相似度计算。
最简单的方法是利用向量空间模型VSM,也就是单词向量空间模型。

向量空间模型基本想法:
image.png
定义
image.png image.png image.png image.png

直观上,在两个文本中共同出席的单词越多,其语义内容就越相近,对应的单词向量同不为零的维度就越多,内积就越大(单词向量元素的值都是非负的),表示两个文本在语义内容上越相似。

单词向量空间模型优点:
局限性,内积相似度未必能够准确表达两个文本的语义相似度

2、话题向量空间

两个文本的语义相似度可以提醒在两者的话题相似度上。
一个文本一般含有若干个话题。如果两个文本的话题相似,那么两者的语义应该也相似。

话题可以由若干个语义相关的单词表示,同义词可以表示同一个话题,而多义词可以表示不同话题。这样基于话题的模型就可以解决上述基于单词模型存在的问题。

设想定义一种话题向量空间模型。给定一个文本,用话题空间的一个向量表示该文本,该向量的每一分量对应一个话题,其数值为该话题在该文本中出现的权值。
用两个向量的内积或标准化内积表示对应的两个文本的语义相似度。

注:单词向量空间模型与话题向量空间模型可以互为补充,现实中,两者可以同时使用。

(1)话题向量空间
定义:
image.png
(2)文本在话题向量空间的表示
image.png
(3)从单词向量空间到话题向量空间的线性变换
image.png

二、潜在语义分析算法

潜在语义分析利用矩阵奇异值分解。
具体地,对单词-文本矩阵进行奇异值分解,将其左矩阵作为话题向量矩阵,将其对角矩阵与右矩阵的乘积作为文本在话题向量空间的表示。

1、矩阵奇异值分解算法

(1)单词-文本矩阵
image.png
(2)截断奇异值分解
image.png
(3)话题向量空间
image.png
(4)文本的话题空间表示
image.png

三、非负矩阵分解算法

非负矩阵分解也可以用于话题分析。
对单词-文本矩阵进行非负矩阵分解,将其左矩阵作为话题向量空间,将其右矩阵作为文本在话题向量空间的表示。
通常,单词-文本矩阵是非负的。

1、非负矩阵分解

image.png image.png

2、潜在语义分析模型

image.png

3、非负矩阵分解的形式化

非负矩阵分解可以形式化为最优化问题求解。

首先定义损失函数或代价函数。
第一种 损失函数是平方损失。
image.png
第二种损失函数是散度
image.png
定义最优化问题
image.png

4、算法

定理
image.png
非负矩阵分解的算法,第一个问题(17.22)的算法,第二个问题(17.23)算法类似
image.png
非负矩阵分解的迭代算法
image.png
上一篇 下一篇

猜你喜欢

热点阅读