几个传统NLP模型演进

2018-10-23 本文已影响14人林桉

词袋模型（BOW）

属于词频模型
在推荐系统中，如果将一个物品看作一个词袋，我们可以根据袋中的词来召回相关物品，例如用户浏览了一个包含“羽绒服”关键词的商品，我们可以召回包含“羽绒服”的其他商品作为该次推荐的候选商品，并且可以根据这个词在词袋中出现的次数（词频）对召回商品进行排序。

改进N-gram

image.png

TF-IDF的权重计算方法

计算物品和关键词的相关性
在TF-IDF方法中，一个词t在文档d中权重的计算方法为：

image.png

其中tft,d代表t在d中出现的频次，而dft指的是包含t的文档数目，N代表全部文档的数目。

VSM向量空间模型

度量关键词和文档，以及文档和文档之间的相关性
VSM的核心思想是将一篇文档表达为一个向量，向量的每一维可以代表一个词，在此基础上，可以使用向量运算的方法对文档间相似度进行统一计算，而这其中最为核心的计算，就是向量的余弦相似度计算：

image.png

LSA隐语义模型

深层次信息

image.png

LSA的做法是将这个原始矩阵C进行如下形式的SVD分解：

image.png
其中U是矩阵CCT的正交特征向量矩阵，V是矩阵CTC的正交特征向量矩阵，∑k是包含前k个奇异值的对角矩阵，k是事先选定的一个降维参数。
CCT中每个元素CCTi,j代表同时包含词i和词j的文档数量，而CTC中每个元素CTCi,j代表文档i和文档j共享的词的数量。所以这两个矩阵中包含了不同词的共同出现情况，以及文档对词的共享情况，通过分解这些信息得到了类似主题一样比关键词信息量更高的低维度数据。