算法小白菜

几个传统NLP模型演进

2018-10-23  本文已影响14人  林桉

词袋模型(BOW)

改进N-gram

image.png

TF-IDF的权重计算方法

计算物品和关键词的相关性
在TF-IDF方法中,一个词t在文档d中权重的计算方法为:


image.png

其中tft,d代表t在d中出现的频次,而dft指的是包含t的文档数目,N代表全部文档的数目。

VSM向量空间模型

度量关键词和文档,以及文档和文档之间的相关性
VSM的核心思想是将一篇文档表达为一个向量,向量的每一维可以代表一个词,在此基础上,可以使用向量运算的方法对文档间相似度进行统一计算,而这其中最为核心的计算,就是向量的余弦相似度计算:


image.png

LSA隐语义模型

深层次信息


image.png

LSA的做法是将这个原始矩阵C进行如下形式的SVD分解:


image.png
其中U是矩阵CCT的正交特征向量矩阵,V是矩阵CTC的正交特征向量矩阵,∑k是包含前k个奇异值的对角矩阵,k是事先选定的一个降维参数。
CCT中每个元素CCTi,j代表同时包含词i和词j的文档数量,而CTC中每个元素CTCi,j代表文档i和文档j共享的词的数量。所以这两个矩阵中包含了不同词的共同出现情况,以及文档对词的共享情况,通过分解这些信息得到了类似主题一样比关键词信息量更高的低维度数据。
image.png

pLSA概率隐语义模型

LSA训练复杂度高、检索复杂度高、词值无概率含义、负值(可以通过NMF解决)
基本假设:

LDA生成式概率模型

参数量上升导致过拟合、生成式概率模型
LDA的中心思想就是在pLSA外面又包了一层先验,使得文档中的主题分布和主题下的词分布都有了生成概率,从而解决了上面pLSA存在的“非生成式”的问题,顺便也减少了模型中的参数,从而解决了pLSA的另外一个问题。


image.png

神经概率语言模型

上下文信息、词语之间相互影响、词序

行业应用现状

image.png
上一篇 下一篇

猜你喜欢

热点阅读