（22）文本表示模型

2018-11-30 本文已影响0人顽皮的石头7788121

（1）TF-IDF模型

属于词袋模型，TF-IDF（t,d）= TF(t,d)*IDF(t)

TF(t,d)表示单词t在文档d中出现的频率。

IDF(t)是逆文档频率。用来衡量单词t对表达语义所起的重要性。

IDF（t） = 文章总数/（包含单词t的文章的总数+1）；直观解释是，如果一个单词在非常多的文档里都出现，那么它可能是一个比较通用的的词汇，对于区分某篇文章特殊语义的共享比较小，因此对权重做惩罚。

将文章按单词分类，忽略了单词前后联系。通常会将连续的词作为一个单独的特征放到向量表中去。同时提取词干，将同一单词不同形式确认为同一个单词。

词袋模型有一个明显的缺陷，就是无法识别两个不同的单词有相同的主题。

（2）主题模型LDA（隐狄利克雷模型）

利用文档中的单词的共现关系来对单词按主题聚类。得到文档-主题和主题-单词两个概率分布。

主题模型是一种基于概率图模型的生成式模型。当两个词有相同的主题时，更容易出现在同一篇文档中。也就是说，给定某一个主题，这两个词出现的概率都很高，而其他词出现的概率就比较小。

假设有K个主题，我们把任意文章表示成一个K维主题向量，向量的每一维度表示一个主题，权重表示其属于这一维度的概率。

LDA是PLSA的贝叶斯版本。PLSA时属于频率派思想，LDA时贝叶斯学派，其文本生成过程和PLSA基本相同，但是为主题分布和词分布加了两个狄利克雷分先验。即PLSA认为p(w|z)p(z|d)是确定的未知常数，可以求解；LDA认为是不确定的，但是符合狄利克雷分布。

（3）主题模型PLSA

假设有K个主题，M篇文章，对于人意文章d，假设文章有N个单词，对于每个词，选择一个主题 Z，在Z的基础上生成一个单词w.则生成概率为 $P(w,d) = \sum p(w|z)p(z|d)$

PLSA

用极大似然估计发估计，得到其似然函数 $L = \prod\nolimits_{m}^M \prod\nolimits_{n}^N p(d_{m},w_{n} ) = \prod\nolimits_{m}^\check{M} \prod\nolimits_{n}^\check{N} p(d_{m},w_{n} )^{n(d_{m},w_{n}) }$

求其对数似然

$l = \prod\nolimits_{m}^M \prod\nolimits_{n}^N n(d_{m},w_{n}) logp(d_{m},w_{n} ) = \prod\nolimits_{m}^\check{M} \prod\nolimits_{n}^\check{N} n(d_{m},w_{n}) logp(d_{m} ) p(w_{n}|d_{m})$

其中 $p(w_{n}|d_{m}) = \sum_{k}^K p(z_{k}|d_{m})p(w_{n}|z_{k})$ ;由于z无法求解，一般使用 EM算法求解

（4）Word2vec（词嵌入方法）

词嵌入模型是一般为神经网络模型。

一种浅层神经网络模型，有两种网络结构：CBOW和Skip-gram。

这两个不同的网络结构的区别是CBOW是根据上下文预测当前词的生成频率；Skip-gram是根据当前词来预测上下文中各词的生成频率。

两种不同的词向量模型

输入层每个词都是热独编码，输出层使用softmax预测每个词出现的概率。

（22）文本表示模型

猜你喜欢

热点阅读