程序员

第一周

2018-07-06  本文已影响25人  个革马
文本表示

文本表示有很多种,不同的种类对应着不同的应用场景和算法。

基于单词的表示方法有如下几个好处

基础的词关系

1. 最基础的词关系分为两种:

paradigmatic relation and syntagmatic relation
聚合关系和组合关系

这两种基础且互不的关系可以很好地描述一门语言里面个体之间的关系。

2. 为何需要挖掘单词之间的关系?

3. 聚合关系

相似的上下文

-- 用上下文表示单词
-- 计算上下文的相似性
-- 上下文相似度高的单词更可能具有聚合关系

4. 组合关系

-- 计算文本中两个单词共现频率
-- 对比它们同时出现和单独出现
-- 利用独立性计算它们的出现是否相互独立(比如卡方检验法,概率独立性公式)

5. 词袋模型

忽略文本中单词的顺序,宛如一个装了单词的袋子,因此亦可称作伪文本。


6. Expected Overlap of Words in Context(EOWC)

基于词袋模型的文本相似度计算

从直觉上判断,两个文本单词重叠得越多,文本相似度越高。
但是该模型存在两个问题

解决方案 BM25的亚线性转换 BM25检索模型中聚合关系挖掘 M25检索模型中组合关系挖掘
上一篇 下一篇

猜你喜欢

热点阅读