【论文阅读】统计语言模型综述Statistical Langua

2019-07-31  本文已影响0人  神游物外的轮子

TWO DECADES OF STATISTICAL LANGUAGE MODELING: WHERE DO WE GO FROM HERE?

一篇综述类文章,描述统计语言模型的主要工作。
语言模型涉及到很多任务:语音识别、机器翻译、文件分类、光学字符识别(OCR)、信息检索、手写识别、拼写纠错等等。

依次介绍:

  1. 统计语言模型
  2. 现有主要技术
  3. 研究热点
  4. 提出了将语言学知识融入统计语言模型的一个思路

统计语言模型

统计语言模型可以视作一个关于句子的概率分布
方程(1)可以参考李航的朴素贝叶斯章节公式(4.7),大意是指对于所有的s,分母相当于常数,不影响最大值的计算。

如何衡量

  1. 平均log相似度
    Average\_Log\_Likelihood(D | M) = \frac{1}{n} \sum_i log P_M(D_i)
    其中D = {D_1, D_2, ... , D_n}是新的样本,M是语言模型。
  2. 基于经验的交叉熵
    cross\_entropy (P; P_M) = - \sum_D P(D) \cdot log P_M(D)
    其中P为真实的数据分布,P_M为语言模型的分布。
  3. 困惑度
    perplexity(P;P_M) = 2^{cross\_entropy(P:P_M)}

已知问题

  1. 领域敏感
  2. 错误的独立概率假设
  3. Shannon-style experiments(不懂)

统计语言模型主要技术综述

1. n-grams

单词聚类

2. 决策树

可能存在超越ngram的决策树,但是找到它需要克服计算量以及数据稀疏的问题

3. 语言学模型

Context free grammar(CFG)

我的理解是有一份词表,一套转化规则/生成规则,以及非终端符号(这个不懂,猜测是转化规则的输入)。可以将词表中的单词按照规则进行转化。
一个成功的例子是使用CFG生成一批三元词,取代原有统计模型中三元词。
CFG一些简单知识

Link grammar

4. 指数模型

为了解决数据分布不均?

5. 自适应模型

交叉领域
P_{adaptive}(w|h) = \lambda P_{static}(w|h) + (1- \lambda) P_{cache} (w | h)
within-domain adaptatio(不怎么懂)


主要研究方向

Dependency models(DG)

有点类似ngram,ngram使用相邻的单词作为预测的依据,DG使用句子中提取出的依赖关系,形成依赖图。

Dimensionality reduction

一般将词表中的单词视作独立项,其中包含着结构化的信息,应该可以降低维度;
同一个单词在不同的话题中概率分布不同,可以提取基础话题模型;

Whole sentence models


经验之谈

  1. 一份IBM非官方预测指出:二元单词模型的学习在亿量级语料下基本饱和,三元单词模型在包含十亿级别的语料量级下达到饱和。
  2. 一般来说,困惑度降低5%并不会带来显著的影响,10%-20%的改进会有一点影响,大于30%的改进会有非常显著的效果。
  3. 语料收集线索:
    Switchboard domain (conversa- tional speech, [68])
    40 million words of the WSJ corpus (newspaper articles, [69])
    140 million words of the BN corpus (broadcast news transcriptions, [70])
  4. 使用SVD对矩阵进行降维。
  5. 有趣的例子:GOD和Friday的关联性"Thank God It’s Friday",其实没有关联性啦。
上一篇下一篇

猜你喜欢

热点阅读