自然语言处理EMNLP 2018 论文总结

2018-11-12  本文已影响0人  社交达人叔本华

Sebastian Ruder 大神又出新啦,是对今年EMNLP大会的500篇论文的总结和分析,搬运搬运。原博客在这里。该文将大会的论文分成了下面7个大类,我也将会一一搬运。

Sebrina 镇楼

1 Inductive Bias(学习偏倚)

  学习偏倚指的是我们的模型包含的基本假设,具有这样基本假设的模型才具有泛化能力(区别于直接纯背数据的模型,什么假设都不用,但是泛化能力是0)。最典型的学习偏倚就是图像的旋转不变性(Translation Invariance),所谓不变性指的是在经历变换之后仍然能够被识别出来还是原来那个东西(还是原来的类别)。而捕获这种不变性最好的模型结构就是Yann Lecunn在1989年提出的卷积神经网络啦,这个大家都太熟啦。

  说这么多,想说明一个道理:现在很多论文在研究的问题都是在增加学习偏倚,设计相应的模型。而现在一个很重要的研究方向就是探究自然语言中有没有像图像这样的不变性?

Lesson 1: If there is symmetry in the input space, exploit it.

  除此之外,作者还提醒我们重构损失这一通用的学习偏倚是具有非常大的价值的,能够为我们的训练提供额外的信号,在很多论文中都得到了广泛的应用。

Lesson 2: When you know the generative process, you should exploit it.

  下面重点介绍几篇这个方向上发表在EMNLP-2018的论文:

2. Cross-Lingual representation learning

讲道理哇,这个领域我是没想过居然有这么大的研究热度,不过想想也是挺合理的。世界上一共有大概6500种语言,而我们现在大部分的研究都集中在语料库比较丰富的几个语言,包括英语,中文啦,西班牙语啦,德语啦等等。但是我们需要知道,有很多小语种,别说正经的语料库啦,连正经的书面资料都需要人去整理。而cross lingual 这个方向就是希望能够通过建立语料库丰富的语言(比如英语)和语料库极度匮乏的语言之间的联系。具体怎么做呢,我们想象一下,其实不管什么语言都是在表达现实世界中的一个物体或者概念。换句话说,不同的语言其实是在描述同一种东西,只不过换了件花花皮囊而已。
  作者从Asifa's的keynote进行分析,我们目前的研究方式大多集中在单词-单词的对应(和原始的依照词频破解密文有点像),到现在是完全没有考虑过复合短语的情况,可以说是还处于起步阶段吧。在这里我们同样会介绍一些论文。

3 Word embeddings

词向量!这个东西还有人在研究我是真的惊呆啦!!大神博客里也没有过多的介绍

  大神很认真的指出,现在还是有人在很认真的搞词向量的,不过热度已经比前几年少多啦。

4.Latent Variable models隐变量模型

隐变量模型常常应用在主题识别上,之前很多时候用的都是MCMC的那套东西进行学习和推理,所以没太赶得上上深度学习的热度。不过这个东西确实是能够很好的表达结构化的学习偏倚的。

  废话少说,直接上论文啦。

5.Language model

语言模型我是再熟悉不过啦,简单讲就是充分利用单词和语境的关系的一类模型,现在也多指用语境去预测下一个词。

  作者指出语言模型在自然语言处理中的作用越来越大,也有越来越多的论文中设计了各种各样的语言模型的结构。

6. Datasets

这一部分介绍了新推出的数据集,不多介绍,就是列举一下。

  既然这里提到数据集了,那么就提一下有些论文还研究了当前的一些数据集和评价标准的局限性:

7.Miscellaneous奇葩项

下面介绍的这些论文的研究方向都可以说是剑走偏锋,非主流,不过还是很值得关注的。

8. 总结

  每次看大神的博客总是会获益匪浅,这一次也是对学习偏倚有了更加深刻的认识:好的学习偏倚就是为了捕获语言中的不变性而做的假设,而好的模型就是为了实现学习偏倚的假设而设计的网络结构。另,最近被黑中介、黑导师整的贼烦啊。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

上一篇 下一篇

猜你喜欢

热点阅读