Machine Learning & Recommendation & NLP & DL

自然语言处理N天-Transformer学习(实现一个Trans

2019-03-01  本文已影响4人  我的昵称违规了
新建 Microsoft PowerPoint 演示文稿 (2).jpg

这个算是在课程学习之外的探索,不过希望能尽快用到项目实践中。在文章里会引用较多的博客,文末会进行reference。
搜索Transformer机制,会发现高分结果基本上都源于一篇论文Jay Alammar的《The Illustrated Transformer》(图解Transformer),提到最多的Attention是Google的《Attention Is All You Need》。

4.基于Tensorflow实现Transformer

距离上次更新已经过去两天了,放弃之前那个Transformer实现,我们换一个项目吼不吼啊(https://github.com/Kyubyong/transformer)。
这周快要累死了,上课上到吐,还被教授公开处刑……
之前那个实现阅读起来有点太麻烦,就弃了。

作者的目的

与原论文的不同

该项目是实现一个德语-英语的翻译功能,
内容,而是要实现论文的核心思想,并作出简单快速的验证。由于这个原因,部分代码与原论文有所不同。这些不同之处有:

文件描述

注意看这里的文档,我们之前写的都是一段脚本,这显然是不够的,一个是要注意文档的写法,还有各个模块之间的关系。
hyperparams.py 包括全部所需的超参数
prepro.py 可为源和目标创建词汇文件(vocabulary file)
data_load.py 包括装载和批处理数据的相关函数
modules.py 拥有全部编码/解码网络的构建模块
train.py 包含模型
eval.py 进行评估

训练

上一篇 下一篇

猜你喜欢

热点阅读