机器学习之旅

Bert需要理解的一些内容

2019-12-20  本文已影响0人  slade_sal

更多来自于GitHub:Reflection_Summary.

Bert的双向体现在什么地方?

mask+attention,mask的word结合全部其他encoder word的信息

Bert的是怎样实现mask构造的?

在数据中随机选择 15% 的标记,其中80%被换位[mask],10%不变、10%随机替换其他单词,这样做的原因是什么?

为什么BERT有3个嵌入层,它们都是如何实现的?

bert的损失函数?

手写一个multi-head attention?

tf.multal(tf.nn.softmax(tf.multiply(tf.multal(q,k,transpose_b=True),1/math.sqrt(float(size_per_head)))),v)

长文本预测如何构造Tokens?

你用过什么模块?bert流程是怎么样的?

知道分词模块:FullTokenizer做了哪些事情么?

Bert中如何获得词意和句意?

源码中Attention后实际的流程是如何的?

为什么要在Attention后使用残差结构?

残差结构能够很好的消除层数加深所带来的信息损失问题

平时用官方Bert包么?耗时怎么样?

你觉得BERT比普通LM的新颖点?

elmo、GPT、bert三者之间有什么区别?

上一篇下一篇

猜你喜欢

热点阅读