基于self-attention的每个位置分类 2019-05-19 本文已影响0人 VanJordan 原来是直接将每个位置的hidden state直接过个全连接得到分类结果。 这个是先将每个位置和最后一个hidden state算一个 self-attention 然后再过一个全连接。