Distilbert

2021-06-16  本文已影响0人  三方斜阳

因为Bert本身参数量大,所以上线的过程中会碰到需求大空间和速度慢等问题。当前对Bert瘦身有三个思路,分别是Distillation(蒸馏)、Quantization(量化)和Pruning(剪枝)。

Quantization(量化):

通过降低模型参数的精度来达到压缩模型的目的。

  • 量化weights
  • 计算量化网络的loss
  • 计算非量化weights的梯度loss
  • 更新非量化weights
  • 不断反复,得到最后量化后weights的模型

Pruning(剪枝):

通过移除部分模型内容来达到压缩模型目的。

    1. 删除部分weight connections:
      一个好的模型,可以尽可能让期望的结果概率接近1,而不期望的结果接近0。所以我们可能会有很多接近0的权值,我们可以删除这些接近0的权值,从而达到压缩模型目的。
    1. 删除部分neurons:
      可以通过评估某些神经元的重要性,删除一些不重要的神经元,从而达到压缩模型目的。
    1. 删除部分weight matrices:
      有的工作会删除整个Attentional heads,并且尽可能保证最小损失。

Distillation(蒸馏):

参考:[深度学习:前沿技术-DistilBERT ]

上一篇 下一篇

猜你喜欢

热点阅读