模型压缩（上）—— 知识蒸馏(Distilling Knowle

2021-03-15 本文已影响0人不懂不学不问

1. 到底什么是知识蒸馏？

一般地，大模型往往是单个复杂网络或者是若干网络的集合，拥有良好的性能和泛化能力，而小模型因为网络规模较小，表达能力有限。因此，可以利用大模型学习到的知识去指导小模型训练，使得小模型具有与大模型相当的性能，但是参数数量大幅降低，从而实现模型压缩与加速，这就是知识蒸馏与迁移学习在模型优化中的应用。

Hinton的文章"Distilling the Knowledge in a Neural Network"首次提出了知识蒸馏（暗知识提取）的概念，通过引入与教师网络（teacher network：复杂、但推理性能优越）相关的软目标（soft-target）作为total loss的一部分，以诱导学生网络（student network：精简、低复杂度）的训练，实现知识迁移（knowledge transfer）。

image.png

2.Hard-target 和 Soft-target

传统的神经网络训练方法是定义一个损失函数，目标是使预测值尽可能接近于真实值（Hard- target），损失函数就是使神经网络的损失值和尽可能小。这种训练过程是对ground truth求极大似然。在知识蒸馏中，是使用大模型的类别概率作为Soft-target的训练过程。

image.png

如在MNIST数据集中做手写体数字识别任务，假设某个输入的“2”更加形似"3"，softmax的输出值中"3"对应的概率会比其他负标签类别高；而另一个"2"更加形似"7"，则这个样本分配给"7"对应的概率会比其他负标签类别高。这两个"2"对应的Hard-target的值是相同的，但是它们的Soft-target却是不同的，由此我们可见Soft-target蕴含着比Hard-target更多的信息。

image.png

使用软标签就是修改了softmax函数，增加温度系数T;

image.png

其中 Pi 是每个类别输出的概率，Zi 是每个类别输出的 logits，T 就是温度。当温度 T=1 时，这就是标准的 Softmax 公式。 T越高，softmax 的output probability distribution越趋于平滑，其分布的熵越大，负标签携带的信息会被相对地放大，模型训练将更加关注负标签。

关于温度T的影响：

image.png
温度的高低改变的是Student模型训练过程中对负标签的关注程度。当温度较低时，对负标签的关注，尤其是那些显著低于平均值的负标签的关注较少；而温度较高时，负标签相关的值会相对增大，Student模型会相对更多地关注到负标签。

实际上，负标签中包含一定的信息，尤其是那些负标签概率值显著高于平均值的负标签。但由于Teacher模型的训练过程决定了负标签部分概率值都比较小，并且负标签的值越低，其信息就越不可靠。因此温度的选取需要进行实际实验的比较，本质上就是在下面两种情况之中取舍:

当想从负标签中学到一些信息量的时候，温度T应调高一些；
当想减少负标签的干扰的时候，温度T应调低一些；

总的来说，T的选择和Student模型的大小有关，Student模型参数量比较小的时候，相对比较低的温度就可以了。因为参数量小的模型不能学到所有Teacher模型的知识，所以可以适当忽略掉一些负标签的信息。

如果还不懂硬目标和软目标区别，可以点击查看跳击查看，作者举了很好的一个实例。

3. 知识蒸馏训练的具体方法：

image.png

训练Teacher的过程很简单，我们把第2步和第3步过程统一称为：高温蒸馏的过程。高温蒸馏过程的目标函数由distill loss(对应Soft-target)和Student loss(对应Hard-target)加权得到。如下所示：

image.png

采用软标签的知识蒸馏方法，一方面压缩了模型，另一方面，增强了模型的泛化能力（因为 SN 在训练集上的效果肯定没 TN 好）

模型压缩（上）—— 知识蒸馏(Distilling Knowle

1. 到底什么是知识蒸馏？

2.Hard-target 和 Soft-target

3. 知识蒸馏训练的具体方法：

猜你喜欢

热点阅读