知识蒸馏的T

2020-07-20 本文已影响0人一颗大葡萄树

不光是提高准确率，更重要的是要学习大模型的泛化能力。如果Soft-target携带信息过多，就需要用到温度T了，需要T来把重要的信息“蒸馏”出来。具体做法就是用大模型的倒数第二层先除T,再通过softmax预测一个soft-target，小模型也是一样，倒数第二层除同样的温度T，然后softmax预测结果，再使用这个结果作为交叉熵的一部分，另一部分就是ground truth标签和正常输出。Total loss 就是把这两个loss 加权之后合起来作为小模型的最终loss更新模型。预测就不需要温度T了

知识蒸馏的T

猜你喜欢

热点阅读