知识蒸馏的T

2020-07-20  本文已影响0人  一颗大葡萄树

不光是提高准确率,更重要的是要学习大模型的泛化能力。如果Soft-target携带信息过多,就需要用到温度T了,需要T来把重要的信息“蒸馏”出来。具体做法就是用大模型的倒数第二层先除T,再通过softmax预测一个soft-target,小模型也是一样,倒数第二层除同样的温度T,然后softmax预测结果,再使用这个结果作为交叉熵的一部分,另一部分就是ground truth标签和正常输出。Total loss 就是把这两个loss 加权之后合起来作为小模型的最终loss更新模型。预测就不需要温度T了

上一篇下一篇

猜你喜欢

热点阅读