arXiv'22-(神经元分区)MoEfication: Tra

2023-05-05  本文已影响0人  Caucher

标题:MoEfication:Transformer前馈层是多个Expert的组合

编者的总结:

  1. 本文提出前馈神经网络有功能分区的概念,即对于某一个输入,只有一部分神经元被激活,大部分神经元静默摸鱼。
  2. 因此提出聚类方法,本质上是预测对于某个输入x,那些神经元最可能被激活,然后只用这些神经元做推理,可以起到加速效果。

编者的思考

  1. 具体方法层面还过于简单,方法有效性仍需广泛验证

Abstract & Introduction

3 MoEfication

image.png

3.2 Expert Construction

神经元划分方面:

  1. 将参数矩阵做平衡K-means进行聚类,因为可以想到距离较近的参数向量产生的输出值也会相近。
  2. 将神经元表示在图上面,神经元之间的距离使用co-activation度量,这个距离表示两个神经元同时激发时的值的积,需要从训练集中抽样用以计算这个距离。最后使用图分区算法做划分。


    image.png

3.3 Expert Selection

分区选取方面:

  1. Groundtruth selection:每个分区的都算一遍激活,然后累加正值,作为分数;
  2. Similariyu Selection:每个分区的权重矩阵的所有列直接相加,和输入做cosine相似性作为分数;
  3. MLP Selction:训练一个多层感知机,输入就是x,输出是预测分数,label就是第一种的ground truth,所以本质上是第一种的近似方法。
上一篇 下一篇

猜你喜欢

热点阅读