Adaptive Mixtures of Local Exper
Hampshire和Waibel以及Jacobs等人都使用了不鼓励本地化的错误函数。他们假设整个系统的最终输出是局部专家输出的线性组合,门控网络决定了每个局部输出在线性组合中的比例。
其中o是情况c下专家i的输出向量,p是专家i对组合输出向量的比例贡献,d是情况c中的期望输出向量。该误差度量将期望输出与本地专家的输出的混合进行比较,因此,为了将误差最小化,每个局部专家必须使其输出抵消所有其他专家的组合效应留下的残差。当一个专家的权重改变时,残差也会改变,因此所有其他本地专家的误差导数也会改变。专家之间的这种强耦合使他们能够很好地合作,但往往会导致在每种情况下都使用许多专家的解决方案。可以通过在目标函数中添加惩罚项来鼓励竞争,以鼓励只有一名专家参与的解决方案(Jacobs et 41。1990年),但一个更简单的补救方法是重新定义误差函数,以便鼓励当地专家合作.
因为如果其他专家改变其权重,可能会导致门控网络改变分配给专家的责任,但至少这些责任的改变不能改变本地专家在给定训练案例中感知到的错误迹象。如果在这个新的误差函数中,门控网络和局部专家都是通过梯度下降来训练的,那么系统倾向于将一个专家用于每个训练案例。每当专家给出的误差小于所有专家误差的加权平均值时(使用门控网络的输出来决定如何对每个专家的误差进行加权),其对该情况的责任将增加,每当它的表现比加权平均值差时,它的责任就会减少,方程1.2中的误差函数在实践中有效,但在下面报告的模拟中,我们使用了一个不同的误差函数,该函数具有更好的性能
在等式1.4中,用于对专家i的导数进行加权。在方程1.5中,我们使用了一个加权项,该项考虑了专家i相对于其他专家的表现。这是一个更有用的衡量专家i与训练案例c相关性的指标,尤其是在训练的早期。例如,假设门控网络最初为所有专家赋予相等的权重。方程1.4将以最慢的速度调整最佳拟合专家,而方程1.5将以最快的速度调整。