卷积的空间不变性是过度的归纳偏置

2021-12-22  本文已影响0人  Valar_Morghulis

Revisiting Spatial Invariance with Low-Rank Local Connectivity

卷积神经网络是深度学习中最成功的架构之一,其成功至少部分归因于空间不变性作为归纳偏置的功效。局部连接层与卷积层的不同之处在于它们缺乏空间不变性,在实践中通常表现不佳。然而,这些观察结果仍然存在一种可能性,即空间不变性的某种程度的松弛可能产生比卷积或局部连接性更好的归纳偏置。为了验证这一假设,我们设计了一种方法,以受控方式放松网络层的空间不变性;我们创建一个\text{low rank}局部连接层,其中应用于每个位置的滤波器组被构造为具有空间变化的组合权重的滤波器组的基本集的线性组合。通过改变基滤波器组的数量,我们可以控制空间不变性的松弛程度。在小型卷积网络的实验中,我们发现放松空间不变性可以提高MNIST、CIFAR-10和CelebA数据集上卷积层和局部连接层的分类精度,从而表明空间不变性可能是一种过度限制的先验知识。

1.导言

卷积神经网络(CNN)现在是许多计算机视觉任务的主要方法。卷积层具有两个被认为是其成功关键的主要特性:局部感受野和空间不变滤波器。在这项工作中,我们试图重新审视后者。之前的工作比较了卷积层(在所有空间位置共享过滤器)和局部连接层(没有权重共享),发现卷积在公共数据集上是有利的(LeCun,1989;Bartunov等人,2018;Novak等人,2018)。然而,这一观察结果表明,某些偏离空间不变性的情况可能优于卷积和局部连通性(图1)。

CNN的结构通常被比作灵长类视觉系统(LeCun等人,2015)。然而,视觉系统没有直接的机制来共享空间中的重量。构成视网膜主题图的神经元具有随其在图中的位置而变化的选择性,特别是在高级视觉区域(Hasson等人,2002年;Arcaro等人,2009年;Lafer Sousa&Conway,2013年;Rajimehr等人,2014年;Srihasam等人,2014年;Saygin等人,2016年;Livingstone等人,2017年)。此外,视网膜包含几种类型的细胞,其分布和特征根据低等级空间梯度进行组织(Dacey&Petersen,1992)。

由于大脑中缺少突触权重共享,我们假设神经网络可以通过放松空间不变性来实现更高的性能(图1)。特别是在神经网络的更高层,感受野覆盖了图像的大部分或全部,在所有位置应用相同的权重可能比在不同位置应用不同的权重效率更低。然而,有证据表明,典型数据集太小,无法约束局部连接层的参数;可由卷积层表达的函数是可由局部连接层表达的函数的子集,但卷积通常实现更高的性能(LeCun,1989;Bartunov等人,2018;Novak等人,2018)。

为了理解为什么某些空间不变性的放松可能是有用的,考虑地面和天空区域的自然场景的图像。将不同的局部过滤器应用于具有相似外观的天空的不同部分可能不是一个好主意。但是,对天空和地面区域应用相同的滤波器组也可能会受到过度限制。空间不变性的某种程度的松弛,例如不同的天空和地面过滤器,可能更适合这种假设数据。

为了验证空间不变性是一种过度限制性归纳偏置的假设,我们创建了一个新的工具,允许我们放松空间不变性。我们开发了一个低秩局部连接(LRLC)层1,它可以参数化地调整空间不变性的程度。该层是通过减少权重共享来放松空间不变性的一种特殊方法。LRLC层学习一组K个滤波器组,这些滤波器组使用每个空间位置的K个组合权重进行线性组合,而不是学习单个滤波器组应用于所有位置(如卷积层)或不同滤波器组(如局部连接层)。

在我们的实验中,我们发现,在三个数据集(MNIST、CIFAR-10和CelebA)中,与卷积层和局部连接层相比,LRLC层放松空间不变性可以获得更好的性能。这些结果表明,与卷积层强制的空间不变性或局部连接层缺乏空间不变性相比,对图像数据集而言,某种程度的空间不变性松弛是一种更好的归纳偏置。

2.相关工作

连接主义模型中的局部连通性思想早于反向传播和卷积的流行。受视觉皮层组织的启发(Hubel&Wiesel,1963;1968),一些早期的神经网络模型由一个或多个二维特征图组成,其中神经元优先接收附近其他神经元的输入(Von der Malsburg,1973;Fukushima,1975)。与生物学决裂的是,Neocognitron(福岛,1980)在空间位置上共享权重,从而产生了空间不变性。然而,Neocognitron是使用竞争学习算法而不是梯度下降法进行训练的。LeCun(1989)将权重共享与反向传播相结合,证明在数字识别任务中,与局部连接网络(LCN)相比有相当大的收益。尽管在过去十年中,人们对计算机视觉CNN的兴趣重新燃起,但局部连接已经不再受欢迎。当层计算分布在多个节点上时,权重共享会带来额外的同步成本(Krizhevsky,2014);因此,第一个大规模并行的深度神经网络仅采用局部连接层(Raina等人,2009年;Uetz&Behnke,2009年;Dean等人,2012年;Le等人,2012年;Coates等人,2013年)。用于计算机视觉任务的一些最早成功的神经网络结合了卷积层和局部连接层(Hinton等人,2012;Goodfello等人,2013;Gregor等人,2014),以及用于人脸识别的网络(Taigman等人,2014;Sun等人,2014;2015;Yim等人,2015)。然而,较新的架构,甚至是设计用于人脸识别的架构(Schroff等人,2015;Liu等人,2017),通常只使用卷积。

比较卷积网络和局部连接网络用于计算机视觉任务的工作总是发现CNN具有更好的性能。Bartunov等人(2018年)比较了多个图像数据集上的分类性能,作为生物合理学习算法研究的一部分;卷积在数据集上实现了更高的精度。Novak et al.(2018)在初始化时导出了一个与无限宽CNN等价的内核,并表明在这个无限宽限制中,CNN和LCN是等价的。他们发现,SGD训练的CNN显著优于SGD训练的LCN和该内核。然而,d'Ascoli等人(2019)发现,最初训练卷积层,然后在接近训练结束时将卷积层转换为等效的完全连接层,导致性能略有提高。

其他工作试图将卷积的效率与局部连接的一些优点结合起来。Nowlan&Hinton(1992)提出了一种“软权重共享”方法,用于惩罚权重分布和高斯混合分布之间的差异。其他工作使用了周期性权重共享,也称为平铺,其中n个像素之外的过滤器共享权重(Le等人,2010年;Gregor&LeCun,2010年),或将特征地图细分为斑块,其中权重仅在每个斑块内共享(Zhao等人,2016年)。CoordConv(Liu等人,2018)将包含像素x和y坐标的特征地图连接到CNN的输入,允许在整个网络中直接使用位置信息。

输入相关的低阶局部连接,我们将在第3.2节中探讨。2和4.2,与先前应用输入相关卷积滤波器的工作进一步相关。空间软注意机制(Wang et al.,2017;Jetley et al.,2018;Woo et al.,2018;Linsley et al.,2019;Fukui et al.,2019)可以解释为通过整个过滤器的逐位置缩放在不同位置应用不同权重的机制。自注意(Bahdanaau et al.,2015;Vaswani et al.,2017)最近被应用于图像模型(Bello et al.,2019;Ramachandran et al.,2019;Hu et al.,2019),它提供了一种替代机制,可以将空间上的信息与内容相关的混合权重进行集成。非局部方法(Wang et al.,2018;Zhang et al.,2019)和图卷积方法(Chen et al.,2019a)是执行内容相关空间聚合的其他方法。其他方法在空间上应用相同的卷积滤波器,但分别为每个示例选择滤波器或分支(McGill&Perona,2017;Fernando等人,2017;Gross等人,2017;Chen等人,2019b;Yang等人,2019)。Jia等人(2016)的动态局部过滤层使用神经网络预测每个位置的一组单独过滤器。我们的方法只预测固定基集的组合权重,通过层核基集的大小控制空间不变性的程度。Yang et al.(2019)的CondConv layer预测了在所有空间位置上共享的每个示例的组合权重,而我们的方法学习每个空间位置的权重,这取决于示例。此外,可将输入相关LRLC层中的空间滤波器的计算视为与胶囊网络相关的动态路由的一种形式(Sabour等人,2017)。然而,在Sabour等人(2017年)中,第一个胶囊层(PrimaryCaps)是卷积的,完全连接到每个DigitCaps胶囊,这不允许像LRLC层那样部分放松空间不变性。

3.方法

3.1. 预备赛

让我∈ rh×W×Cin可以是带有Cin通道的输入(H:输入高度,W:输入宽度,Cin:输入通道)。在卷积层中,输入I与滤波器组F卷积∈ rh×w×Cin×Cout计算O∈ rh×W×Cout(H:滤波器高度大小,W:滤波器宽度大小,Cout:滤波器输出通道)。为了清晰显示,我们将图层输出和输入固定为相同大小,步幅为1,尽管我们在实验中放宽了这些限制。更正式地说,F在以位置(i,j)Ii,j为中心的大小为h×w×Cin的局部输入面片上的操作是:

我在哪里∈ R Cout是位置(i,j)处的输出∀我∈ {1,…,H}和∀J∈ {1,…,W}(定义为输入和滤波器沿前3个轴的元素相乘)。卷积的空间不变性是指对所有位置的输入面片应用相同的滤波器组F(图2左)。

另一方面,局部连接的层不共享权重。与卷积类似,他们使用带有局部感受野的滤波器。但是,过滤器并不是跨空间共享的(图2右侧)。形式上,每个输出Oi,j是通过将不同的滤波器组F(i,j)应用于相应的输入补丁(即Oi,j=Ii,j?F(i,j))来计算的。

根据经验,与卷积层相比,局部连接层的性能较差(Novak等人,2018年)。直观地说,图像中的局部区域并不是完全独立的,我们期望在一个局部区域上学习的滤波器在应用于附近区域时有用。虽然局部连接层严格来说比卷积层更强大,并且在理论上可以收敛到卷积解,但在实践中,它们不会收敛,而是过度拟合训练数据。然而,卷积层的性能优于局部连接层(LeCun,1989;Bartunov等人,2018;Novak等人,2018),这并不意味着严格要求空间不变性。

下面,我们开发了一些方法来控制一个层可能具有的空间不变性程度,这使我们能够检验空间不变性可能过度限制的假设

3.2. 低秩局部连接层

在这里,我们设计了一个局部连接层,该层具有控制空间不变性程度的空间秩参数。我们通过使用一组K个局部滤波器组(基集)来调整空间不变性的程度,而不是卷积层中的1个滤波器组或经典局部连接层中的H×W滤波器组(K是可以根据验证子集调整的超参数;1≤ K≤ H×W)。对于每个输入面片Ii,j,我们构造一个滤波器组来操作该面片,该面片是基集成员的线性组合。就是,

其中w(k)i,j∈ R是组合基集中滤波器组的权重∀我∈ {1,…,H}和∀J∈ {1,…,W}。该公式等价于局部连通核的秩为K的低秩因子分解。因此,我们将该层称为“低秩局部连接”(LRLC)层(图2)。

注意,在本文中,我们使用具有类似结构的滤波器的基集。然而,该层也可与包含具有不同结构(例如,不同的滤波器尺寸和/或膨胀率)的滤波器的基集一起使用。

基集中的过滤器使用特定于每个空间位置的权重进行线性组合。特别是,在基集中输入大小为H×W和K的滤波器组时,我们需要H×W×K权重来组合这些滤波器组,并在每个空间位置形成滤波器组。我们提出两种方法来学习这些组合权重。一种方法学习所有示例共享的权重,而第二种方法根据输入函数预测每个示例的权重。

3.2.1.固定组合权重

学习组合权重的最简单方法是学习每个空间位置的K个标量。这种方法非常适合于具有空间不均匀特征的数据集,例如对齐面的数据集。组合权重的数量与图像中可能较大的像素数量成线性比例。因此,为了减少参数,我们学习将位置(i,j)的每行和每列的权重组合如下:

该公式将组合权重参数的数量减少到(H+W)×K,这限制了层的表现力(即,限制了空间不变性的最大松弛度)。该公式在实践中也表现得更好(图Supp.2)。

我们进一步归一化权重,以限制组合滤波器的规模。标准化的常见选择是除以权重范数或使用softmax函数。在我们的早期实验中,我们发现softmax归一化的性能稍好一些。因此,组合权重的计算如下:

基集中的滤波器组和组合权重都可以端到端地学习。在实践中,我们使用卷积和逐点乘法运算实现该层,如算法1中所示,而不是形成等效的局部连接层。这种实现选择是由于局部连接层在实践中速度较慢,因为当前硬件的内存带宽有限,而卷积是高度优化和快速的。我们将组合权重初始化为一个常数,这相当于带有随机核的卷积层,尽管我们的主要发现在有或没有此初始化的情况下保持不变(图Supp.1)。

在训练时,LRLC层的参数计数约为相应卷积层的K倍,算法1的计算成本也是如此。然而,在训练网络之后,LRLC层可以转换为局部连接层。当卷积实现为矩阵乘法时,局部连接层具有与卷积相同的触发器计数(图Supp.4),尽管存储权重所需的内存量与特征映射的空间大小成比例。

空间变化偏置

通常,每个通道的学习偏置被添加到卷积的输出。这里,我们允许添加到LRLC输出的偏置也在空间上变化。与组合权重类似,将学习每行和每列偏置,并将其添加到标准通道偏置中。形式上,我们将层偏置(B)定义为:

b排在哪里∈ rh,b柱∈ RW和b频道∈ R库特。K=1的LRLC层的特殊情况等效于卷积运算,然后添加空间变化的偏置。在我们的实验中,我们使用这个例子作为一个简单的基线来测试仅仅在偏置中放松空间不变性是否足以看到改进。

3.2.2.与输入相关的组合权重

当所有图像与一致出现在相同空间位置的结构对齐时,直观地说,固定组合权重公式将最有效。许多图像数据集在结构上有一定的一致性,我们期望这种方法对于此类数据集特别成功。然而,这种公式可能不适合没有图像对齐的数据集。在本节中,我们描述了LRLC层的扩展,该扩展对输入上的组合权重进行了调节。

形式上,我们修改等式3中的组合权重,使其成为输入的函数:

其中g是一个轻型神经网络,用于预测每个位置的组合权重。更正式地说,g接受输入I∈ R H×W×Cin并输出权重

w~∈ R H×W×K。然后,预测权重被类似地归一化,如等式4所示,并与之前一样用于组合基集中的滤波器组,以形成每个空间位置的局部滤波器。与第3.2节类似。1,空间上变化的偏置也应用于层的输出。用于g的架构具有较低的计算成本,由几个并行应用的扩展可分离卷积组成,然后是一系列输出H×W×K张量的廉价聚合层。g的完整架构在补充章节B中有详细说明,如图Supp.5所示。

4.实验

我们在MNIST、CIFAR-10和CelebA数据集上进行了分类实验。我们在没有数据增强或正则化的情况下训练我们的模型,以便将我们的研究重点放在空间不变性程度对泛化的纯粹影响上。在我们的实验中,我们使用了最大学习率为0.01、小批量大小为512的Adam优化器。我们训练了150个epoch的模型,从10个epoch的线性预热期开始,然后使用余弦衰减时间表。我们在所有的训练中都使用了张量处理单元(TPU)加速器。

我们使用3层网络进行研究,每层64个通道,局部滤波器大小为3×3。每层之后是批量归一化和ReLU非线性。网络之后是一个全局平均池操作,然后是一个线性完全连接层以形成预测。我们的网络有足够的容量,我们进行了足够多的步骤训练,以达到较高的训练精度(表Supp.2)。对于我们的所有结果,我们展示了基于10种不同随机初始化训练模型的平均精度±标准误差。我们的训练、验证和测试子集划分如表Supp.1所示。

4.1. 空间不变性可能过于严格

在本节中,我们将研究放松层的空间不变性程度是否是图像分类的更好的归纳偏置。我们用设计的低秩局部连接(LRLC)层替换了网络不同深度的卷积层(第一层、第二层、第三层或所有层)。我们改变了LRLC层的空间秩,这控制了从空间不变卷积层到局部连接层的偏置程度。如果秩较小,则网络被限制在跨空间共享更多的过滤器,并且秩越高,施加的共享越少。我们训练了我们的模型,并量化了这些不同等级的测试数据的泛化精度。

当秩为1时,LRLC层等效于具有附加空间偏置的卷积层。将这种空间偏置添加到卷积中可以提高正常卷积层的精度(表1)。增加空间秩允许层在不同的空间位置使用不同的滤波器,并进一步偏离卷积网络。我们的结果表明,这样做进一步提高了准确性(图3)。我们发现,在任何深度放置LRLC层的网络,或用LRLC层替换所有层的网络,其精度高于纯卷积网络(图3和表1)。这些发现为空间不变性可能过度限制的假设提供了证据。我们的结果进一步表明,在网络后期(靠近网络输出)放松空间不变性比早期(在输入)好。在网络后期放松空间不变性也比在每一层放松好(表1)。不同数据集的最优空间秩不同;CIFAR-10数据的秩最低,CelebA的秩最高。

LRLC层具有编码位置的能力,这是普通卷积层所缺乏的。这种额外的位置编码可以解释精度的提高。之前的工作试图通过增加坐标通道的输入来赋予卷积网络这种能力,这种方法被称为CoordConv(Liu等人,2018)。为了测试LRLC层的功效是否可以仅仅通过其编码位置的能力来解释,我们将其性能与CoordConv进行了比较。我们的结果表明,CoordConv优于vanilla卷积,但仍落后于LRLC网络(表2和图4),这表明LRLC层的归纳偏置更适合数据。与CoordConv不同,LRLC层允许通过调整空间秩来控制和调整不同数据集的空间不变性程度。但是,对于CoordConv,这种调整是不可能的。这直观地说明了为什么LRLC层比CoordConv更适合数据。

尽管局部连接层具有与标准卷积层类似的推断时间触发器计数,但空间不变性的放松是以增加可训练参数的数量为代价的。特别是,LRLC层中可训练参数的数量随着空间秩线性增长(忽略组合权重和空间偏置,因为它们相对较小)。模型参数的增加并不能解释LRLC层的优越性。与LRLC层相比,局部连接层的可训练参数更多,但性能更差(图4和表2)。此外,即使在加宽卷积层以匹配LRLC层的可训练参数计数之后,仅具有卷积层的网络仍然不匹配具有低秩局部连接层的网络的精度(图4,补充3和表2)。因此,在我们的实验中,LRLC层似乎提供了与参数计数无关的更好的归纳偏置。

4.2. 与输入相关的低秩局部连通性对于对齐较少的数据集来说是一种更好的归纳偏置

在上一节中,我们的结果表明,最佳空间秩依赖于数据集。具有最高精度的空间秩(最佳秩)在不同的数据集中是不同的,并且通常远离满秩(即输入的空间大小),这就直观地说明了为什么卷积层在卷积更接近最佳秩的情况下对图像工作得很好,而与普通的局部连接层相比。最佳秩似乎取决于数据集中的对齐方式。例如,CelebA数据集的最佳秩最高,该数据集包含大致对齐的人脸图像。相比之下,在CIFAR-10上,最佳秩较低,这可能反映了数据集中除了对图像中心对象的微弱偏向之外,没有对齐。

这些发现提出了这样一个问题:如果跨空间的局部过滤器的分配不是在整个数据集中固定的,而是以输入为条件的,那么是否可以获得更多收益。为了回答这个问题,我们修改了LRLC层,以允许该层根据输入分配局部滤波器(见第3.2.2节)。这种方法与之前关于输入相关滤波器的工作有一些相似之处(Yang等人,2019年;Jia等人,2016年)。我们测试了使用这种依赖于输入的方法选择局部过滤器是否可以在对齐程度较低的CIFAR-10数据集中获得更多收益。我们的结果表明,与固定LRLC层相比,依赖输入的LRLC网络确实在CIFAR-10上实现了更高的精度,并产生了更高的最佳空间秩(图5和表3)。我们还在MNIST和CelebA上实验了输入相关的LRLC。我们发现,与具有固定权重的LRLC相比,依赖输入的LRLC对MNIST的影响较小,对CelebA的准确性也有一定的影响(图5和表3)。这一发现表明,对于高度对齐的数据,低秩局部连接性是一种更好的归纳偏置,而与输入相关的低秩局部连接性更适合于对齐程度较低的数据集(图5)。

为了进一步研究这一发现,我们通过将32×32人脸图像均匀地放置在带有随机均匀噪声的48×48图像中,从而随机平移CelebA人脸,破坏了CelebA中的对齐。我们的结果表明,“翻译的CelebA”上的LRLC精度下降,而输入相关的LRLC精度在很大程度上保持不变(图Supp.6)。我们进一步将权重与秩2模型相结合,以便于解释结果。我们的结果表明,LRLC层的组合权重使用一个滤波器组用于平移面重叠最多的中心位置,另一个用于边缘(图Supp.7左侧)。对于依赖输入的LRLC,组合权重跟踪转换的面,这使层能够在对齐度较低的数据集中捕获空间变化的信息(图Supp.7)。

4.3. 低秩局部连通性在大规模问题中应用的可行性

在本节中,我们将演示在大规模问题中使用低秩局部连接层的可行性。局部连接层不适用于大规模问题,因为可训练参数的数量随空间维度的变化而变化,这在具有高分辨率图像的数据集中可能会非常大。例如,应用于来自ImageNet的224x图像的局部连接层需要局部连接层中的50176个局部滤波器组。相比之下,低秩局部连接层中的滤波器组数量仅与秩参数成比例,这实际上比空间维度小得多。

为了证明在实践中使用LRLC层的可行性,我们在ImageNet上使用ResNet-50进行了两次实验(训练详情见附录C)。在第一个实验中,我们在第一个卷积层之后插入了一个额外的LRLC层。在第二个实验中,我们用LRLC层替换了网络块中的所有3×3卷积。请注意,如果我们使用一个普通的局部连接层,这些实验将非常昂贵。我们研究了空间等级1、4和7,并使用保持数据集分割选择了最佳等级。与先前在MNIST、CIFAR-10和CelebA中的结果类似,LRLC模型优于卷积,这表明ImageNet也受益于放松空间不变性(表4)。然而,在ImageNet上,与LRLC中的参数数量相匹配的更广泛版本的ResNet-50要么匹配,要么优于LRLC(表4)。运行这些大规模实验的可行性为在许多计算机视觉问题中使用LRLC层打开了大门。

5.结论

在这项工作中,我们测试了空间不变性(卷积层的基本属性)是否是一种过度限制的归纳偏置。为了解决这个问题,我们设计了一个新的局部连接层(LRLC),其中的空间不变性程度可以通过修改空间秩参数来控制。此参数确定局部滤波器组的基本集的大小,图层可以使用这些基本集在输入的不同位置形成局部滤波器。LRLC层具有与局部连接层类似的限制,即它具有比卷积层更多的可训练参数。然而,LRLC参数的计数尺度仅与空间秩有关,这比局部连接层中的空间维度尺度小得多。

我们的结果表明,使用我们的LRLC层放松空间不变性可以提高标准卷积网络模型的准确性,这表明空间不变性可能过于严格。然而,我们还发现,我们提出的LRLC层比普通的局部连接层实现了更高的精度,这表明它有利于部分空间不变性。我们表明,在后期层中放松空间不变性优于在早期层中放松空间不变性。此外,我们发现,当数据没有很好地对齐时,与输入相关的LRLC层(它使局部滤波器适应每个输入)表现得更好。

局部连接层在很大程度上被研究界忽视,因为人们认为它们的性能很差,而且可训练参数的数量也很复杂。然而,我们的研究结果表明,这种悲观主义应该重新审视,因为具有低秩参数化的局部连接层实现了良好的性能,并解决了可训练参数的复杂性问题。进一步的工作是必要的,以捕捉放松对其他计算机视觉问题和数据集的空间不变性的优势。实现这一目标的一个有趣方向是利用我们的LRLC公式,并探索使用具有混合过滤器大小和膨胀率的基集来构建各种层,以适合不同应用程序的数据集。

6.致谢

我们非常感谢吉全·恩贾姆、彼得·詹·金德曼斯、贾斯卡·苏尔·迪克斯坦、杰洪·李、丹尼尔·帕克、索邦·纳德利、马克斯·弗拉季米罗夫、休姆、迈克尔·辛比斯基、罗曼·诺瓦克、哈尼·塞吉、卡尔蒂克·穆尔西、迈克尔·莫泽和亚尼·伊奥安诺对手稿进行了有益的讨论并提供了有益的反馈。

[if !supportLists]A. [endif]补充数字

图Supp.1:

结构化与非结构化初始化。前1位精度与图3相似。我们研究了我们在LRLC层实验中使用的结构化初始化的效果(即,使用随机核初始化到卷积层)。在结构化初始化中,我们将层合并权重初始化为常数,等于1/√ 空间等级。我们将此初始化与组合权重的随机初始化进行了比较。我们的结果表明,结构化初始化通常与非结构化初始化非常相似。误差条表示从10个不同随机初始化的训练模型计算出的±标准误差。

图Supp.2:

因式分解与完全组合权重和偏置。前1位精度与图3相似。我们研究了方程3和5中组合权重和偏置的因式分解效应。我们比较了具有因式分解权重和偏置的LRLC层与不具有因式分解的LRLC层的性能。具有因式分解的层似乎性能更好。

图Supp.3:

精度作为模型参数的函数。分类精度是网络参数的函数。误差条表示从10个不同随机初始化的训练模型计算出的±标准误差。

图Supp.4:

计算量是局部连通核空间秩的函数。随着局部连接内核的空间秩的增加,输入相关LRLC层和具有类似可训练参数(宽卷积)的卷积层的计算成本(通过浮点运算(FLOPS)的数量衡量)以类似的速率增长,而LRLC层的计算成本保持不变,因为它可以在推理时转换为局部连接层。

图Supp.6:

与输入相关的LRLC对转换是不变的。比较CelebA和翻译后的CelebA数据集中LRLC和输入相关LRLC网络的性能。

图Supp.7:

组合权重的可视化。将LRLC网络a)和b)中的输入相关LRLC网络的权重与在翻译的CelebA数据集上训练的秩2相结合。

B.与输入相关的组合权重网络

图Supp.5说明了输入相关组合权重网络(g)的架构。g的初始操作是使用1×1卷积将输入通道投影到低维空间。该投影用于允许g具有少量参数,并且还因为在基集中选择滤波器组可能比网络正在执行的分类任务更简单。受分段工作的推动(Chen等人,2017a;Yu&Koltun,2015;Chen等人,2017b),第二次操作使用并行池和扩展的深度3×3卷积层,然后进行双线性调整,收集输入不同尺度的统计数据。注意,由于初始投影步骤和深度卷积的使用,此处参数的增加很小。下一阶段是一个非线性低维瓶颈,然后是具有1×1卷积的非线性维数扩展。该操作与挤压和激发操作类似(Hu等人,2018年),其目的是赋予g学习输入有用嵌入的能力。最后一层是线性1×1卷积,将信道大小减小到空间秩。

C.ImageNet训练

我们将标准ImageNet ILSVRC 2012训练集划分为训练和开发子集。我们在训练子集上训练我们的模型,并根据发展子集选择最佳等级。我们遵循常规做法,并在单独的ILSVRC 2012验证集上报告结果,我们不将其用于训练或超参数选择。我们通过优化交叉熵损失加上模型权重的2-正则化来训练网络。我们使用Nesterov动量为0.9的随机梯度下降优化了所有模型。我们通过减去平均值并除以训练样本的标准偏置对图像进行预处理。在优化过程中,我们通过在图像中进行随机裁剪,然后根据模型分辨率执行双三次调整来增加训练数据。我们使用了2048的批量和8e的2-正则化规模− 5.我们训练了150个epoch的模型,从10个epoch的线性预热期开始,然后使用余弦衰减时间表。我们在所有的训练中都使用了张量处理单元(TPU)加速器。我们通过计算top-1精度±标准误差来计算我们的结果,该误差基于从3种不同随机初始化训练的模型。

D.补充表格

上一篇下一篇

猜你喜欢

热点阅读