计算机视觉笔记

论文笔记 Hrnet

2019-06-16  本文已影响62人  EverydayRunning

High-Resolution Representations for Labeling Pixels and Regions

架构

如图1所示,HRnet的架构由四级组成,第2、第3和第4级由重复的 多分辨率</br>模块组成。每个多分辨率模块由多分辨率组卷积组成。多分辨率卷积如图2(a)和(b)组成。多分辨率卷积组是组卷积的简单扩充,它将输入通道分成几个子通道,并对每个子通道中不同的空间分辨率进行一次常规卷积。

figure1.PNG figure2.PNG

图2(b)描述了多分辨率卷积的架构,它利用类似常规卷积中的全连接的模式,将多个分支集合起来,如图2(c)所示。常规卷积能够被划分为多次的小卷积。输入通道和输出通道均被分成几个子通道。输入和输出子通道通过全连接的样式连接起来,每个连接也是一次常规卷积。输出通道的每个子通道是每个输入通道卷积输出后的集合。

不同之处有两点:(1)在多分辨率卷积中,每个子通道的分辨率是不同的。(2)在处理输入和输出通道之间的连接时,需要处理分辨率降低的问题。这一问题是通过2-strided 3x3的卷积进行。

改进

在最初的HRnetV1中,只有高分辨率的特征图被输出出来,如图3(a)所示。这意味着只有高分辨率子通道的信息被利用上了,其他通道的信息就被舍去了。


figure3.PNG

我们对此进行了简单有效的修改,也就是利用上低分辨率通道的信息,这使得多分辨率卷积被充分的利用上了。

我们对第分辨率的特征表示进行双线性上采样,然后将这些特征表示堆叠起来,如图3(b)所示。我们利用这一步骤估计分割特征图/面部基准点热力图。在目标检测的应用中,我们通过多层次的平均池化进行下采样,构建了一个多层次的特征图,如图3(c)所示。这两种改进分别称为HRNetV2和HRNetV2p。

实例化

我们对这一网络的实例化同HRNetV1相似。网络开始阶段的枝干上包含两个strided 3x3的卷积,并将分辨率降低1/4。第一级包含四个残差单元,每个单元由一个宽度为64的bottleneck组成,并跟随着一个3x3的卷积层,将特征图的宽度减小到C。第2、第3和第4级分别包含1,4,3个多分辨率模块。四个分辨率卷积层的宽度(通道数)分别是C,2C,4C,和8C。多分辨率组卷积的每个分支包含4个残差单元,每个分辨率下的每个单元包括两个3x3的卷积。

在语义分割和面部关键点识别领域,我们将输出特征进行混合,如图3(b)所示,混合通过1x1的卷积在四个分辨率下进行,产生15C维的特征表示。然后,我们把混合后每个点的特征传入到线性分类/回归器中,损失函数设为Softmax/MSE损失,进而预测分割图或者面部关键点热力图。对于语义分割,训练集和测试集的分割图通过双线性上采样4倍,达到输入图像的分辨率。对于目标检测,我们在组成特征金字塔之前,通过一个1x1的卷积将高分辨率的特征表示减少至256.

Deep High-Resolution Representation Learning for Human Pose Estimation

人体姿态估计,也就是,关键点检测,目的在于从尺寸为W\times H\times 3的图像I中检测K个关键点或者关键部位,如,眼球,手腕等。这种state-of-the-art方法这一问题转化为估计K个尺寸为W'\times H'的热力图,\{H_1,H_2,...,H_k\},每个热力图H_k表示第k个关键点的位置置信度。
![成。这些卷积单元具有并联单元之间的交换单元。

eqution2.PNG

其中,C^b_{sr} 代表第 S 级第 b 个模块中的第 r 个分辨率的卷积单元。
\epsilon^b_s 是对应的交换单元

figure1_2.PNG

图3阐述了交换单元,并展示了如下的搭配。在讨论为求简洁时省去了上标和下标。输入为s个特征图:{\{X_1,X_2,...,X_s\}},输出为s特征图:{\{Y_1,Y_2,...,Y_s\}},输入和输出的分辨率和宽度都一样。每个输出都是输入特征图的聚合,Y_k= \sum^s_{i=1}a(X_i,k)。不同级之间的交换单元具有额外的输出特征图Y_{s+1}:Y_{s+1}=a(Y_s,s+1)

函数 a(Y_s,s+1) 表示将X_i从分辨率i上采样或者下采样到分辨率k。使用 strided 3 \times 3 的卷积做下采样。对上采样,使用简单的最近邻域采样,紧跟一个 1 \times 1 的卷积进行通道对齐。如果 i=k,a(.,.) 是独一的连接,那么 a(X_i,k)=X_i

热力图估计

我们通过最后一个交换单元的高分辨率特征表示获得热力图的回归,这种做法通常很有效果。损失函数是通过比较理想热力图和实际热力图的均方差构建的。标准热力图是每个关键点的单个像素通过标准二维高斯滤波的结果。

网络实例

我们根据ResNet的设计规则,来设计每个分辨率的通道数和每一级的网络深度,以便进行关键点热力图估计。

主体网络包含四级,具有四个并联的子网络。网络的分辨率逐步递减为前一级的一半,宽度,也就是通道数加倍。第一级包含4个残差单元。和ResNet-50一样,每个单元由一个宽度为64的bottleneck跟随一个 3 \times 3 的卷积单元构成。卷积单元是为了将特征图的宽度减至C。第2、第3和第4级分别包含1、4和3个交换单元。一个交换单元包含4个残差单元。每个残差单元包含两个 3 \times 3 的卷积。总共有8个交换单元,也就是进行了八次多尺度融合。

在我们的实验中,进行了一个小网络和一个大网络,分别是: HRNet-W32和HRNet-W48,其中32和48分别代表最后三级高分辨率子网络的宽度。其他三个并联的子网络的宽度分别为,64,128,256和96,192,384。

上一篇下一篇

猜你喜欢

热点阅读