SA-Siam文章阅读笔记

2019-03-09 本文已影响0人橙子潘潘

论文：A Twofold Siamese Network for Real-Time Object Tracking
会议：CVPR2018
领域：单目标跟踪全卷积孪生网络

创新点：

将图像分类任务中的语义特征与相似度匹配任务中的外观特征互补结合。
分开训练两个孪生网络，分别用于提取语义特征和外观特征。

引入：

众所周知，在深度CNN训练目标分类的任务中，网络中深层的特征具有强的语义信息并且对目标的外观变化拥有不变性。在相似性学习问题中，这些语义特征是外观特征的一个理想的补充。
对于SiamFC，它的泛化能力很弱，当遇到目标有突出的外观变化时就会出现问题。

本文目的：提高SiamFC的泛化能力。

贡献一：设计SA-Siam，是一个双重Siamese网络，由语义分支和外观分支组成。孪生网络中的每一个分支都会去计算目标图像与搜索图像之间的相似度得分。为了保持两个分支的独立性，两个Siamese网络在训练过程中没有任何关系，仅仅在测试过程中才会结合。
贡献二：对于新引入的语义分支，进一步提出了通道注意力机制（channel attention mechanism）。这个机制的动机是，不同的目标激活不同的特征通道。对某些目标有重要作用的通道设置较高的权重系数。通过目标物体和上下文环境的通道响应值来计算相应的通道权值。

本文方法：

作者提出一个双重SiamFC网络用于实时视觉跟踪。这个设计背后的基础思想是，在相似度学习问题中训练的外观模型和在图像分类问题中训练的语义模型可以互补，因此把两部分结合用于跟踪。

网络整体架构
标注z表示从第一帧中剪取出的目标，表示目标上下文，表示搜索区域。虚线连接的蓝色部分是最初的孪生网络SiamFC。

网络架构

每一个分支的输出是一张响应图，表明目标 $z$ 和在搜索区域 $X$ 中的候选块 $x$ 的相似度。

外观分支（appearance branch）：外观分支的输入是 $(z,X)$ ，直接复制了SiamFC的网络架构。这个网络叫做A-Net，用来提取外观特征。 $f(\cdot)$ 表示特征提取。来自外观分支的响应图表示成：
$h_a(z,X)=corr(f_a(z),f_a(X))$
通过最小化逻辑损失函数来优化网络：
对于目标的处理，将 $z^s$ 作为输入， $z^s$ 中有目标和目标的上下文信息。通过裁剪（crop）操作，从 $f_s(z^s)$ 得到 $f_s(z)$ 。注意模块(attention module) 的输入是 $f_s(z^s)$ ，输出的是通道系数 $\xi$ 。特征在通过1x1的卷积网络进行融合之前，要与通道权重相乘。语义分支的响应图为：
$arg\min_{\theta_a} \sum_{i=1}^N {L(h_a(z_i,X_i;\theta_a),Y_i)}$

$h_s (z^s,X)=corr(g(ξ \cdot f_s (z)),g(f_s (X)))$
$ξ$ 的维度与 $f_s(z)$ 中通道的数目一样。通道系数和特征图之间是对应元素相乘。
暂未完成。。。后续更新。

SA-Siam文章阅读笔记

创新点：

引入：

相关工作：

本文方法：

网络架构

猜你喜欢

热点阅读