瞎读论文“FREE: Feature Refinement fo

2023-04-11 本文已影响0人掉了西红柿皮_Kee

Chen S, Wang W, Xia B, et al. Free: Feature refinement for generalized zero-shot learning[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 122-131.

导读

在统一网络中使用特征细化（FR）模块对原有的语义到视觉特征的映射进行修正，从而缓解由跨数据集所带来的偏差，实现更好的知识迁移。

符号声明

在GZSL中，按照训练数据中的可见类别和测试数据中的非可见类别，将可见数据记录为 $\mathcal{S}=\{(x_i, y_i)\}_{i=1}^M$ ，其中 $x_i$ 为视觉特征， $y_i \in \mathcal{Y}^s$ 是其对应的类别标签， $M$ 是可见图片的数量。设 $\mathcal{Y}^u$ 是不可见类别的集合，且满足 $\mathcal{Y}^s \cap \mathcal{Y}^u = \varnothing$ 。每个可见和非可见类别都拥有自己对应的属性嵌入表示 $a_j \in \mathcal{A}, \forall j \in \mathcal{Y}^s \cup \mathcal{Y}^u$ 。

模型浅析

f-VAEGAN

f-VAEGAN是生成式GZSL的baseline模型。其主要包括一个VAE和一个GAN结构。其中f-VAE包含编码器 $E(x, a)$ 以及一个解码器 $G$ ，该解码器与f-WGAN共享，作为f-WGAN中的条件生成器 $G(z, a)$ 。编码器以 $x, a$ 为输入，编码为中间层表示 $z$ ，同时通过生成器 $G(z, a)$ 对视觉特征进行重构得到 $\hat{x}$ 。该f-VAE由标准的VAE损失进行优化：

其中

p(z|a)

是服从

\mathcal{N}(0,1)

的先验分布。两个子损失分别是KL散度和重构损失。
f-WGAN由生成器

G(z, a)

以及判别器

D(x, a)

组成。

G(z, a)

使用随机的输入噪音

z

来合成特征

\hat{x}

，然后判别器

D(x, a)

以

x

或

\hat{x}

为输入，并输出代表真实度或虚假度的一个实数值。

G

和

D

都以嵌入表示

a

为条件来优化WGAN损失：

其中

x'=\tau x + (1-\tau)\hat{x}

，

\tau \sim U(0,1)

，

\lambda

是惩罚系数。

Feature Refinement

FR模块的设计是为了对特征进行修正以减轻由跨数据及偏差带给迁移学习中的限制。该模块由SAMC-损失和语义循环一致性损失两部分约束。最后，将FR模块中多层的特征进行拼接，得到修正的特征用于分类。模块结构如下：

Self-Adaptive Margin Center Loss
该损失为了引导FR学习视图特征中类别相关的表示。在 $\mathcal{L}_{SAMC}$ 中类别中心在整个训练的过程中动态更新，使得特征学习更加有效。损失函数形式化为如下：其中 $\textbf{c}_y$ 是对应于特征 $x$ 的标签 $y$ 的语义嵌入的类别中心， $\textbf{c}_{y’}$ 则是除类别 $y$ 之外的随机选取的类别标签 $y'$ 的类别中心， $\Delta$ 是间隔系数，来控制类间和类内对的距离， $\mu$ 是由FR编码的特征， $\lambda$ 是控制系数分别应用于细粒度和粗粒度的数据集。
Semantic Cycle-Consistency Loss
FR模块的最后一层用于从 $x$ 或 $\hat{x}$ 中重构语义嵌入 $\hat{a}$ 。该损失用来引导FR学习语义相关的表示，并由L1重构损失实现： $\hat{a}_{real}$ 是对应于 $x$ 的合成语义； $\hat{a}_{syn}$ 是对应于 $\hat{x}$ 的合成语义。 $\hat{a}$ 由二者的并集组成， $a$ 是特征 $x$ 或 $\hat{x}$ 的对应语义嵌入。
Extracting Fully Refined Features
经过第一阶段的训练，可以从FR中提取完全细化的特征 $\tilde{x}_s$ 和 $\tilde{x}_u$ 分别对应于真实可见的视觉特征 $x$ 和真实/合成的不可见视觉特征 $x_u/\hat{x}_u$ 。考虑到从高维到低维的编码会不可避免地丢弃一些鉴别信息，这可能会阻碍GZSL分类性能。这里采用残差信息来得到最终的fully refined feature：分别是输入 $x$ 、对应的中间层表示 $h \in \mathcal{H}$ 以及语义相关嵌入表示 $\hat{a} \in \mathcal{A}$ 的拼接结果。

Optimization

与GANs的迭代更新策略类似，在生成的视觉特征之前交替训练E、G，在生成的视觉特征之后交替训练E、D和FR。

Classification

GZSL的目标是学习一个分类器 $f_{gzsl}: \hat{\mathcal{X}} \to \mathcal{Y}^s \cup \mathcal{Y}^u$ 。在给定训练数据后，目的是在细化的特征空间中训练一个有监督的分类器作为最终的GZSL分类器。在测试过程中，FR将可见/不可见的测试特性细化为新特性，然后得出进一步的分类结果。

各种符号之间的对应关系:
1.训练集中可见数据集样本特征 $x$ ，其对应的合成特征为 $\hat{x}$ ，即 $\hat{x}=G(E(x, a), a)$ 。
2. $x$ 或 $\hat{x}$ 作为FR的输入可以得到对应的 $h$ 和 $\mu$ ，以及生成的对语义的重构 $\hat{a}_{real}$ 或 $\hat{a}_{syn}$ ，并且在这个过程中可以利用 $\mathcal{L}_{SAMC}$ 损失自动的学习样本对应的类别中心的语义嵌入以同时学习类内紧致性和类间可分性。
3.虽然作为输入，我们不知道 $x_u$ 的类别，但是在f-VAEGAN中可以生成其对应的 $\hat{x}_u$ 。得到其最终的细化特征表示然后用于分类。 $\hat{x}_u$ 的获得从训练好的f-VAEGAN + FR获得的，因此有助于迁移学习的修正。

最终学习的这个细化表示分别是输入 $x$ ，中间层表示 $h$ 以及对应语义表示 $a$ 的拼接。从任务的定义来看，（1）（3）两项分别是已知变量存在的，那么中间层 $h$ 的存在对最终的特征修正至关重要？笔者对该任务的理解还不是很深入，因此可能存在一定的偏差。欢迎探讨。