瞎读论文“FREE: Feature Refinement fo

2023-04-11  本文已影响0人  掉了西红柿皮_Kee

Chen S, Wang W, Xia B, et al. Free: Feature refinement for generalized zero-shot learning[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 122-131.

导读

在统一网络中使用特征细化(FR)模块对原有的语义到视觉特征的映射进行修正,从而缓解由跨数据集所带来的偏差,实现更好的知识迁移。

符号声明

在GZSL中,按照训练数据中的可见类别和测试数据中的非可见类别,将可见数据记录为\mathcal{S}=\{(x_i, y_i)\}_{i=1}^M,其中x_i为视觉特征,y_i \in \mathcal{Y}^s是其对应的类别标签,M是可见图片的数量。设\mathcal{Y}^u是不可见类别的集合,且满足\mathcal{Y}^s \cap \mathcal{Y}^u = \varnothing。每个可见和非可见类别都拥有自己对应的属性嵌入表示a_j \in \mathcal{A}, \forall j \in \mathcal{Y}^s \cup \mathcal{Y}^u

模型浅析
f-VAEGAN

f-VAEGAN是生成式GZSL的baseline模型。其主要包括一个VAE和一个GAN结构。其中f-VAE包含编码器E(x, a)以及一个解码器G,该解码器与f-WGAN共享,作为f-WGAN中的条件生成器G(z, a)。编码器以x, a为输入,编码为中间层表示z,同时通过生成器G(z, a)对视觉特征进行重构得到\hat{x}。该f-VAE由标准的VAE损失进行优化:

其中p(z|a)是服从\mathcal{N}(0,1)的先验分布。两个子损失分别是KL散度和重构损失。
f-WGAN由生成器G(z, a)以及判别器D(x, a)组成。G(z, a)使用随机的输入噪音z来合成特征\hat{x},然后判别器D(x, a)x\hat{x}为输入,并输出代表真实度或虚假度的一个实数值。GD都以嵌入表示a为条件来优化WGAN损失: 其中x'=\tau x + (1-\tau)\hat{x}\tau \sim U(0,1)\lambda是惩罚系数。
Feature Refinement
FR模块的设计是为了对特征进行修正以减轻由跨数据及偏差带给迁移学习中的限制。该模块由SAMC-损失和语义循环一致性损失两部分约束。最后,将FR模块中多层的特征进行拼接,得到修正的特征用于分类。模块结构如下:
Optimization

与GANs的迭代更新策略类似,在生成的视觉特征之前交替训练E、G,在生成的视觉特征之后交替训练E、D和FR。

Classification

GZSL的目标是学习一个分类器f_{gzsl}: \hat{\mathcal{X}} \to \mathcal{Y}^s \cup \mathcal{Y}^u。在给定训练数据后,目的是在细化的特征空间中训练一个有监督的分类器作为最终的GZSL分类器。在测试过程中,FR将可见/不可见的测试特性细化为新特性,然后得出进一步的分类结果。

各种符号之间的对应关系:
1.训练集中可见数据集样本特征x,其对应的合成特征为\hat{x},即\hat{x}=G(E(x, a), a)
2.x\hat{x}作为FR的输入可以得到对应的h\mu,以及生成的对语义的重构\hat{a}_{real}\hat{a}_{syn},并且在这个过程中可以利用\mathcal{L}_{SAMC}损失自动的学习样本对应的类别中心的语义嵌入以同时学习类内紧致性和类间可分性。
3.虽然作为输入,我们不知道x_u的类别,但是在f-VAEGAN中可以生成其对应的\hat{x}_u。得到其最终的细化特征表示然后用于分类。\hat{x}_u的获得从训练好的f-VAEGAN + FR获得的,因此有助于迁移学习的修正。


最终学习的这个细化表示分别是输入x,中间层表示h以及对应语义表示a的拼接。从任务的定义来看,(1)(3)两项分别是已知变量存在的,那么中间层h的存在对最终的特征修正至关重要?笔者对该任务的理解还不是很深入,因此可能存在一定的偏差。欢迎探讨。

上一篇 下一篇

猜你喜欢

热点阅读