Defending Your Voice: Adversaria

2020-11-24  本文已影响0人  没日没夜醉心科研的九天

Abstract

        对speaker做对抗攻击,相当于生成了一个defended speaker,使其听觉上不易区分,但是能有效防止其被VC滥用。(本文的基调是defend)

        第一次尝试对VC进行对抗攻击,提出了三种攻击方法:end-to-end、embedding、feedback,取得了较好的效果。

本文使用的VC模型

        Encoder-decoder。Encoder包含content和speaker,我们只关心speaker,不关心content。

Encoder-decoder

对抗攻击

        端到端、embedding攻击、反馈攻击

     1.End-to-end

                把decoder的输出F作为攻击目标,实施无目标攻击。目标函数:

objective function--untargetded

                若是给定特定说话人y实施目标攻击,则目标函数为:尽可能与y接近,与x远离。

objective function--targetded  

为了有效限制/delta,使用tanh:\delta=\epsilon\cdot tanh(w)

     2.Embedding攻击

                Es将语句嵌入到vector中。同一个speaker的vector会紧密聚簇,而不同speaker会分散。

                直接改变speaker的embedding,从而改变decoder的输出F。

Embedding攻击

     3.Feedback攻击

                将decoder的输出F作为Es的输入,targeted攻击:

Feedback攻击

Experiment Settings

        One-shot VC(Chou et al)& AUTO VC都能实施zero-shot 说话人未知的语音转换,且不需要调整。

Results

        用性别分类器来对转换语音进行辨别。若性别改变,则说明speaker的性质更改地很明显或其声音得到较好的保护。

     Objective实验设计

                从VCTK随机挑选100人(50男,50女),以defended speaker相反性别的speaker为目标,在对抗样本、转换语音(对抗样本的输出)、合法输出进行性别分类。同时在Chou和AUTO VC上进行。

           白盒攻击结果

                对抗输入与原始音频很接近,说明imperceptible;但是对抗输出效果很明显,说明effective。

白盒攻击

           黑盒攻击结果

                1.仅针对Chou的模型,更改 ᵋ的大小。当其为0.1的时候,效果最好,既不易察觉,又能有效攻击。

黑盒--Chou

                2.仅针对AUTO VC,embedding攻击。效果也不错(其他两种效果不太行)。

黑盒--AUTO VC

                总的来说,embedding攻击是最有效的,不仅同时适用于两个VC模型,攻击效果好,用时短。Feedback在AUTO VC上效果不太好,而且由于要多经历一次encoder-decoder,用时太久;end-to-end可能是频谱之间的距离与speaker性别之间的距离并不总是平行,效果也不太行。

      Subjective实验设计

                选择embedding攻击的AUTO VC,黑盒+白盒。测试者被给出语音pair:原始语音+对抗输入/对抗输出/原始输出,判断是否是同一语音。

                测试结果

                        至少44%~58%的对抗输入都保持着原speaker的性质,而至少58%~88%的对卡个输出都明显改变speaker的性质。说明效果依然不错。

Subjective

文章出处:Defending Your Voice: Adversarial Attack on Voice Conversion

                    submitted to Interspeech 2020

上一篇下一篇

猜你喜欢

热点阅读