Defending Your Voice: Adversaria

2020-11-24 本文已影响0人没日没夜醉心科研的九天

Abstract

对speaker做对抗攻击，相当于生成了一个defended speaker，使其听觉上不易区分，但是能有效防止其被VC滥用。（本文的基调是defend）

第一次尝试对VC进行对抗攻击，提出了三种攻击方法：end-to-end、embedding、feedback，取得了较好的效果。

本文使用的VC模型

Encoder-decoder。Encoder包含content和speaker，我们只关心speaker，不关心content。

Encoder-decoder

对抗攻击

端到端、embedding攻击、反馈攻击

1.End-to-end：

把decoder的输出F作为攻击目标，实施无目标攻击。目标函数：

objective function--untargetded

若是给定特定说话人y实施目标攻击，则目标函数为：尽可能与y接近，与x远离。

objective function--targetded

为了有效限制/delta，使用tanh： $\delta=\epsilon\cdot tanh(w)$ 。

2.Embedding攻击

Es将语句嵌入到vector中。同一个speaker的vector会紧密聚簇，而不同speaker会分散。

直接改变speaker的embedding，从而改变decoder的输出F。

Embedding攻击

3.Feedback攻击

将decoder的输出F作为Es的输入，targeted攻击：

Feedback攻击

Experiment Settings

One-shot VC（Chou et al）& AUTO VC都能实施zero-shot 说话人未知的语音转换，且不需要调整。

Results

用性别分类器来对转换语音进行辨别。若性别改变，则说明speaker的性质更改地很明显或其声音得到较好的保护。

Objective实验设计

从VCTK随机挑选100人（50男，50女），以defended speaker相反性别的speaker为目标，在对抗样本、转换语音（对抗样本的输出）、合法输出进行性别分类。同时在Chou和AUTO VC上进行。

白盒攻击结果

对抗输入与原始音频很接近，说明imperceptible；但是对抗输出效果很明显，说明effective。

白盒攻击

黑盒攻击结果

1.仅针对Chou的模型，更改 ᵋ的大小。当其为0.1的时候，效果最好，既不易察觉，又能有效攻击。

黑盒--Chou

2.仅针对AUTO VC，embedding攻击。效果也不错（其他两种效果不太行）。

黑盒--AUTO VC

总的来说，embedding攻击是最有效的，不仅同时适用于两个VC模型，攻击效果好，用时短。Feedback在AUTO VC上效果不太好，而且由于要多经历一次encoder-decoder，用时太久；end-to-end可能是频谱之间的距离与speaker性别之间的距离并不总是平行，效果也不太行。

Subjective实验设计

选择embedding攻击的AUTO VC，黑盒+白盒。测试者被给出语音pair：原始语音+对抗输入/对抗输出/原始输出，判断是否是同一语音。

测试结果

至少44%~58%的对抗输入都保持着原speaker的性质，而至少58%~88%的对卡个输出都明显改变speaker的性质。说明效果依然不错。

Subjective

文章出处：Defending Your Voice: Adversarial Attack on Voice Conversion

submitted to Interspeech 2020