语音识别相关

inaudible voice commands

2017-10-06  本文已影响0人  看风景的人_21744

海豚音攻击:听不见的声音命令

标签(空格分隔): 论文


摘要

术语
Speech recongnition(SR)
voice controled system(VCS)


关键字

VCS SR ,MEMS麦克风 ,安全分析 ,防御


1 介绍

  1. 超声波不符合人类的音调特征,难以被SR识;
  2. 激活VCS(如sirl)需要特定的声音。
    但是本文做到了。。。。

2 背景和威胁模型

2.1 VCS

vcs的组成

2.2 麦克风

2.3 威胁模型

假设对方不能直接接触设备、拥有信号发射器、不能让受害者执行任何任务

  1. 不能接触设备 。但是对设备充分了解
  2. 不能让拥有者交互
  3. 无声。超声波
  4. 攻击装备

3 可行性分析

主要思路:(a)在超声波上调制低频声音信号;(b)在接收器的音频捕获硬件上解调。假设麦克风模块总是利用LPF,那么解调应该在LPF之前。
解调潜在的组成是麦克风和放大器。放大器是非线性的,可能产生新的频率。麦克风则不知道。
为了研究,对麦克风的非线性建模,在真的麦克风上展示非线性的影响。

3.1 非线性影响建模

3.2 非线性影响评估

本节验证非线性对真实麦克风的影响,包括ECM和MEMS两种类型。

3.2.1 实验设置

single tone

3.2.2 结果


4 攻击设计

4.1 声音命令的产生

4.1.1激活命令的产生

  1. 基于TTS的暴力破解:利用音调相近进行破解


  2. 连接合成:利用英语大概有44个单音


4.1.2通用控制命令的产生

4.1.3评估


4.2 声音命令调制

4.2.1 调幅参数

  1. 深度:m=M/A,A是载波幅度,M是调制幅度(纯增加的)。与硬件有关
  2. 载波频率($f_c$):受超声波频率范围、基带信号带宽(w)、低通滤波器的截至频率(>20kHz)、麦克风的频率响应、攻击发生器的频率响应影响。有$$f_c-w>20kHz$$应该选择一个对于发生器和麦克风来说都是最大增益的频率。


  3. 声音选择:对应于基带信号带宽(w)

4.3 声音命令发射台

4.3.1 有信号产生器的强力发射台

4.3.2 有智能手机的轻便发射台:三星S6Edge最大采样频率是144kHz,发生器会减弱大于20kHz的信号,所以采用超声波变送器


5 通过VCS的可行性实验

(a)海豚音攻击可以对不同的操作系统和硬件平台下的不同语音识别系统起到作用吗?(b)不同的软件和硬件会如何影响攻击性能?(c)什么是制作成功攻击的关键因素?

5.1 系统选择

5.2 实验设置

5.3 可行性结果

5.4 总结

  1. 我们证实识别和唤醒攻击。在16个不同设备和7个语音识别系统上。大多数都成功了。
  2. 记录攻击的性能表现。
  3. 我们记录、测试和讨论关于攻击性能的参数。

6 影响定量

6.1 语言的影响

实验设置:10次,20cm,55dB的背景噪声,25kHz载波频率,100%的调幅深度。(是TTS暴力还是合成,还是同一个TTS呢?)


image.png

6.2 背景噪声的影响

image.png

6.3 声压水平的影响

image.png

6.4 攻击距离的影响

image.png

6.5 可移动设备攻击的评估

image.png

还有一些距离实验。


7 防御

7.1 硬件防御

  1. 麦克风增强:抑制超声波信号。
  2. 无声命令取消:在低通滤波LPF之前,添加模块检测调幅信号。

7.2 软件防御

image.png

原始信号、录音信号、恢复(解调)信号在高频(500-1000Hz)处不同。通过机器学习分类器检测。


8 相关工作


9 总结

本文,我们提出了海豚音攻击,一种对于SR的“无声”攻击。海豚音攻击利用调幅技术去调制有声命令,超声波作为载波。这样人类就不能察觉命令的存在。利用海豚音攻击,坏人可以攻击主流的SR系统,包括siri,Google Now等。为了避免海豚音攻击的滥用,我们提出了防御方案,包括硬件和软件两个方面。

上一篇 下一篇

猜你喜欢

热点阅读