深度学习

碟中谍再现,新研究攻破基于音频的生物识别系统 | 一周AI最火论

2019-06-11  本文已影响16人  大数据文摘
image

大数据文摘专栏作品

作者:Christopher Dossman

编译:Jiaxu、fuma、云舟

呜啦啦啦啦啦啦啦大家好,连续两周拖更的AIScholar Weekly栏目又和大家见面啦!

AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。

每周更新,做AI科研,每周从这一篇开始就够啦!

本周关键词:音频生成模型、端到端的音视频语音识别、张量计算

本周热门学术研究

有噪声音频识别率低?伦巴第的棺材板要压不住啦

虽然过去在这一领域中已经提出过几种音视频语音识别模型,并一定程度上提高了在有噪声情况下对纯音频模型的鲁棒性,但很少有针对伦巴第效应(Lombard Effect)对纯音频语音识别影响的研究。

最近,学者们首次深入研究了伦巴第效应对端到端音频、视频和音视频语音识别的影响,他们在端到端模型的框架内研究了伦巴第效应,这些模型直接学习从原始图像和音频波形中提取特征。

image

结果表明,在噪声伦巴第上训练和测试的模型性能要高于在一般情况下训练和测试的模型,这意味着当使用噪声伦巴第语言进行训练时,模型有了显著的改进。

机器学习社区对于深度学习技术的应用在日益加深,这一依旧在训练过程中对伦巴第语音进行了适当的建模,从而提高了在所有评估实验中用于音频、视频和音频-视频语音识别模型的性能,因此,这一方法对于未来实用且强大的音频-视频语音识别系统将会非常有价值。

原文:

https://arxiv.org/abs/1906.02112

碟中谍:基于音频的生物识别系统面临被攻破风险

最近,研究人员对一种被忽视的ASV模拟攻击进行了探究,这一研究还包括一种对人类语音进行修改的方法。研究人员利用音频数据在实验中评估了针对语音生物识别系统的攻击。具体来说,他们从公共语音数据集中使用ASV语音相似性搜索工具寻找声音最相似的发言者,并使用这一声音攻击语音生物识别系统。

image

世界正在日益数字化,任务正在日益自动化,人与人之间的交流越来越少。我们的时代需要更有效的方法来保护数据不受未经授权的访问。这项研究工作表明,对于语音的模仿是一种值得引起警惕的针对ASV的攻击。对于声音数据被开放的人来说,他们很容易成为模拟攻击的目标。这一研究可以帮助机器学习社区更好地设计更安全的ASV算法。

原文:

https://arxiv.org/abs/1906.01454

一种新的频域音频生成模型

研究人员最近发布了MelNet,这是一种光谱图生成模型,它将细粒度自回归模型和多尺度生成过程结合起来,共同捕获局部和全局结构。他们的工作表明,新的方法能够产生高保真的音频样本,这些样本在时间尺度上捕获结构,而时间域模型尚未实现。

image

MelNet更适合于对长期时间依赖性进行建模,研究人员将MelNet应用于各种音频生成任务(如无条件语音生成、音乐生成和文本到语音合成)后发现新方法比传统算法有了显著的改进。

与以前的模型相比,MelNet更适合于对长期时间依赖性进行建模。研究评估表明,对于各种音频生成任务,包括端到端无条件语音生成、音乐生成和文本到语音合成等,MelNet都有着良好的效果。

原文:

https://arxiv.org/pdf/1906.01083.pdf

新的风暴已经出现:实时对抗攻击

圣母大学的研究人员提出了实时对抗攻击的概念,并演示了如何通过设计一个实时扰动发生器来攻击基于流的机器学习算法,该发生器使用观测数据来为未观察到的数据设计最佳扰动。

他们利用模拟学习和行为克隆算法,通过非实时对抗扰动发生器的演示训练实时对抗扰动发生器。此外,他们还展示了一个语音命令识别的案例研究。研究结果证明了该方法的有效性。

这一实时模型有可能大大增加对抗性攻击的现实威胁。从好的方面来说,它可以用来研究和设计防御策略,以保护实时系统免受实时对抗攻击。

代码:

https://github.com/YuanGongND/realtime-adversarial-attack

原文:

https://arxiv.org/abs/1905.13399

基于语音的分类

研究人员最近提出了一个以自我为中心的动作识别音频模型,并探讨了它在名词、动词和动作分类中的作用。

该模型是一个VGG网络,以音频谱图为输入,只考虑视频段的前4秒。为了能够确定这样的时间间隔,研究人员使用了滤波训练分割法来计算视频片段的持续时间。

image

新模型在标准基线上实现了有竞争力的动词分类(准确率34.26%)结果。

34.26%的准确率意味着单独使用音频就可以在动词分类上获得良好的性能。研究结果还表明,音频可以以多种方式补充类似任务中的视觉资源。

原文:

https://arxiv.org/abs/1906.00634

其他爆款论文

你需要的不只是注意力——一种简单而强大的基于注意力的常识推理方法:

https://arxiv.org/abs/1905.13497v1

自己动手,做一个想让他说啥就说啥的特朗普:

https://arxiv.org/abs/1906.01524

机器人同传要出现了吗?端到端的语音翻译再提升:

https://arxiv.org/abs/1906.01199

一种用于删除模型中冗余通道参数修剪技术:

https://arxiv.org/abs/1906.01078

AI新闻

最新Google Earth Timelapse发布:

https://ai.googleblog.com/2019/06/an-inside-look-at-google-earth-timelapse.html

谷歌发布全新开源库,张量计算效率MAX:

https://ai.googleblog.com/2019/06/introducing-tensornetwork-open-source.html

上一篇下一篇

猜你喜欢

热点阅读