健听人耳都不能做到的事,助听器做到了!
本文部分资料来自科研圈
对于听力健全的人来说,在嘈杂环境下交流是与生俱来的能力,大脑会自动“过滤”背景噪音,将注意力集中在说话对象身上,这似乎不费事,也不需要特别集中精力。
但对于助听器使用者而言,这是一件复杂的事,尤其是几个人同时交谈时,助听器会不加识别地放大所有的言语声,给人的感觉会特别嘈杂,听不到有用的信息。
现有的助听器技术已经可以降噪一些非言语发出的声音,比如汽车轰鸣、空调声、机器运转的声音,但对于言语声,这是一件非常棘手的问题——助听器怎么判断你要听谁的声音?
为了改变现状,哥伦比亚大学工程师开发了新的人工智能技术,以人工智能判断的方式,从几个人同时说话的声音中筛选出真正的对话者,将其声音进行放大。这是一项艰难的技术,经历了多次实验失败后终于在近期获得进展,这项技术或许能帮我们设计更好的助听器。
通过实验,在极端嘈杂情况下,健听人耳都不能分辨的信息,助听器做到了。
图片来源:Pixabay
原始论文来源
哥伦比亚大学扎克曼研究所
许多人可能不知道,我们人体是一个非常神奇的结构,即使现有的科学技术都集合起来,也不能完全破解其中的秘密。
比如我们的大脑,就有一项非凡的本领,能够在嘈杂的环境中分辨不同的声音,例如在拥挤的咖啡店或嘈杂的闹市上同时和几个人交谈,这在健听人士看来是十分轻松的事情,在助听器使用者而言则很难做到。即使通过大量的训练能够努力分辨一二,但助听器本身的技术瓶颈却难以解决。
现有的助听器技术可以屏蔽非言语的背景噪音,但是对于多人交流,我们不需要的那些言语信息就成为了“噪音”,但是助听器怎么分辨呢?
哥伦比亚大学(Columbia
University)的工程师们宣布了一项实验技术,以仿生的形式模拟大脑的功能,检测扫描所有的言语声音,再由人工智能进行判断这种由使用者大脑控制的助听器采用人工智能技术,它就像一个自动过滤器,监测佩戴者的脑波,放大他们想要集中注意力聆听的声音。
尽管这项技术目前仍处于早期研究阶段,但它向更好的助听器迈出重要的一步,也许有一天,甚至可以比人脑还厉害,能在非常嘈杂的人语声中找到真正的对话者,高效交谈。这项成果近期发表在《科学·进展》(Science
Advances)杂志上。
“从生理学上来说,大脑中处理声音的区域异常敏感和强大,可以毫不费力地将一个声音放大,甚至忽略其他言语声。但是对于助听器来说,这种分辨能力是难以企及的。研究人员希望开发一种能够类似大脑自身功能的技术,让助听器使用者可以在嘈杂环境中同时与多人交流。”尼玛·梅斯格拉尼(Nima
Mesgarani)博士说,他是哥伦比亚大学莫蒂默·B·扎克曼心智大脑行为研究所(Mortimer
B. Zuckerman Mind Brain Behavior Institute)的首席研究员,也是该论文的资深作者。
现在现有的助听器已经能够增强语音,同时还能抑制某些背景噪音,比如最常见的交通噪音建筑噪音等等。但如何分辨言语声噪音和真正有用的信息,科学家将这问题称之为“鸡尾酒会问题”,得名于嘈杂聚会中混合在一起的刺耳声音。
“在聚会等嘈杂场合,助听器往往会同时放大所有人的声音,特别是他们在相同距离和差不多音量的时候,当他们同时交错相互说话时,助听器使用者听声音会非常费劲,得需要特别努力才能分辨。”梅斯格拉尼博士说道,他也是哥伦比亚大学工程学院电气工程副教授。
和现有的单凭助听器分辨言语声的技术不同,哥伦比亚大学研究小组的大脑控制助听器不仅依赖麦克风等体外扩音器,还能监测使用者自己的脑波。
“我们发现当人们相互交谈时,说话者的脑波开始预聆听者的脑波相似。”梅斯格拉尼博士说。
凭借这个原理,研究小组将语音分离算法与神经网络相结合,后者是模拟大脑自然计算能力的复杂数学模型。他们开发出一个系统,先将每个说话者的声音从群体中分离出来,然后分别与使用者(聆听者)的脑波进行比较。声音模式与使用者脑波最接近的,其音量会被提高到其他人声之上。
早在2017年研究人员就发布这套系统的早期版本,虽然从理论上可以实现技术目标,但仍有一个关键的缺陷:系统必须经过预先训练才能识别特定的说话者。
“如果你和家人去一家餐馆,这个设备会为你识别和解码家人的声音,然而一旦来了新人,比如服务员,这个系统就失灵了。”梅斯格拉尼博士解释说。
现今技术的发展在很大程度上解决了这个问题。在哥伦比亚科技风险投资公司(Columbia
Technology Ventures)的资助下,梅斯格拉尼博士和第一作者韩聪(Cong
Han,音译)以及詹姆斯·奥沙利文(James
O'Sullivan)博士再次利用深度神经网络的力量,建立了一个更为复杂的模型,可以适用于助听器使用者可能遇到的任何交谈对象。
“我们最终得到的是一种语音分离算法,它的性能与之前的版本类似,但有着一个重要的改进,它能立即识别和解码一个任何人的声音,”梅斯格拉尼博士说。
为了测试该算法的有效性,研究者与阿舍什·迪内什·梅塔(Ashesh Dinesh
Mehta)博士进行合作。梅塔博士是诺斯威尔神经与神经外科健康研究所(Northwell Health Institute for
Neurology and
Neurosurgery)的神经外科医生,也是这篇论文的共同作者。他主要治疗癫痫患者,其中一些必须定期接受手术。
梅斯格拉尼博士说:“这些患者自愿参加实验,他们聆听不同的说话者,同时我们通过植入大脑的电极直接监测他们的脑波。然后,我们将新开发的算法应用于这些数据。”
研究小组的算法追踪患者在聆听不同说话者时的注意力,在此之前患者从未听过这些说话者的声音。当患者把注意力集中于某一说话者时,系统会自动放大他的声音。当他们的注意力转移至另一个说话者时,这些人声的音量也随之改变。
受到这些结果的鼓舞,研究人员如今正在探索如何将这一实验原型改进为一种无创设备,可以被放置在头皮外部或耳朵周围。他们还希望进一步改进和优化算法,使其能够在更多样的环境中发挥作用。
梅斯格拉尼博士说:“到目前为止,我们只在室内环境中进行了模拟嘈杂环境测试,但我们希望确保它在繁忙的城市街道或嘈杂的餐厅中同样有效,这样无论佩戴者走到哪里,他们都能充分体验周围的世界和人。”
论文信息
【标题】Speaker-independent
auditory attention decoding without access to clean speech sources
【作者】Cong
Han, James O’Sullivan, Yi Luo, Jose Herrero, Ashesh D. Mehta and Nima
Mesgarani
【时间】2019年5月15日
【期刊]】Science
Advances
【DOI】10.1126/sciadv.aav6134
【链接】https://advances.sciencemag.org/content/5/5/eaav6134
【摘要】Speech
perception in crowded environments is challenging for hearing-impaired
listeners. Assistive hearing devices cannot lower interfering speakers without
knowing which speaker the listener is focusing on. One possible solution is
auditory attention decoding in which the brainwaves of listeners are compared
with sound sources to determine the attended source, which can then be amplified
to facilitate hearing. In realistic situations, however, only mixed audio is
available. We utilize a novel speech separation algorithm to automatically
separate speakers in mixed audio, with no need for the speakers to have prior
training. Our results show that auditory attention decoding with automatically
separated speakers is as accurate and fast as using clean speech sounds. The
proposed method significantly improves the subjective and objective quality of
the attended speaker. Our study addresses a major obstacle in actualization of
auditory attention decoding that can assist hearing-impaired listeners and
reduce listening effort for normal-hearing
subjects.