音视频直播技术iOS学习算法

变声总结(声音概念、采集、变声、SoundTouch 和 FMO

2018-07-01  本文已影响1485人  Ruiray95

一、声音相关概念

声音是由物体震动产生的,我们可以把从感知的角度分为三种属性:

响度和音调只要联想到正弦波非常容易理解,然而音色是什么?

音色 = 基频 + 泛音(多个) 

一个物体发生的同时,会发出很多不同频率的波(谐波)。这许多不同频率的波由于相位差很小(也就是相隔时间很短),人是无法单独分辨的,所以这些波会混合起来一起给人一个整体的感受,而这个感受就叫做音色。

想想就很容易理解了,人的喉咙是立体的,发声时喉咙内每一部分都会产生振动,不同部位产生的振动频率就存在差异。其中频率的相对量最大的决定了声音的音调,其它的频率即泛音。当然人说话时还有鼻子和嘴来协助,另外即便是乐器或其它任何发声物体也往往是整体产生共鸣的结果。

看到一个这样的比喻:如果一个声音中从1到20K赫兹频率的波都有,并且都是1:1的关系,即相对强度都相同。这样一个声音就称为白噪音,听起来就和收音机收不信号时的音色一样。如果我有2万只音箱,每一个音箱分别对应放从1到20k赫兹不同频率的声波。那么我通过开关不同的音箱,调节每个音箱的音量,从理论上讲我就可以得到任何我想要的音色。不论是韩红的声音还是孙楠的声音,小提琴的声音。

声音采集

将模拟信号数字化,分为取样和量化两部分,即通常的 PCM(Pulse-code modulation) 脉冲编码调制技术。

常见的 wav 格式的音频数据其实是 pcm 文件 + 46字节的头信息,头信息记录了 PCM 文件的采样率、采样深度、声道数等信息,可方便播放进行解码。

二、变声原理

变声即是对 PCM 数据进行的处理,如果是其它格式(如:MP3)也需要先解压成 PCM 格式再进行处理。

常用的变声,如女生、男生、小黄人都是对音调(即频率)进行的处理。当音调高时就是女声,低时即男声,常常听到的女声比男声高八度还是有点道理的。

另外还有一些对声音的高级处理,如:混响(Reverb)、回声(Echo)、EQ、锯齿(Flange)等。下面重点说一下混响:

Reverb(或残响)是Reverberation的简写,当一个声音发出后,当它碰到障碍物后会反射,碰到下一个障碍物会再反射,不停反射直至它的能量消失为止。这个持续在空间中反覆反射动作形成的声音集成,就是残响。不是每个频率衰减的速度都一样。同样的声音在同个空间不同位置,到达人耳所经过的反射次数、时间都是不同的,混音时使用 reverb 器材或插件可重新塑造声音的立体空间感,让声音有远近等不同距离的层次。

混音常用的Reverb效果器大概分为两大类。一类是靠电脑程式运算出来的演算式残响(Algorithmic Reverb);另一类是取样式残响(Convolution Reverb)。演算式残响就是利用程式运算,模拟空间的各种反应参数,是人工制造出来的残响。取样式残响是在真实空间中做声音脉冲反应的取样(impulse response),加到欲使用的声音上。

这里区分下 Reverb 和 Echo 的区别:

通常Echo是指声音发出后,要较长时间才会收到反射音的状态,就像我们对着远方的山大喊;「喂~」我们不会马上听到反射回来的声音,通常是喊完后隔了一小段时间才会听到明显反射回来的「喂~喂~~喂~~~」,这种称之为Echo,Echo算是reverb的一种,但 reverb 是个更大的概念。
当回声与原始声音直接的间隔较大时,如 >200ms,我们耳朵能分辨出两个声音的就是 Echo。如果两个声音直接的间隔比较小,通常我们无法分辨出来,与原始声音产生了共鸣的叫 Reverb。

三、第三方处理库

调研中发现的对声音处理的库主要有两个:

SoundTouch 与 FMOD 对比

FMOD 常见变声和参数说明

四、生活中声音有意思的事(个人理解,科学度待考证)

研究了这么久的声音,回到生活中,解开了一些有趣的小点,原来为什么是这样。

五、还有待研究或实现的点

六、参考资料

上一篇 下一篇

猜你喜欢

热点阅读