01. 音频的基本概念
音频的基本概念
1. 声音的三要素:频率、振幅、波形
1.1 频率
声波的频率,即声音的音调,一般女生发出声音的音调高于男生,人类听觉的频率(音调)范围为20Hz--20000Hz,人类发声的频率范围为:85Hz--1100Hz。
1.2. 振幅
即声波的响度,通俗的讲就是声音的高低,一般男生的声音振幅(响度)大于女生。
1.3 波形
即声音的音色,同样的频率和振幅下,钢琴和小提琴的声音听起来完全不同的,因为他们的音色不同。波形决定了其所代表声音的音色。音色不同是因为它们的介质所产生的波形不同。
2. 数字音频
2.1 采样
所谓的采样就是只在时间轴上对信号进行数字化。根据奈奎斯特定律(也称作采样定律),按照比声音最高频率的2倍以上进行采样。采样频率一般为44.1kHz,这样可保证声音达到20kHz也能被数字化。44.1kHz就是代表1秒会采样44100次。
image.png2.2 量化
具体每个采样又该如何表示呢?这就涉及到量化。量化是指再幅度轴上对信号进行数字化。如果用16比特位的二进制信号来表示一个采样,那么一个采样所表示的范围即为【-32768,32767】。
2.3 编码
-
每一个量化都是一个采样,将这么多采样进行存储就叫做编码。所谓编码,就是按照一定的格式记录采样和量化后的数字数据,比如顺序存储或者压缩存储,等等。
-
通常所说的音频裸数据格式就是脉冲编码调制(PCM)数据。描述一段PCM数据通常需要以下几个概念:量化格式(位深,通常16bit)、采样率、声道数。
-
对于声音格式,还有一个概念用来描述它的大小,即比特率,即1秒内的比特数目,用来衡量音频数据单位时间内的容量大小。
3. 音频编码
3.1 编码
即压缩编码,其原理是压缩掉冗余的信号,冗余信号是指不能被人耳感知到的信号,包括人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号。
3.2 常见的音频压缩格式
1.WAV编码:WAV编码是在PCM数据格式的前面加上44字节,分别用来描述PCM的采样率、声道数、数据格式等信息。特点:音质非常好、大量软件都支持。使用场景:多媒体开发的中间文件、保存音乐和音效素材等。
image.png2.MP3编码:MP3具有不错的压缩比,使用LAME编码的中高码率的MP3文件,听感上非常接近源WAV文件。特点:音质在128Kbps以上表现还不错,压缩比比较高,兼容性好。使用场景:高比特率下对兼容性有要求的音乐欣赏。
3.AAC编码:AAC是新一代的音频有损压缩技术,它通过一些附加编码技术(如PS、SBR等),衍生出LC-AAC、HE-AAC、HE-AAC V2三中主要编码格式。特点:在小于128kbps码率下表现优异,且多用于视频中的音频编码。适用场景:128Kbps 码率下的音频编码,多用于视频中的音频轨的编码。
4.Ogg编码:Ogg编码音质好、完全免费。可以用更小的码率达到更好的音质,128Kbps的Ogg比192Kbps甚至更高的MP3还要出色。但是目前媒体软件支持上还是不够友好。特点:高中低码率下都有良好的表现,兼容性不够好,流媒体特性不支持。使用场景:语音聊天的音频消息场景。
5.FLAC编码: FLAC中文可解释为无损音频压缩编码。FLAC是一套著名的自由音频压缩编码,其特点是无损压缩。不同于其他有损压缩编码如MP3及AAC,它不会破坏任何原有的音频信息,所以可以还原音乐光盘音质 。2012年以来它已被很多软件及硬件音频产品(如CD等)所支持。特点:无损压缩、压缩率高于普通文件夹压缩格式(ZIP、rar等)。使用场景:高品质音乐等。