音频数字化简单原理
一、模拟信号和数字信号
模拟信号是指信号随时间的变化是连续的,即任意时间点总有一个瞬态的信号量与之对应,所以我们也将模拟信号称为连续信号。那么模拟信号为什么叫模拟信号呢?模拟信号传输过程中就是利用传感器把各种自然界各种连续的信号转换为几乎一模一样的电信号。比如说话声音,原本是声带的震动,经过麦克风的采集,将声波信号转换为电信号,此时的电信号波形是和原来的声波波形一样的。只是换了种物理量来表示和传递。因此,模拟信号就是用电信号来直接模拟了自然界各种物理量。
而与之对应的数字信号则是不连续的离散的,是对模拟信号进行采样得到。数字信号是模拟信号的近似,即然是近似就不可能完全一模一样。所以相对于自然界的信号,数字信号只能做到无限的接近。既然我们自然界所有的物理量都是模拟信号,为啥还需要数字信号呢?因为数字信号更便于计算机做直接各种数字处理、计算和存储,所以任何信号转换成了数字量后,就可以充分利用计算机来做各种计算和处理。
二、数字音频化
我们把声音模拟信号转换成数字信号的过程称为音频数字化(A/D 转换,模数转换)。目前最常见的方案是 PCM(脉冲编码调制 Pulse Codde Modulation),其主要过程是:采样 -> 量化 -> 编码
。
1、采样
把时间连续的信号转换为一连串时间不连续的脉冲信号,这个过程称为采样。也就是每隔一段时间采集一次模拟信号的样本。采样后的脉冲信号称为采样信号,采样信号在时间轴上是离散的。每秒采集的样本数量,称为采样率,比如采样率 44.1kHz 表示 1 秒钟采集 44100 个样本。采样率越高,还原的声音也就越真实。由于人耳的听觉范围是 20Hz~20kHz,根据香农采样定理
(若信号的最高频率为 fmax,只要采样频率 f >= 2fmax,采样信号就能唯一复现原信号),理论上来说要把采集的声音信号唯一地还原成原来的声音,声音采样率需要高于声音信号最高频率的 2 倍,需要至少每秒进行 40000 次采样(40kHz 采样率)。这就是为什么常见的 CD 采样率为 44.1kHz,电话、无线对讲机和无线麦克风等的采样率是 8kHz。
2、量化
采样信号量化为数字信号的过程,称为量化。就是将每一个采样点的样本值数字化。
2.1、位深度
位深度(也叫采样精度,采样大小,Bit Depth)表示使用多少个二进制位来存储一个采样点的样本值。位深度越高,表示的振幅越精确。若要尽可能精确的还原声音,只有高采样率是不够的。描述一个采样点,横轴(时间)代表采样率,纵轴(幅度)代表位深度。16bit 表示用 16 位(2 个字节)来表示对该采样点的振幅进行编码时所能达到的精确程度,就是把纵轴分成 16 份描述振幅大小。 常见的常见的 CD 采用 16bit 的位深度,能表示 65535(2^16)个不同值。DVD 使用 24bit 的位深度,大部分电话设备使用 8bit 位深度。
3、编码
将采样和量化后的数字数据转成二进制码流。
如果想要播放声音,需进行 D/A 转换(数模转换),把数字信号转再换成模拟信号。
三、其他概念
1、有损和无损:
根据采样率和位深度得知,任何数字音频编码方案都是有损的,无法达到完全还原。目前能够达到最高保真水平的就是 PCM(脉冲编码调制 Pulse Codde Modulation)编码,因此 PCM 约定俗称 无损音频编码,PCM 编码数据可以理解为是未经过压缩的原始音频数据。目前广泛用于素材保存和音乐欣赏,CD、DVD 以及 .WAV 文件中均有应用。
2、比特率:
比特率(Bit Rate),又称码率,指单位时间内传输或处理的比特数量,单位是:比特每秒(bit/s 或者 bps),描述了 1 秒钟的该音频的信息量。在无损无压缩格式中,比特率 = 采样率 x 位深度 x 声道数
(在有损压缩中这个公式是不成立的,因为原始信息以及被破坏)。例如采样率 44.1kHz 位深度 16bit 的立体声 PCM 编码数据的比特率为:
44100 * 16 * 2 = 1411.2Kbps
3、声道:
单声道产生一组声波数据,立体声产生两组声波数据。声音文件总大小 = 采样率 x 位深度 x 声道数 x 总时长 = 比特率 x 总时长
。例如:采样率 44.1kHz 位深度 16bit 的 1 分钟时长的立体声 PCM 编码数据的大小为:
44100 * 16 * 2 * 60 / 8 ≈ 10.34MB
4、信噪比:
信噪比是指信号与噪声的比例,用于比较所需信号的强度与背景噪声的强度,以分贝(dB)为单位。位深度限制了信噪比的最大值,关系如下图:
image.png