安卓录制MP3(一) - 数字音频基础
在安卓上实现录音功能有两种方式使用AudioRecord录制PCM裸流,或者用MediaRecorder录制编码后的音频流。但是MediaRecorder的编码格式并不包括MP3格式:
/**
* Defines the audio encoding. These constants are used with
* {@link MediaRecorder#setAudioEncoder(int)}.
*/
public final class AudioEncoder {
/* Do not change these values without updating their counterparts
* in include/media/mediarecorder.h!
*/
private AudioEncoder() {}
public static final int DEFAULT = 0;
/** AMR (Narrowband) audio codec */
public static final int AMR_NB = 1;
/** AMR (Wideband) audio codec */
public static final int AMR_WB = 2;
/** AAC Low Complexity (AAC-LC) audio codec */
public static final int AAC = 3;
/** High Efficiency AAC (HE-AAC) audio codec */
public static final int HE_AAC = 4;
/** Enhanced Low Delay AAC (AAC-ELD) audio codec */
public static final int AAC_ELD = 5;
/** Ogg Vorbis audio codec (Support is optional) */
public static final int VORBIS = 6;
/** Opus audio codec */
public static final int OPUS = 7;
}
所以如果想要将录制的音频保存成MP3,就需要我们自行对PCM裸流进行编码。常用的是LAME库去编码,不过在学习怎样使用LAME之前我们先稍微了解下数字音频的一些基础知识。
数字音频基础
我们都知道声音是一种波:
1.png它在时间上是连续的,如果我们想把他保存成2进制的音频数据,就只能隔一段时间对这个波形进行一次采样,读取那个时刻声波的具体数值:
2.png采样率
采样的间隔越短,就越接近原始的音波,录制下来的音质也就越好。一般我们不直接用采样间隔,而是使用采样率来描述。采样率代表一秒钟采样的次数,单位为Hz。例如8000 Hz就代表1秒钟采样8000次。所以采样率越高采样间隔就越短。
常见的采样率有8000Hz、11025Hz、32000Hz 、44100Hz等。根据奈奎斯特定理(也称为采样定理, 根据奈奎斯特定理(也称为采样定理),当采样频率大于信号中最高频率的2倍时,采样之后的数字信号完整地保留了原始信号中的信息。由于人耳能听到的声音频率为20Hz~20000Hz,所以采样率一般会使用44100Hz
AudioFormat
AudioFormat代表我们可以用8bit、16bit或者一个浮点数去保存每一次采样获取的数字:
/** Audio data format: PCM 16 bit per sample. Guaranteed to be supported by devices. */
public static final int ENCODING_PCM_16BIT = 2;
/** Audio data format: PCM 8 bit per sample. Not guaranteed to be supported by devices. */
public static final int ENCODING_PCM_8BIT = 3;
/** Audio data format: single-precision floating-point per sample */
public static final int ENCODING_PCM_FLOAT = 4;
通道数
由于左右耳朵听到的声音并不完全一样,所以常见的pcm流会有左右两个通道的数据,意味着我们可以从中拆分出两条音波曲线分别播放给左右耳朵:
/**
* 单通道
*/
public static final int CHANNEL_IN_MONO = CHANNEL_IN_FRONT;
/**
* 双通道
*/
public static final int CHANNEL_IN_STEREO = (CHANNEL_IN_LEFT | CHANNEL_IN_RIGHT);
PCM大小计算
假设我们录制44100Hz、16bit、双通道的音频数据:
- 1秒钟的数据大小为 44100 * 16 * 2 = 1411200 bit = 176400 byte = 172 KB
- 1分钟的数据大小为 172 * 60 = 10320 KB = 10 MB
MP3编码
从上面的计算我们可以得知,如果直接使用PCM裸流去保存,一首歌大约三到五分钟就有30~50MB。这样的数据量的确过于庞大了,所以我们对其进行压缩编码得到AAC、MP3、Ogg等格式的音频文件。
这篇文章就只介绍MP3格式,在MP3里面有个很重要的概念是bitrate(比特率),它代表的是1秒钟的音频MP3格式需要用多少bit去表示,单位为bps(Bit Per Second)或者kbps(1kbps = 1000bps)。
mp3的比特率默认是128kbps,也就是说这种比特率的MP3文件:
- 1秒钟的数据大小为 128000 bit = 16000 byte = 15 KB
- 1分钟的数据大小为 15 * 60 = 240 KB
CBR
MP3中常用固定比特率CBR(Constant Bit-Rate)去进行压缩,这种类型的mp3每一帧的比特率都是固定的。
CBR由于每秒的bit数是固定的:
- 音频时长可以通过文件大小计算 - 时长 = (文件大小 - 文件头大小) / bitrate
- seek操作容易实现 - 文件位置 = 文件头大小 + 目标时间 * bitrate
但是一般来讲一个声音片段音调越高,代表它的频率越高,数据就越密集,压缩之后的大小也就越大。相反如果一个声音音调低,理论上我们压缩之后他的数据大小会越小。但是由于我们使用了固定的bitrate,那么在低音部分就会有部分的数据冗余。
VBR
可变比特率VBR(Variable Bit-Rate)就很好的解决了这个这个数据冗余问题,这种类型每一帧的比特率是不固定的,在数据复杂的地方bitrate高,在数据简单的地方bitrate低。它的好处显而易见是可以节约更多的空间。但是也有下面缺点:
- 音频时长需要额外的字段去保存,或者解析整个MP3文件去计算
- seek操作复杂,需要保存关键时间点的文件位置,然后进行计算和插值
ABR
MP3格式还存在一种平均比特率ABR(Average Bit-Rate)的编码,它大多数音频帧以固定bitrate编码,但会在个别的帧使用高bitrate编码。但是通常这些帧一般比较少,所以在文件大小上跟CBR相比没有太大的差异,因此这种类型并不常见。
MP3帧长度
上面其实也有提到MP3的帧,在不同的规范中每一帧包含的采样点数量是不一样的:
MPEG 1 | MPEG 2 (LSF) | MPEG 2.5 (LSF) | |
---|---|---|---|
Layer I | 384 | 384 | 384 |
Layer II | 1152 | 1152 | 1152 |
Layer III | 1152 | 576 | 576 |
以常见的Layer II为例子,假设采样率为44100Hz,一秒钟有44100个采样点,一帧只包含1152个,那么:
一帧的时长 = 1152 / 44100 = 0.02608s = 26.08ms
这也是MP3一帧26ms的由来