【白水日记】关于音频(二)
音频在传输和使用的过程中,需要进行压缩,压缩的方向一般是压缩的比例和压缩的速度。
常用的思路就是消除冗余信息,因为人耳能听到的频率只有20hz-20000hz,采集到此频段之外的信息,可以全部剔除,一般用于有损压缩,不可逆,无损压缩类似zip,7z等压缩方案。
另外音频是冗余信息,一般听到的声音都是多个声音复合在一起,声音之间存在遮蔽。声音的遮蔽分为频域遮蔽和时域遮蔽。
频域遮蔽:两个声音同时播放,同时掩蔽,两个声音频率越相近,互相影响越大,相近的频率,声音高的声源会屏蔽声音低的声源。
时域屏蔽:由于大脑处理声音也需要时间,两个时间相邻的声音,也有遮蔽效应,前遮蔽较短,后遮蔽较长。
音频编码过程:时域转频域->心理声学->量化编码
常用的音频编码器有:opus,aac,ogg
opus:一般用于实时通信,压缩率高,延迟小,WebRTC默认
aac:为了取代mp3而设计,应用广,可以使用硬件编码
ogg:收费
Speex:一般用于消除回音
G.711:固定电话,窄带音频,损耗严重,失真
推荐:opus>aac>ogg
opus网络宽带范围覆盖全,适合实时
aac只适合宽带,不适合实时
aac(Advanced Audio Coding)的压缩率比mp3更高,文件更小,更多采样率选择,更高的声道上线,保真性更好,最开始使用mpeg-2编码技术,后引入mpeg-4标准。
aac he v1:aac+sbr
aac he v2:aac he v1+ps
aac lc:低复杂度规格,在音质和码率之间平衡,中等码率:92kbps-192kbps之间
aac he v2:按频谱保存,低频谱保存主要部分,另外的高频另外保存,两个声道相似,可以只保存一个,再保存另一个声道不同的信息
音频三元组:采样率,采样大小,通道数
三元组中任意一项更改,就叫做重采样
重采样分为上采样和下采样,即内插和抽取
采样的方法包括:将信号转为模拟的连续信号,用新的采样率重新采样,或者直接从旧样本中计算,一般后一种引入的噪音和造成的失真更小。
重采样的作用:
采集设备和编码格式不同
播放器和源数据不一致
方便运算
例:光盘CD音频采样率通常为44.1kHz,为了将它传输到48kHz的媒体上,需要将频率转为48kHz