音视频
音视频的应用
-
直播类: 音视频会议、教育直播、娱乐/游戏直播等
-
短视频:抖音、快手
-
网络视频: 优酷、腾讯视频、爱奇艺等
-
音视频通话:微信、QQ、Skype等
-
视频监控
-
人工智能:人脸识别、智能音箱等,主要关注算法。
常用的工具及其安装
-
ffmpeg
-
ffplay
-
vlc
ffmpeg 安装方式
-
brew 安装
brew install ffmpeg
-
源码安装
-
下载ffmpeg
git clone https://git.ffmpeg.org/ffmpeg.git
-
编译ffmpeg
./configure --prefix=/usr/local/ffmpeg --enable-debug=3
make -j 4
make install
-
安装成功后:
$ ffmpeg -version
ffmpeg version 4.2.2 Copyright (c) 2000-2019 the FFmpeg developers
built with Apple clang version 11.0.0 (clang-1100.0.33.17)
configuration: --prefix=/usr/local/Cellar/ffmpeg/4.2.2_2 --enable-shared --enable-pthreads --enable-version3 --enable-avresample --cc=clang --host-cflags= --host-ldflags= --enable-ffplay --enable-gnutls --enable-gpl --enable-libaom --enable-libbluray --enable-libmp3lame --enable-libopus --enable-librubberband --enable-libsnappy --enable-libtesseract --enable-libtheora --enable-libvidstab --enable-libvorbis --enable-libvpx --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxvid --enable-lzma --enable-libfontconfig --enable-libfreetype --enable-frei0r --enable-libass --enable-libopencore-amrnb --enable-libopencore-amrwb --enable-libopenjpeg --enable-librtmp --enable-libspeex --enable-libsoxr --enable-videotoolbox --disable-libjack --disable-indev=jack
libavutil 56. 31.100 / 56. 31.100
libavcodec 58. 54.100 / 58. 54.100
libavformat 58. 29.100 / 58. 29.100
libavdevice 58. 8.100 / 58. 8.100
libavfilter 7. 57.100 / 7. 57.100
libavresample 4. 0. 0 / 4. 0. 0
libswscale 5. 5.100 / 5. 5.100
libswresample 3. 5.100 / 3. 5.100
libpostproc 55. 5.100 / 55. 5.100
播放器架构
解复用 -> 音频解码/视频解码 -> 音频播放/视频播放
渲染流程
YUV -> 渲染 纹理 -> 交换 窗口展示
FFmpeg是一个非常优秀的多媒体框架,可以运行在Linux、Mac、Windows等平台上。
能够解码、编码、转码、复用、解复用、过滤音频视频数据。
音频处理流程
直播客户端的处理流程
音视频的采集 --> 音视频编码(有损编码/无损编码) --> 传输 --> 音视频解码 --> 音视频渲染
音频数据的流转
音频的采集过程:
通过设备将环境中的模拟信号采集成PCM编码的原始数据,然后编码压缩成MP3等格式的数据分发出去。
常见的音频压缩格式有:MP3,AAC,OGG,WMA,Opus,FLAC,APE,m4a 和 AMR 等。
PCM --> acc/mp3 --> mp4/flv --> 传输 --> mp4/flv --> acc/mp3 --> PCM
声音
- 声音是由物体振动产生的
- 它可以通过空气、固体、液体等介质进行传输
- 振动耳膜
人类听觉范围
人类听觉范围声音三要素
- 音调:音频的快慢 男生 -> 女生 -> 儿童
- 音量:振动的幅度
-
音色:谐波
甲的音量更高
甲的音调更高
模数转换
声音波形 --> 对声音进行量化采样 --> 量化后的数字信息 --> 十进制转二进制 --> 二进制方波
对声音进行量化 量化后的数字信息 二进制方波
音频原始数据
原始数据格式:
- PCM
- WAV
量化基本概念
- 采样大小: 一个采样用多少bit存放。 常用的是16bit
- 采样率:采样频率 8k, 16k, 32k, 44.1k, 48k。 采样率越高,音质越好,数据量越大,数字信号越接近模拟信号。打电话通常为 8k
- 声道数:单声道,双声道,多声道
码率计算
一个PCM音频流的码率 = 采样率 * 采样大小 * 声道数。
例如,采样率为44.1KHz,采样大小为16bit,双声道PCM编码的WAV文件,它的码率为 44.1K * 16 * 2 = 1411.2Kb/s。
这么大的码流,显然无法在我们网络上传输。需要进行压缩。
WAV Header WAV 例子
通过命令方式采集音频数据
$ ffmpeg -f avfoundation -i :0 out.wav // ctrl + c 结束录制
$ ffplay out.wav // 播放音频