音视频基础
视频、图像像素点数据格式
- GRAY 色彩空间
这一模式为 8 位展示的灰度,取值 0 至 255,表示明暗程度,0 为最黑暗的模式,255 为最亮的模式。 - YUV 色彩空间
在视频领域,通常以 YUV 的格式来存储和显示图像。其中 Y 表示视频的灰阶值,也可以理解为亮度值,而 UV 表示色彩度。
大多数 YUV 格式平均使用的每像素位数都少于 24 位。主要的色彩采样格式有 YCbCr 4:2:0、YCbCr 4:2:2、YCbCr 4:1:1 和 YCbCr 4:4:4。YUV 的表示法也称为 A:B:C 表示法。 - RGB 色彩空间
使用三个 8 位无符号整数(0 到 255)表示红色、绿色和蓝色的强度。
RGB 常见的展现方式分为 16 位模式和 32 位模式(32 位模式中主要用其中 24 位来表示 RGB)。 - HSL 和 HSV 色彩空间
HSL,就是色相(Hue)、饱和度( Saturation)、亮度( Lightness)。HSV 是色相(Hue)、饱和度( Saturation)和明度(Value)。色相(H)是色彩的基本属性,就是平常我们所说的颜色名称,如红色、黄色等;饱和度(S)是指色彩的纯度,越高色彩越纯,低则逐渐变灰,取 0~100% 的数值;明度(V)和亮度(L),同样取 0~100% 的数值。
图像的色彩空间
用相同的数据格式不一定能输出颜色完全一样的图像,跟图像显示设备的色彩空间(也叫色域)有关。
隔行扫描与逐行扫描
隔行扫描(Interlaced)是一种将图像隔行显示在扫描式显示设备上的方法,例如早期的 CRT 电脑显示器。非隔行扫描的扫描方法,即逐行扫描(Progressive),通常从上到下地扫描每帧图像。
720i、1080i,“i”就是 Interlaced。隔行扫描
720p、1080p。逐行扫描。
帧率fps
就是我们平时提到的帧率(FrameRate),指一秒钟刷新的视频图像帧数(Frames Per Second),视频一秒钟可以刷新多少帧,取决于显示设备的刷新能力。
图像分辨率与比例
分辨率通常由宽、高与像素点占用的位数组成,计算方式为图像的宽乘以高。在提到显示分辨率的时候,人们还常常会提到宽高比,即 DAR。DAR 是显示宽高比率(display aspect ratio),表示不同分辨率的图像的差别。
I、P、B 帧
一个 I 帧可以不依赖其他帧就解码出一幅完整的图像,而 P 帧、B 帧不行。
P 帧需要依赖视频流中排在它前面的帧才能解码出图像。
B 帧则需要依赖视频流中排在它前面或后面的帧才能解码出图像。
DTS、PTS
DTS(Decoding Time Stamp):即解码时间戳,这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。
PTS(Presentation Time Stamp):即显示时间戳,这个时间戳用来告诉播放器该在什么时候显示这一帧的数据。
音视频的采集
AudioRecoder、MediaRecoder
音视频编码
有损编码、无损编码。
编码的目的是为了压缩。
音频数据流
PCM格式(裸数据)--数字信号
编码压缩后生成 aac/mp3
map4/flv格式中包含mp3/aac数据
人类的听觉范围 20Hz~20kHz
以拨动尺子为例
音调:音频的快慢 儿童>女生>男生
音量:振动的幅度
音色:谐波
模数转换
data:image/s3,"s3://crabby-images/e54e5/e54e5222687523755c06d74a6def9d7a7fcb9197" alt=""
采样率越高,失真越小。
声音量化的基本概念
采样大小:一个采样用多少bit存放。常用16bit
采样率:采样频率8k,16k,32k,44k,48k
声道数:单声道、双声道、多声道
音频原始数据
PCM裸数据
WAV格式=PCM+文件头
data:image/s3,"s3://crabby-images/362f4/362f41de8b7ea70886fc3905c9edf8d1b0bd7d2a" alt=""
data:image/s3,"s3://crabby-images/6b0ff/6b0ff550aee310652cd241641e16be692b550966" alt=""
PCM码率计算
data:image/s3,"s3://crabby-images/b0406/b0406a1f76b0f6e1aa4f52dc8aff88a843a17058" alt=""
音频采集
Android 采集
MediaRecoder
AudioRecoder
IOS
Windows
ffmpeg采集
命令方式
ffmpeg-f avdoundation -i :0 out.wav
ffmplay out.wav
api方式
音频采集 https://blog.csdn.net/qq_15255121/article/details/115301516
打开音频设备
采集步骤
注册设备
->设置采集方式avdoundation/dshow/alsa
->打开音频设备
读取音频数据
av_read_frame
第七章 音频编码原理
有损编码
无损编码
有损压缩是去除冗余信息,需要界定什么是冗余信息。
人耳频率之外的。20~2whz
遮蔽效应
data:image/s3,"s3://crabby-images/48459/48459c2700ef0842e60fd40bff45f191db4af930" alt=""
data:image/s3,"s3://crabby-images/44f77/44f77179f146dd7a11d83292b08538b5c10bdeb4" alt=""
无损编码
熵编码:哈夫曼。算术、香农编码
常见编码器比较
常见的音频编码器OPUS,AAC
data:image/s3,"s3://crabby-images/d0080/d00807224fc4dbbd4d589a26f06cef66bb3df57e" alt=""
data:image/s3,"s3://crabby-images/36d8f/36d8f8b9a775028c631370c42801a45612d5e629" alt=""
data:image/s3,"s3://crabby-images/b3dc0/b3dc07e36cf2cc5bd598b68ad4692033c676a60c" alt=""
AAC编码器介绍
data:image/s3,"s3://crabby-images/fdea8/fdea8a9fd957121f9f58895541aaf71e0d875871" alt=""
data:image/s3,"s3://crabby-images/6dee6/6dee6afa5752b08e94de5c72ed769972f18e4bcc" alt=""
data:image/s3,"s3://crabby-images/6af71/6af71680f04713718706dab124abeb7d1d70bbb0" alt=""
ADTS格式
data:image/s3,"s3://crabby-images/f790a/f790a2322404964f216feef11ea153e4d2cffcc0" alt=""
data:image/s3,"s3://crabby-images/152e5/152e59982bd3b1094562c176b4c192b49437f266" alt=""
可以借助ffmpeg帮我们添加或者解析这个头。
通过ffmpeg命令生成AAC文件
data:image/s3,"s3://crabby-images/13557/13557f4a43c36aa00ed4a9f6ffebb23715000269" alt=""
-vn no video
-c 编码器 a audio libfdk_aac音频编码器
-ar 采样率
-channels 声道数
-profile :a 指定音频 aac规格
抽取输入的mp4文件中的音频并重新编码
8. 实战音频编码
音频重采样
data:image/s3,"s3://crabby-images/a5f35/a5f35666e2349fcf13b7d8184a70cf4283bf0d15" alt=""
data:image/s3,"s3://crabby-images/e21b2/e21b221084b64e28e4af4b246d41e9097cd49700" alt=""
data:image/s3,"s3://crabby-images/c72f6/c72f61d032ccaa599daac8956b85166782086651" alt=""
data:image/s3,"s3://crabby-images/8f7b4/8f7b481a5063caa60160e6b6e5d057346b094281" alt=""
data:image/s3,"s3://crabby-images/552df/552dff2cbbac7c1dc45a923ef739f245aa7c6aa5" alt=""
创建AAC编码器
data:image/s3,"s3://crabby-images/04751/04751fd20600720edb3e329ac671669ef87f99ea" alt=""
data:image/s3,"s3://crabby-images/e36cd/e36cd8bdc0357c6fa489fdbe53bf9caad925df2f" alt=""
avcodec_send_frame 输入音视频数据给编码器
avcodec_receive_packet 获取编码后的数据
注意并不是输入一帧音频就输出一帧,有可能是输入若干帧,再输出。
AVFrame未编码的数据(音频输入数据)
AVPacket编码后的数据(编码后的数据)
9.视频的基础知识
h264 h265做压缩
每个像素的位深 RGB888 24位 ,RGBA 32位
data:image/s3,"s3://crabby-images/80ef4/80ef4a418b1e0ecd1b31262c9c49257feb8457d8" alt=""
data:image/s3,"s3://crabby-images/37b15/37b156892580d04a47937cf9c7ed1cd84ed42d09" alt=""
data:image/s3,"s3://crabby-images/43e8b/43e8b93a7436426a6bc23ee3acfc1b6b9ae471e8" alt=""
360P,720P,1K,2K都是16:9
data:image/s3,"s3://crabby-images/51f37/51f3775f76c46df46707f2d91c1a03a052b0536d" alt=""
data:image/s3,"s3://crabby-images/81d7d/81d7d2e07f000a20eb1cdcfba0648817f1e2d11f" alt=""
data:image/s3,"s3://crabby-images/ee7a3/ee7a362f663fafa3e0d50f50055f069f44f4c105" alt=""
只有电视支持YUV格式,手机不支持,只支持RGB
data:image/s3,"s3://crabby-images/4f2ac/4f2acccf2add7b5ae716db758509a437db7d9a89" alt=""
data:image/s3,"s3://crabby-images/36b65/36b6584a05b5c71833513fc2732850764b96f57e" alt=""
data:image/s3,"s3://crabby-images/79210/792105b1266f1f65c8d173c81f453c1c3f468cc5" alt=""
data:image/s3,"s3://crabby-images/f7037/f7037995c62d23c8540681c53005b14dddcae27a" alt=""
data:image/s3,"s3://crabby-images/d30a0/d30a0a3321879dae639eecf76934b37d8f96a676" alt=""
Y分量 明度
U分量/Cb分量 blue
V分量/Cr分量 red
data:image/s3,"s3://crabby-images/77d72/77d72d694b4f2f85f26c253fe8d12eaa4d437d1e" alt=""
data:image/s3,"s3://crabby-images/80698/806989dd64d36fc7378a0294e193891b17de708b" alt=""
data:image/s3,"s3://crabby-images/3c2b9/3c2b972d39f91040381b46e7e6f736d4aa9e4190" alt=""
data:image/s3,"s3://crabby-images/c84d0/c84d053f1e9ed543b59f0536bd495fb0824336dc" alt=""
data:image/s3,"s3://crabby-images/f2952/f29525869e70950d52cd0f243b6881aa1e893366" alt=""
- YUV是分层存储
- 每四个Y对应一个U和一个V,具体对应的位置关系如上图所示
data:image/s3,"s3://crabby-images/d8041/d8041ef8e2c245c6b1f7a24ad42ca54825068acf" alt=""
data:image/s3,"s3://crabby-images/dd04f/dd04f29945859155f14bc2314cdff1c4832a65be" alt=""
data:image/s3,"s3://crabby-images/1bd5a/1bd5a409516d92ca39f17c01c6d3fb6799d60552" alt=""
为什么有要这种编码方式
人眼对色度的敏感程度要低于对亮度的敏感程度既然看不见(或难发现差别),那么就不浪费全量444存储空间。
YUV的参考资料
data:image/s3,"s3://crabby-images/adfa0/adfa09c0234fa36401959a5f22544059855d0131" alt=""
data:image/s3,"s3://crabby-images/f20e6/f20e6d590e50ef56ec30d2baf172206747f17631" alt=""
-i 输入多媒体文件
-an audio null过滤掉音频
-c:v 视频的编解码器 rawvideo
-pix_fmt 指定输出的YUV的格式
data:image/s3,"s3://crabby-images/18f97/18f97ec6d7a597a1ce92dac8147b12b1a3b02e2f" alt=""
-pix_fmt 指定要播放的YUV格式,默认YUV420P
-s 播放的分辨率
data:image/s3,"s3://crabby-images/36bc4/36bc462cf3a4f0dc69c5ff15cb38b548e7388191" alt=""
-vf 滤波器
data:image/s3,"s3://crabby-images/1f1ad/1f1ad1ff8c4a48d013c74e6da2ef817548f93424" alt=""
data:image/s3,"s3://crabby-images/8e36e/8e36e9290965b6930d99bc2bf12ec984e284cbb5" alt=""
data:image/s3,"s3://crabby-images/fcda5/fcda5380c8d9eec7626467bd42f7f6ff0c793c40" alt=""
注意U/V分辨率是Y的一半
第十章 H264编码原理(重要)
H264压缩码率与GOP
H264优势之一在于压缩比,约为1/100
data:image/s3,"s3://crabby-images/473b3/473b327bc80652f102c5ecebbea69a07976cf78d" alt=""
根据场景(实时通讯<直播)+分辨率+帧率会得到一个推荐的码率。
data:image/s3,"s3://crabby-images/2a97a/2a97a6978652562935c523ab8ba4fa8c08c43e2f" alt=""
GOP(group of picture)
data:image/s3,"s3://crabby-images/f8d5c/f8d5c8a8aa9d5c0a8b0f31c9ec533c09c36bc315" alt=""
data:image/s3,"s3://crabby-images/7a4ad/7a4ad02757d5b5f6c963ca462d3cd31fe129f754" alt=""
IPB帧
data:image/s3,"s3://crabby-images/dfa48/dfa487176bff330f9b005c2f858fab059103d6d4" alt=""
对实时性要求高需要IP帧多,对压缩率要求高需要B帧多
data:image/s3,"s3://crabby-images/99cd8/99cd8be8406c45c9978fcb9a744d484f06b2e053" alt=""
IDR帧起到了防止错误传播的作用
data:image/s3,"s3://crabby-images/eac78/eac78fffb2f50f5b7e9fb5027e49b4a3601fb687" alt=""
B帧需要前面的I帧和后面的P帧解码
data:image/s3,"s3://crabby-images/e4513/e4513aeb1457a8d718c50f561e3d4b44f1b68443" alt=""
SPS与PPS帧一般是成对出现的,且在IDR帧之前出现
H264中的宏块
data:image/s3,"s3://crabby-images/b6d97/b6d97d1075287ed5f7fea2efc3c3fa8fb344719a" alt=""
前二者是有损压缩,后两者是无损压缩。
宏块是压缩技术的基础
data:image/s3,"s3://crabby-images/82f8e/82f8e054d1f021387c07edbd186d078ddefe24fc" alt=""
data:image/s3,"s3://crabby-images/b8f42/b8f42d2344411799be5d027978b1d80ac4dd11b5" alt=""
data:image/s3,"s3://crabby-images/75cf9/75cf9621d4880fd0f54e12785bef1c239e3d4add" alt=""
data:image/s3,"s3://crabby-images/25f0d/25f0d3859267e2c2c9b7ec991294d18d84fec2c6" alt=""
data:image/s3,"s3://crabby-images/fdf0b/fdf0b72c02e073ce650a7cc684fe9fa5f7ad4049" alt=""
data:image/s3,"s3://crabby-images/2bed8/2bed8985303e9d40a29aca567fd89e1936456c53" alt=""
宏块越大,控制力弱,处理速度越快
宏块越小,控制力更强,压缩比更高(用于纹理特别精细的图)
帧内压缩技术
按宏块为单位进行比较,然后压缩存储
data:image/s3,"s3://crabby-images/03875/03875ce5db00cd4254a75387f582d4a2dee0b38e" alt=""
h264提供了9种模式做帧间预测,每个宏块的预测模式不一
data:image/s3,"s3://crabby-images/3aa0d/3aa0d213462ff0808b417c3b1e298961b25213e9" alt=""
data:image/s3,"s3://crabby-images/0e11c/0e11ce929af05d09300bcf1db4a474ac91f8ae3b" alt=""
data:image/s3,"s3://crabby-images/bc77e/bc77e4d6159c5669fe25610e99cfab92a0db9b47" alt=""
data:image/s3,"s3://crabby-images/dede4/dede4f7eb0d617207793f45b0aefdcd519d89d2c" alt=""
帧间压缩技术
帧间压缩一定是同一个GOP之间的。
data:image/s3,"s3://crabby-images/09d6e/09d6ef4191666dd02a7eeacf2ba90191faae9a96" alt=""
data:image/s3,"s3://crabby-images/15c96/15c96973c096e4bcde511797a4ebb545e5f21a75" alt=""
data:image/s3,"s3://crabby-images/f3b46/f3b4666e12e24bd6a0e7df23c806f3d2f40229bf" alt=""
data:image/s3,"s3://crabby-images/f58ed/f58ed132520ead38ccb2f7b9f6307dde1a21c3ae" alt=""
data:image/s3,"s3://crabby-images/b409f/b409fcb39c575f51a0c1bda74f8102c6a2c5a781" alt=""
data:image/s3,"s3://crabby-images/2ad6c/2ad6cc01eb3e115894ae3de32bc9d78fe9c54563" alt=""
无损压缩
data:image/s3,"s3://crabby-images/9cce1/9cce10bd8357b5b646f3f4f8f33ccf54bb949a4c" alt=""
data:image/s3,"s3://crabby-images/9b5fa/9b5fad4f924bbcbed52b318741b393be3f69cf45" alt=""
DCT变换后将分散在nxn中的所有数据集中在开端。
data:image/s3,"s3://crabby-images/9491d/9491d65de70c47d722bc3420581112400e65d101" alt=""
H264码流结构
H264码流是分层存储。
NAL层的意义在于知道和处理二进制码流数据丢包和乱序的问题。
data:image/s3,"s3://crabby-images/af6e7/af6e78a73fb82298c586b27a6c77c4392861588d" alt=""
data:image/s3,"s3://crabby-images/6fe0c/6fe0c624cc86aa80023255832924fb68fa418368" alt=""
一个图像由多个slice组成,一般是由一个slice组成。
码流的基本概念
SODB(String of Data Bits)编码器生成的二级制数据串,按位计算;
RBSP 按字节计算
NALU NAL Header(1B)+RBSP
data:image/s3,"s3://crabby-images/20732/2073223935e43e01daee74d5f68527e9f8cc105b" alt=""
data:image/s3,"s3://crabby-images/43f96/43f96ad7196e0027075af2c107c22f0baf4436b1" alt=""
data:image/s3,"s3://crabby-images/45fe3/45fe33fe526ff8435c4ca62fb0ea7f14ed9fbe8a" alt=""
data:image/s3,"s3://crabby-images/dfb24/dfb24ae3576daee2109da6ed90ea6d0032bff4ee" alt=""
宏块= 宏块的类型+宏块的预测值+残差值
data:image/s3,"s3://crabby-images/0ed4f/0ed4fc28f98a58495fc7a9e0b26f46cbb9d5e117" alt=""
文件传输需要加startCode,即Annexb格式(startCode是每个NAL单元的分隔符)
网络传输用RTP格式
第十一章 实战视频编解码
H264中的profile和level
data:image/s3,"s3://crabby-images/ae99e/ae99e5d297a5daee87fbaa0e53867cc385e68716" alt=""
data:image/s3,"s3://crabby-images/3d1cb/3d1cb1cd870cf29966429e02319c40316075f1be" alt=""
data:image/s3,"s3://crabby-images/6454c/6454c29778f330745217949b11e0938a160cb458" alt=""
data:image/s3,"s3://crabby-images/77247/772475e351c8b7277214674f52eccd9564f2b6be" alt=""
data:image/s3,"s3://crabby-images/eb7db/eb7db5e739b8ad6a09e702390c287d7504a12f82" alt=""
SPS重要参数
data:image/s3,"s3://crabby-images/6e5ad/6e5ade57084b1d9310ad908f8ee64510ce570791" alt=""
data:image/s3,"s3://crabby-images/39222/392223415d377f257224ed04249bef7c1e1d2de9" alt=""
默认的宏块是16*16
data:image/s3,"s3://crabby-images/298ca/298cadb4a708e37f1d1be3085bdb69a04c111251" alt=""
GOP最大帧数
data:image/s3,"s3://crabby-images/27bbc/27bbcd1b5b3661c1ad9b185ee99a4d5ce63c60f3" alt=""
PPS与slice header
data:image/s3,"s3://crabby-images/4d9c9/4d9c9fc8b3583932e82e3199a5721dec84796e29" alt=""
data:image/s3,"s3://crabby-images/8c1c5/8c1c5f2186de8a68b10bba84915966b05e954eb7" alt=""
H264分析工具
前二者收费,后者免费
data:image/s3,"s3://crabby-images/4f86e/4f86e10ead2edd0c0cd722c0caa37e184bcedead" alt=""
data:image/s3,"s3://crabby-images/a5a32/a5a3216365e1048198117fc11862b45586d733d4" alt=""
推荐streameye,免费的就是雷神。
实战H264编码
data:image/s3,"s3://crabby-images/f02bf/f02bfa5c22ea775a6b48d7cd9bc6fec6c9e76d7c" alt=""
编码器x264参数
data:image/s3,"s3://crabby-images/dc22f/dc22f788dd62e9838aa2e4610ffebdc992fee132" alt=""
preset fast/slow 编码速度
tune 质量 电影>动画>图片
这两个值是不互斥的。
帧相关的参数
keyint GOP size(想要达到更高的压缩率,可以将其设置得尽量大。想要避免丢包引起的卡顿,可以将其设置的尽量小)
min-keyint 最小key帧的值,与scenecut相关联
scenecut 达到多少不同就认为场景切换了
bframes 连续帧的最大数量
ref 参考帧的数量
no-deblock/deblock 将块进行平滑处理
no-cabac 是否使用cabac进行熵编码
流控
data:image/s3,"s3://crabby-images/1d9e9/1d9e937631e99369c12a902211a12a37eafda1a0" alt=""
data:image/s3,"s3://crabby-images/3de16/3de160811fcc63ca326e013938b74168dff820a1" alt=""
编码分析
p8x8,p帧宏块的划分为8x8
data:image/s3,"s3://crabby-images/6dda7/6dda75de226b58a8443aa2064a3ce55fe3fed859" alt=""
data:image/s3,"s3://crabby-images/b6ba1/b6ba1ba825997fe2627982881c079386207c983a" alt=""
data:image/s3,"s3://crabby-images/a0abb/a0abb24424d69d4412f77b662c962f7e51b4bee1" alt=""
data:image/s3,"s3://crabby-images/bb86f/bb86f2d52b3e850b125e6d9e6346fc57cd6dfa66" alt=""
12章 RTMP传输
12-1RTMP协议
rtmp协议是基于tcp的。
data:image/s3,"s3://crabby-images/14b16/14b16ecfa42c3fa19543e3848f1100125f127e05" alt=""
data:image/s3,"s3://crabby-images/1775e/1775e0c5af0419fedef534e1f805ea096608e60a" alt=""
12-2 创建rtmp流
data:image/s3,"s3://crabby-images/62297/622972af25588e39356049c0b040f25279a509a2" alt=""
data:image/s3,"s3://crabby-images/20d38/20d3827a71d124287c8ff432c017e0a0f524e10a" alt=""
data:image/s3,"s3://crabby-images/02a4b/02a4bef92003f0ff1b5f857b3a1a519d4a6594a7" alt=""
12-3 RTMP消息
FLV文件就是由“FLV Header + RTMP数据”构成的
12-7 推流程序的骨架
data:image/s3,"s3://crabby-images/7717e/7717e9fcc7d19817e0327685308b2489208853a7" alt=""