音视频开发—FFMpeg编码&解码

2023-02-09 本文已影响0人谁动了我的代码

FFMpeg 作为音视频领域的开源工具，它几乎可以实现所有针对音视频的处理，本文主要利用 FFMpeg 官方提供的 SDK 实现音视频最简单的几个实例：编码、解码、封装、解封装、转码、缩放以及添加水印。

接下来会由发现问题－＞分析问题－＞解决问题－＞实现方案，循序渐进的完成。

FFMpeg 编码实现

本例子实现的是将视频域 YUV 数据编码为压缩域的帧数据，编码格式包含了 H.264/H.265/MPEG1/MPEG2 四种 CODEC 类型。

实现的过程，可以大致用如下图表示:

image

从图中可以大致看出视频编码的流程:

首先要有未压缩的 YUV 原始数据。
其次要根据想要编码的格式选择特定的编码器。
最后编码器的输出即为编码后的视频帧。

根据流程可以推倒出大致的代码实现：

存放待压缩的 YUV 原始数据。此时可以利用 FFMpeg 提供的 AVFrame 结构体，并根据 YUV 数据来填充 AVFrame　结构的视频宽高、像素格式；根据视频宽高、像素格式可以分配存放数据的内存大小，以及字节对齐情况。
获取编码器。利用想要压缩的格式，比如　H.264/H.265/MPEG1/MPEG2 等，来获取注册的编解码器，编解码器在 FFMpeg 中用 AVCodec 结构体表示，对于编解码器，肯定要对其进行配置，包括待压缩视频的宽高、像素格式、比特率等等信息，这些信息，FFMpeg 提供了一个专门的结构体 AVCodecContext 结构体。
存放编码后压缩域的视频帧。FFMpeg 中用来存放压缩编码数据相关信息的结构体为 AVPacket。最后将 AVPacket 存储的压缩数据写入文件即可。

AVFrame 结构体的分配使用av_frame_alloc()函数，该函数会对 AVFrame 结构体的某些字段设置默认值，它会返回一个指向 AVFrame 的指针或 NULL指针(失败)。

AVFrame 结构体的释放只能通过av_frame_free()来完成。

注意，该函数只能分配 AVFrame 结构体本身，不能分配它的 data buffers 字段指向的内容，该字段的指向要根据视频的宽高、像素格式信息手动分配，本例使用的是av_image_alloc()函数。

代码实现大致如下：


//allocate AVFrame struct
AVFrame *frame = NULL;
frame = av_frame_alloc();
if(!frame){
 printf("Alloc Frame Fail\n");
 return -1;
}

//fill AVFrame struct fields
frame->width = width;
frame->height = height;
frame->pix_fmt = AV_PIX_FMT_YUV420P;

//allocate AVFrame data buffers field point
ret = av_image_alloc(frame->data, frame->linesize, frame->width, frame->height, frame->pix_fmt, 32);
if(ret < 0){
 printf("Alloc Fail\n");
 return -1;
}

//write input file data to frame->data buffer
fread(frame->data[0], 1, frame->width*frame->height, pInput_File);
...
av_frame_free(frame);

编解码器相关的 AVCodec 结构体的分配使用avcodec_find_encoder(enum AVCodecID id)完成，该函数的作用是找到一个与 AVCodecID 匹配的已注册过得编码器；成功则返回一个指向 AVCodec ID 的指针，失败返回 NULL 指针。

该函数的作用是确定系统中是否有该编码器，只是能够使用编码器进行特定格式编码的最基本的条件，要想使用它，至少要完成两个步骤：

根据特定的视频数据，对该编码器进行特定的配置；
打开该编码器。

针对第一步中关于编解码器的特定参数，FFMpeg 提供了一个专门用来存放 AVCodec 所需要的配置参数的结构体 AVCodecContext 结构。

它的分配使用avcodec_alloc_context3(const AVCodec *codec)完成，该函数根据特定的 CODEC 分配一个 AVCodecContext 结构体，并设置一些字段为默认参数，成功则返回指向 AVCodecContext 结构体的指针，失败则返回 NULL 指针。

分配完成后，根据视频特性，手动指定与编码器相关的一些参数，比如视频宽高、像素格式、比特率、GOP 大小等。最后根据参数信息，打开找到的编码器，此处使用avcodec_open2()函数完成。

代码实现大致如下：

AVCodec *codec = NULL;
AVCodecContext *codecCtx = NULL;

//register all encoder and decoder
avcodec_register_all();

//find the encoder
codec = avcodec_find_encoder(codec_id);
if(!codec){
 printf("Could Not Find the Encoder\n");
 return -1;
}

//allocate the AVCodecContext and fill it's fields
codecCtx = avcodec_alloc_context3(codec);
if(!codecCtx){
 printf("Alloc AVCodecCtx Fail\n");
 return -1;
}
codecCtx->bit_rate = 4000000;
codecCtx->width    = frameWidth;
codecCtx->height   = frameHeight;
codecCtx->time_base= (AVRational){1, 25};
//open the encoder
if(avcodec_open2(codecCtx, codec, NULL) < 0){
 printf("Open Encoder Fail\n");
}

存放编码数据的结构体为 AVPacket，使用之前要对该结构体进行初始化，初始化函数为av_init_packet(AVPacket *pkt)，该函数会初始化 AVPacket 结构体中一些字段为默认值，但它不会设置其中的 data 和 size 字段，需要单独初始化,如果此处将 data 设为 NULL、size 设为 0，编码器会自动填充这两个字段。

有了存放编码数据的结构体后，我们就可以利用编码器进行编码了。

FFMpeg 提供的用于视频编码的函数为avcodec_encode_video2,它作用是编码一帧视频数据，该函数比较复杂，单独列出如下：

int avcodec_encode_video2(AVCodecContext *avctx, AVPacket *avpkt,
const AVFrame *frame, int *got_packet_ptr);

它会接收来自 AVFrame->data 的视频数据，并将编码数据放到 AVPacket->data 指向的位置，编码数据大小为 AVPacket->size。

其参数和返回值的意义：

avctx: AVCodecContext 结构，指定了编码的一些参数；
avPkt: AVPacket对象的指针，用于保存输出的码流；
frame：AVFrame结构，用于传入原始的像素数据；
got_packet_ptr:输出参数，用于标识是否已经有了完整的一帧；
返回值：编码成功返回 0，失败返回负的错误码；

编码完成后就可将AVPacket->data内的编码数据写到输出文件中；代码实现大致如下：

AVPacket pkt;

//init AVPacket
av_init_packet(&pkt);
pkt.data = NULL;
pkt.size = 0;

//encode the image
ret = avcodec_encode_video2(codecCtx, &pkt, frame, &got_output);
if(ret < 0){
 printf("Encode Fail\n");
 return -1;
｝

if(got_output){
 fwrite(pkt.data, 1, pkt.size, pOutput_File);
}

编码的大致流程已经完成了，剩余的是一些收尾工作，比如释放分配的内存、结构体等等。

FFMpeg 解码实现

解码实现的是将压缩域的视频数据解码为像素域的 YUV 数据。实现的过程，可以大致用如下图所示。

image

从图中可以看出，大致可以分为下面三个步骤：

首先要有待解码的压缩域的视频。
其次根据压缩域的压缩格式获得解码器。
最后解码器的输出即为像素域的 YUV 数据。

根据流程可以推倒出大致的代码实现：

关于输入数据。首先，要分配一块内存，用于存放压缩域的视频数据；之后，对内存中的数据进行预处理，使其分为一个一个的 AVPacket 结构（AVPacket 结构的简单介绍如上面的编码实现）。最后，将 AVPacket 结构中的 data 数据给到解码器。
关于解码器。首先，利用 CODEC_ID 来获取注册的解码器；之后，将预处理过得视频数据给到解码器进行解码。
关于输出。FFMpeg 中，解码后的数据存放在 AVFrame 中；之后就将 AVFrame 中的 data 字段的数据存放到输出文件中。

对于输入数据，首先，通过 fread 函数实现将固定长度的输入文件的数据存放到一块 buffer 内。

H.264中一个包的长度是不定的，读取固定长度的码流通常不可能刚好读出一个包的长度；

对此，FFMpeg 提供了一个 AVCoderParserContext 结构用于解析读到 buffer 内的码流信息，直到能够取出一个完整的 H.264 包。

为此，FFMpeg 提供的函数为av_parser_parse2，该函数比较复杂，定义如下：


int av_parser_parse2(AVCodecParserContext *s,
                     AVCodecContext *avctx,
                     uint8_t **poutbuf, int *poutbuf_size,
                     const uint8_t *buf, int buf_size,
                     int64_t pts, int64_t dts,
                     int64_t pos);

函数的参数和返回值含义如下：

AVCodecParserContext *s:初始化过的 AVCodecParserContext 对象，决定了码流该以怎样的标准进行解析；
AVCodecContext *avctx：预先定义好的 AVCodecContext 对象；
uint8_t **poutbuf：AVPacket：：data 的地址，保存解析完成的包数据。
int *poutbuf_size：AVPacket 的实际数据长度，如果没有解析出完整的一个包，该值为 0；
const uint8_t *but:待解码的码流的地址；
int buf_size:待解码的码流的长度；
int64_t pts, int64_t dts:显示和解码的时间戳；
int64_t pos:码流中的位置；
返回值为解析所使用的比特位的长度；

FFMpeg 中为我们提供的该函数常用的使用方式为：

while(in_len){
 len = av_parser_parse2(myparser. AVCodecContext, &data, &size, in_data, in len, pts, dts, pos);

 in_data += len;
 in_len  -= len;

 if(size)
  decode_frame(data, size);
}

如果参数poutbuf_size的值为0，那么应继续解析缓存中剩余的码流；如果缓存中的数据全部解析后依然未能找到一个完整的包，那么继续从输入文件中读取数据到缓存，继续解析操作，直到pkt.size不为0为止。

因此，关于输入数据的处理，代码大致如下：

//open input file
FILE *pInput_File = fopen(Input_FileName, "rb+");
if(!pInput_File){
 printf("Open Input File Fail\n");
 return -1;
}

//read compressed bitstream form file to buffer
uDataSize = fread(inbuf, 1, INBUF_SIZE, pInput_File);
if(uDataSize == 0){ //decode finish
 return -1;
}

//decode the data in the buffer to AVPacket.data
while(uDataSize > 0){
 len = av_parser_parse2(pCodecParserCtx, codecCtx,
       &(pkt.data), &(pkt.size),
       pDataPtr, uDataSize,
       AV_NOPTS_VALUE, AV_NOPTS_VALUE,
       AV_NOPTS_VALUE);
 uDataSize -= len;
 uDataPtr  += len;

 if(pkt.size == 0) continue;
 decode_frame(pkt.data, pkt.size);
}

注意，上面提到的av_parser_parse2函数用的几个参数，其实是与具体的编码格式有关的，它们应该在之前已经分配好了，我们只是放到后面来讲一下，因为它们是与具体的解码器强相关的。

对于解码器。

与上面提到的编码实现类似，首先，根据 CODEC_ID 找到注册的解码器 AVCodec，FFMpeg 为此提供的函数为avcodec_find_decoder()；

其次，根据找到的解码器获取与之相关的解码器上下文结构体 AVCodecC，使用的函数为编码中提到的avcodec_alloc_context3；

再者，如上面提到的要获取完整的一个 NALU，解码器需要分配一个 AVCodecParserContext 结构，使用函数av_parser_init；

最后，前面的准备工作完成后，打开解码器，即可调用 FFMpeg 提供的解码函数avcodec_decode_video2对输入的压缩域的码流进行解码，并将解码数据存放到 AVFrame->data 中。

代码实现大致如下：

AVFrame *frame = NULL;
AVCodec *codec = NULL;
AVCodecContext *codecCtx = NULL;
AVCodecParserContext *pCodecParserCtx = NULL;

//register all encoder and decoder
avcodec_register_all();

//Allocate AVFrame to Store the Decode Data
frame = av_frame_alloc();
if(!frame){
 printf("Alloc Frame Fail\n");
 return -1;
}

//Find the  AVCodec Depending on the CODEC_ID
codec = avcodec_find_decoder(AV_CODEC_ID_H264);
if(!codec){
 printf("Find the Decoder Fail\n");
 return -1;
}

//Allocate the AVCodecContext 
codecCtx = avcodec_alloc_context3(codec);
if(!codecCtx){
 printf("Alloc AVCodecCtx Fail\n");
 return -1;
}

//Allocate the AVCodecParserContext 
pCodecParserCtx = av_parser_init(AV_CODEC_ID_H264);
if(!pCodecParserCtx){
 printf("Alloc AVCodecParserContext Fail\n");
 return -1;
}

//Open the Decoder
if(avcodec_open2(codecCtx, codec, NULL) < 0){
 printf("Could not Open the Decoder\n");
 return -1;
}

//read compressed bitstream form file to buffer
uDataSize = fread(inbuf, 1, INBUF_SIZE, pInput_File);
if(uDataSize == 0){ //decode finish
 return -1;
}

//decode the data in the buffer to AVPacket.data
while(uDataSize > 0){
 len = av_parser_parse2(pCodecParserCtx, codecCtx,
       &(pkt.data), &(pkt.size),
       pDataPtr, uDataSize,
       AV_NOPTS_VALUE, AV_NOPTS_VALUE,
       AV_NOPTS_VALUE);
 uDataSize -= len;
 uDataPtr  += len;

 if(pkt.size == 0) continue;
 //decode start
 avcodec_decode_video2(codecCtx, frame, &got_frame, pkt);
}

注意，上面解码的过程中，针对具体的实现，可能要做一些具体参数上的调整，此处只是理清解码的流程。

对于输出数据。

解码完成后，解码出来的像素域的数据存放在 AVFrame 的 data 字段内，只需要将该字段内存放的数据之间写文件到输出文件即可。

解码函数avcodec_decode_video2函数完成整个解码过程，对于它简单介绍如下：


pOutput_File = fopen(Output_FileName, "wb");
if(!pOutput_File){
 printf("Open Output File Fail\n");
 return -1;
}
 
if(*got_picture_ptr){
 fwrite(frame->data[0],1, Len, pOutput_File)
}

该函数各个参数的意义：

AVCodecContext *avctx：编解码器上下文对象，在打开编解码器时生成；
AVFrame *picture: 保存解码完成后的像素数据；我们只需要分配对象的空间，像素的空间codec会为我们分配好；
int *got_picture_ptr: 标识位，如果为1，那么说明已经有一帧完整的像素帧可以输出了;
const AVPacket *avpkt: 前面解析好的码流包；

由此可见，当标识位为1时，代表解码一帧结束，可以写数据到文件中。代码如下：

pOutput_File = fopen(Output_FileName, "wb");
if(!pOutput_File){
 printf("Open Output File Fail\n");
 return -1;
}

if(*got_picture_ptr){
 fwrite(frame->data[0],1, Len, pOutput_File)
}

解码的大致流程已经完成了，剩余的是一些收尾工作，比如释放分配的内存、结构体等等

FFmpeg解码相关变量

1、AVFormatContext

AVFormatContext描述了一个媒体文件或媒体流的构成和基本信息，位于avformat.h文件中；

2、AVInputFormat

AVInputFormat是类似COM接口的数据结构，表示输入文件容器格式，着重于功能函数，一种文件容器格式对应一个AVInputFormat结构，在程序运行时有多个实例，位于avoformat.h文件中；

3、AVDictionary

AVDictionary是一个字典集合，键值对，用于配置相关信息；

4、AVCodecContext

AVCodecContext是一个描述编码器上下文的数据结构，包含了众多编码器需要的参数信息，位于avcodec.h文件中；

5、AVPacket

AVPacket是FFmpeg中很重要的一个数据结构，它保存了解复用（demuxer）之后，解码（decode）之前的数据（仍然是压缩后的数据）和关于这些数据的一些附加的信息，如显示时间戳（pts），解码时间戳（dts），数据时长等；使用前，使用av_packet_alloc()分配；

6、AVCodec

AVCodec是存储编码器信息的结构体，位于avcodec.h

7、AVFrame

AVFrame中存储的是经过解码后的原始数据。在解码中，AVFrame是解码器的输出；在编码中，AVFrame是编码器的输入；使用前，使用av_frame_alloc()进行分配；

8、struct SwsContext

使用前，使用sws_getContext()进行获取，主要用于视频图像的转换；

FFmpeg解码流程相关函数原型

1、av_register_all

初始化libavformat并注册所有muxer、demuxer和协议；如果不调用此函数，则可以选择想要指定注册支持的哪种格式，通过av_register_input_format()、av_register_output_format()；

void av_register_all(void)

2、avformat_open_input

打开输入流并读取标头；此时编解码器还未打开；流必须使用avformat_close_input()关闭，返回0成功，小于0失败错误码；

int avformat_open_input(AVFormatContext **ps,
                        const char *url,
                        AVInputFormat *fmt,
                        AVDictionary **options);

ps：指向用户提供的AVFormatContext（由avformat_alloc_context分配）的指针；
url：要打开的流的url；
fmt：fmt如果非空，则此参数强制使用特定的输入格式，否则将自动检测格式；
options：包含AVFormatContext和demuxer私有选项的字典。返回时，此参数将销毁并替换为包含找不到的选项；都有效则返回为空；

3、avformat_find_stream_info

读取检测媒体文件的数据包以获取具体的流信息，如媒体存入的编码格式；

int avformat_find_stream_info(AVFormatContext *ic,AVDictionary **options);

ic：媒体文件上下文； options：字典，一些配置选项；

4、avcodec_find_decoder

查找具有匹配编解码器ID的已注册解码器，解码时，已经获取到了，注册的解码器可以通过枚举查看；

AVCodec *avcodec_find_decoder(enum AVCodecID id);

5、avcodec_open2

初始化AVCodecContext以使用给定的AVCodec；

int avcodec_open2(AVCodecContext *avctx,
                  const AVCodec *codec,
                  AVDictionary **options);

6、sws_getContext

分配并返回一个SwsContext。需要它来执行sws_scale()进行缩放/旋转操作；

struct SwsContext *sws_getContext(int srcW,
                                  int srcH,
                                  enum AVPixelFormat srcFormat,
                                  int dstW,
                                  int dstH,
                                  enum AVPixelFormat dstFormat,
                                  int flags,
                                  SwsFilter *srcFilter,
                                  SwsFilter *dstFilter,
                                  const double *param);

7、avpictrue_get_size

返回存储具有给定参数的图像的缓存区域大小；

int avpicture_get_size(enum AVPixelFormat pix_fmt, int widget, int height);

pix_fmt：图像的像素格式；
width：图像的像素宽度；
height：图像的像素高度；

8、avpictrue_fill

根据指定的图像、提供的数组设置数据指针和线条大小参数；

int avpicture_fill(AVPicture *picture,
                   const uint8_t *ptr,
                   enum AVPixelFormat pix_fmt,
                   int width,
                   int height);

picture：输入AVFrame指针，强制转换为AVPicture即可；
ptr：映射到的缓存区，开发者自己申请的存放图像数据的缓存区；
pix_fmt：图像数据的编码格式；
width：图像像素宽度；
height：图像像素高度；

9、av_read_frame

返回流的下一帧；此函数返回存储在文件中的内容，不对有效的帧进行验证；获取存储在文件中的帧中，并未每个调用返回一个；不会省略有效帧之间的无效数据，以便给解码器最大可用于解码的信息；返回0是成功，小于0则是错误，大于0则是文件末尾，所以大于等于0是返回成功；

10、avcodec_decode_video2

将大小为avpkt->size from avpkt->data的视频帧解码为图片。一些解码器可以支持单个avpkg包中的多个帧，解码器将只解码第一帧；出错时返回负值，否则返回字节数，如果没有帧可以解压缩，则为0；

int avcodec_decode_video2(AVCodecContext *avctx,
                          AVFrame *picture,
                          int *got_picture_ptr,
                          const AVPacket *avpkt);

avctx：编解码器上下文；
picture：将解码视频帧存储在AVFrame中；
got_picture_ptr：输入缓冲区的AVPacket；
avpkt：如果没有帧可以解压，那么得到的图片是0；否则，它是非零的；

11、sws_scale

在srcSlice中缩放图像切片，并将结果缩放在dst中切片图像。切片是连续的序列图像中的行。

int sws_scale(struct SwsContext *c,
              const uint8_t *const srcSlice[],
              const int srcStride[],
              int srcSliceY,
              int srcSliceH,
              uint8_t *const dst[],
              const int dstStride[]);

c：以前用创建的缩放上下文sws+getContext()；
srcSlice[]：包含指向源片段，就是AVFrame的data；
srcStride[]：包含每个平面的跨步的数组，其实就是AVFrame的linesize；
srcSliceY：切片在源图像中的位置，从开始计数0对应切片第一行的图像，所以直接填0即可；
srcSliceH：源切片的像素高度；
dst[]：目标数据地址映像，是目标AVFrame的data；
dstStride[]：目标每个平面的跨步的数组，就是linesize；

12、av_free_packet

释放一个包；

void av_free_packet(AVPacket *pkt);

13、avcodec_close

关闭给定的avcodeContext并释放与之关联的所有数据（但不是AVCodecContext本身）；

int avcodec_close(AVCodecContext *avctx);

14、avformat_close_input

关闭打开的输入AVFormatContext，释放它和它的所有内容，并将*s设置为空；

void avformat_close_input(AVFormatContext **s);

image

音视频中的FFmpeg的解码与编码就是以上内容了，有关更多的FFmpeg的学习以及音视频的学习，大家可以参考《音视频入门到精通手册》点击获取里面内容。

文末

FFmpeg 的基本组成

FFmpeg 的基本组成包含Format、Codec、Filter、Devices、Utils等，结构如图：

image

AvFormats: 主要为媒体文件的封装格式，也可以称之为多媒体编码数据的容器，包含了音频数据，视频数据，字幕数据之类的容器；
AvCodecs：主要为媒体文件容器内的具体的数据对应的压缩方式，例如音频的aac压缩数据，音频的speex压缩数据，视频h264压缩数据等，或ASS字幕数据等；
AvFilters：主要为媒体的音频数据，视频数据进行渲染，例如多个视频文件视频数据前景与背景进行叠加、透明处理、音频重采样、音频合并等处理；
AvDevices：主要为媒体的播放输出设备，媒体的采集设备，例如音频采集设备，音频输出设备，视频的采集设备，视频的输出设备等；
Utils：主要为FFmpeg中的AVFormats，AVCodecs，AVFilters等所用到的公用的接口；
Swscale：主要为FFmpeg中做缩放，rgb转yuv，混色计算等用的接口。

音视频开发—FFMpeg编码&解码

FFMpeg 编码实现

FFMpeg 解码实现

FFmpeg解码相关变量

1、AVFormatContext

2、AVInputFormat

3、AVDictionary

4、AVCodecContext

5、AVPacket

6、AVCodec

7、AVFrame

8、struct SwsContext

FFmpeg解码流程相关函数原型

1、av_register_all

2、avformat_open_input

3、avformat_find_stream_info

4、avcodec_find_decoder

5、avcodec_open2

6、sws_getContext

7、avpictrue_get_size

8、avpictrue_fill

9、av_read_frame

10、avcodec_decode_video2

11、sws_scale

12、av_free_packet

13、avcodec_close

14、avformat_close_input

文末

FFmpeg 的基本组成

猜你喜欢

热点阅读