一个Java码农眼中的技术世界音视频专辑FFmpeg

FFMPEG完美入门资料---003---FFmpeg 架构

2018-03-15  本文已影响272人  张芳涛

写在前面

如果对FFmpeg有需要更多了解的请订阅我的专题:音视频专辑

3.1 FFmpeg 文件结构

文件 简要说明
allcodecs.c 简单的注册类函数
avcodec.h 编解码相关结构体定义和函数原型声明
dsputil.c 限幅数组初始化
dsputil.h 限幅数组声明
imgconvert.c 颜色空间转换相关函数实现
imgconvert_template.h 颜色空间转换相关结构体定义和函数声明
utils_codec.c 一些解码相关的工具类函数的实现
mpeg4audio.c mpeg4 音频编解码器的函数实现
mpeg4audio.h mpeg4 音频编解码器的函数声明
mpeg4data.h mpeg4 音视频编解码器的公用的函数声明及数据结构定义
mpeg4video.c mpeg4 视频编解码器的函数实现
mpeg4video.h mpeg4 视频编解码器的函数的声明及先关数据结构的定义
mpeg4videodec.c mpeg4 视频解码器的函数实现
mpeg4videoenc.c mpeg4 视频编码器的函数实现
文件 简要说明
allformats.c 简单注册类函数
avformat.h 文件和媒体格式相关函数声明和数据结 构定义
avio.c 无缓冲 IO 相关函数实现
avio.h 无缓冲 IO 相关结构定义和函数声明
aviobuf.c 有缓冲数据 IO 相关函数实现
cutils.c 简单的字符串操作函数
utils_format.c 文件和媒体格式相关的工具函数的实现
file.c 文件 io 相关函数
…… 其他相关媒体流 IO 的函数和数据结构实 现文件。 如:rtsp、http 等。
avi.c AVI 格式的相关函数定西
avi.h AVI 格式的相关函数声明及数据结构定义
avidec.c AVI 格式 DEMUXER 相关函数定义
avienc.c AVI 格式 MUXER 相关函数定义
…… 其他媒体格式的 muxer/demuxer 相关函 数及数据结构定义和声明文件

*libavutil
主要存放 ffmpeg 工具类 函数的定义

avutil.h 简单的像素格式宏定义
bswap.h 简单的大小端转换函数的实现
commom.h 公共的宏定义和简单函数的实现
mathematics.c 数学运算函数实现
rational.h 分数相关表示的函数实现

3.2 I\O 模块分析

3.2.1 概述

ffmpeg 项目的数据 IO 部分主要是在 libavformat 库中实现, 某些对于内存的操作部分在 libavutil 库中。数据 IO 是基于文件格式(Format)以及文件传输协议(Protocol) 的, 与具体的编解码标准无关。 ffmpeg 工程转码时数据 IO 层次关系如图所示: ffmpeg 转码数据 IO 流程

对于上面的数据 IO 流程, 具体可以用下面的例子来说明, 我们从一个 http 服务器 获取音视频数据, 格式是 flv 的, 需要通过转码后变成 avi 格式, 然后通过 udp 协议进 行发布。 其过程就如下所示:

3.2.2 相关数据结构介绍

在 libavformat 库中与数据 IO 相关的数据结构主要有 URLProtocol、URLContext、ByteIOContext、AVFormatContext 等, 各结构之间的关系如图所示。


libavformat 库中 IO 相关数据结构之间的关系

1、URLProtocol 结构

表示广义的输入文件, 该结构体提供了很多的功能函数, 每一种广义的输入文件 (如:file、pipe、tcp、rtp 等等)对应着一个 URLProtocol 结构,在 av_register_all() 中将该结构体初始化为一个链表, 表头为 avio.c 里的 URLProtocol *first_protocol = NULL;保存所有支持的输入文件协议, 该结构体的定义如下:

typedef struct URLProtocol 
{ 
const char *name; 
int (*url_open)(URLContext *h, const char *url, int flags); 
int (*url_read)(URLContext *h, unsigned char *buf, int size);
int (*url_write)(URLContext *h, const unsigned char *buf, int size); 
int64_t (*url_seek)(URLContext *h, int64_t pos, int whence); 
int (*url_close)(URLContext *h); 
struct URLProtocol *next; 
int (*url_read_pause)(URLContext *h, int pause);
int64_t (*url_read_seek)(URLContext *h, int stream_index,int64_t timestamp, int flags);
int (*url_get_file_handle)(URLContext *h);
int priv_data_size;
const AVClass *priv_data_class; 
int flags;
int (*url_check)(URLContext *h, int mask);
} URLProtocol;

注意到, URLProtocol 是一个链表结构, 这是为了协议的统一管理, ffmpeg 项目中 将所有的用到的协议都存放在一个全局变量 first_protocol 中, 协议的注册是在 av_register_all 中完成的, 新添加单个协议可以调用 av_register_protocol2 函数实 现。 而协议的注册就是将具体的协议对象添加至 first_protocol 链表的末尾。

URLProtocol 在各个具体的文件协议中有一个具体的实例,如在 file 协议中定义为:

URLProtocol ff_file_protocol = {
 .name = " file" ,
 .url_open = file_open,
 .url_read = file_read,
 .url_write = file_write,
 .url_seek = file_seek,
 .url_close = file_close,
 .url_get_file_handle = file_get_handle, .
 .url_check = file_check,
};

2、URLContext 结构

URLContext 提供了与当前打开的具体的文件协议(URL)相关数据的描述, 在该结 构中定义了指定当前 URL(即 filename 项)所要用到的具体的 URLProtocol, 即:提供 了一个在 URLprotocol 链表中找到具体项的依据, 此外还有一些其它的标志性的信息, 如 flags, is_streamed 等。 它可以看成某一种协议的载体。 其结构定义如下:

typedef struct URLContext
 {
const AVClass *av_class; ///< information for av_log(). Set by url_open(). 
struct URLProtocol *prot; 
int flags; 
int is_streamed; /**< true if streamed (no seek possible), default = false *
int max_packet_size; void *priv_data; 
char *filename; /**< specified URL */ 
int is_connected;
 } URLContext;

那么 ffmpeg 依据什么信息初始化 URLContext?然后又是如何初始化 URLContext 的呢?

在打开一个 URL 时, 全局函数 ffurl_open 会根据 filename 的前缀信息来确定 URL 所使用的具体协议, 并为该协议分配好资源, 再调用 ffurl_connect 函数打开具体协议, 即调用协议的 url_open, 调用关系如下:

int av_open_input_file(AVFormatContext **ic_ptr,
const char *filename,
AVInputFormat *fmt,
int buf_size,
AVFormatParameters *ap)

int avformat_open_input(
AVFormatContext **ps ,
const char *filename ,
AVInputFormat *fmt,
AVDictionary **options)

static int init_input(AVFormatContext *s, const char *filename)

浅蓝色部分的函数完成了 URLContext 函数的初始化,URLContext 使 ffmpeg 外所暴 露的接口是统一的,而不是对于不同的协议用不同的函数,这也是面向对象思维的体现。 在此结构中还有一个值得说的是 priv_data 项, 这是结构的一个可扩展项, 具体协议可 以根据需要添加相应的结构, 将指针保存在这就行。

3、AVIOContext 结构

AVIOContext(即:ByteIOContext)是由 URLProtocol 和 URLContext 结构扩展而 来,也是 ffmpeg 提供给用户的接口,它将以上两种不带缓冲的读取文件抽象为带缓冲的 读取和写入, 为用户提供带缓冲的读取和写入操作。 数据结构定义如下:

typedef struct 
{
  unsigned char *buffer; /**< Start of the buffer. */
  int buffer_size; /**< Maximum buffer size */ 
  unsigned char *buf_ptr; /**< Current position in the buffer */
  unsigned char *buf_end; 
  void *opaque; /关联 URLContext int (*read_packet)(void *opaque, uint8_t *buf, int buf_size); 
  int (*write_packet)(void *opaque, uint8_t *buf, int buf_size);
  int64_t (*seek)(void *opaque, int64_t offset, int whence); 
  int64_t pos; int must_flush; int eof_reached; /**< true if eof reached */
  int write_flag; /**< true if open for writing */
  int max_packet_size; 
  unsigned long checksum; 
  unsigned char *checksum_ptr; 
  unsigned long (*update_checksum)(unsigned long checksum, const uint8_t *buf, unsigned int size);
  int error; 
  int (*read_pause)(void *opaque, int pause) int64_t (*read_seek)(void *opaque, int stream_index,int64_t timestamp, int flags); 
  int seekable;
 } AVIOContext;

结 构 简 单 的 为 用 户 提 供 读 写 容 易 实 现 的 四 个 操 作 , read_packet write_packet read_pause read_seek, 极大的方便了文件的读取, 四个函数在加了缓冲机制后被中转 到, URLContext 指向的实际的文件协议读写函数中。

下面给出 0.8 版本中是如何将 AVIOContext 的读写操作中转到实际文件中的。

在 avio_open()函数中调用了 ffio_fdopen()函数完成了对 AVIOContex 的初始 化, 其调用过程如下:


蓝色部分的函数调用完成了对 AVIOContext 的初始化, 在初始化的过程中, 将 AVIOContext 的 read_packet 、 write_packet 、 seek 分 别 初 始 化 为 : ffurl_read ffurl_write ffurl_seek , 而 这 三 个 函 数 又 将 具 体 的 读 写 操 作 中 转 为 : h->prot->url_read、h->prot->url_write、h->prot->url_seek, 另外两个变量初始化 时也被相应的中转, 如下:

(*s)->read_pause = (int (*)(void *, int))h->prot->url_read_pause;
(*s)->read_seek = (int64_t (*)(void *, int, int64_t, int))h->prot->url_read_seek;

所以, 可以简要的描述为:AVIOContext 的接口口是加了缓冲后的 URLProtocol 的 函数接口。

在 aviobuf.c 中定义了一系列关于 ByteIOContext 这个结构体的函数, 如下

*get_xxx 系列:

int get_buffer(ByteIOContext *s, unsigned char *buf, int size);
int get_partial_buffer(ByteIOContext *s, unsigned char *buf, int size); 
int get_byte(ByteIOContext *s);
unsigned int get_le24(ByteIOContext *s);
unsigned int get_le32(ByteIOContext *s); 
uint64_t get_le64(ByteIOContext *s);
unsigned int get_le16(ByteIOContext *s);
char *get_strz(ByteIOContext *s, char *buf, int maxlen); 
unsigned int get_be16(ByteIOContext *s); 
unsigned int get_be24(ByteIOContext *s); 
unsigned int get_be32(ByteIOContext *s);
uint64_t get_be64(ByteIOContext *s);

这些 put_xxx 及 get_xxx 函数是用于从缓冲区 buffer 中写入或者读取若干个字节, 对于读写整型数据,分别实现了大端和小端字节序的版本。而缓冲区 buffer 中的数据又 是 从 何 而 来 呢 , 有 一 个 fill_buffer 的 函 数 , 在 fill_buffer 函 数 中 调 用 了 ByteIOContext 结构的 read_packet 接口。 在调用 put_xxx 函数时, 并没有直接进行真 正写入操作,而是先缓存起来,直到缓存达到最大限制或调用 flush_buffer 函数对缓冲 区进行刷新, 才使用 write_packet 函数进行写入操作。

3.3 Demuxer 和 muxer 模块分析

3.3.1 概述

ffmpeg 的 demuxer 和 muxer 接口分别在 AVInputFormat 和 AVOutputFormat 两个结

构体中实现, 在 av_register_all()函数中将两个结构分别静态初始化为两个链表, 保 存在全局变量:first_iformat 和 first_oformat 两个变量中。在 FFmpeg 的文件转换或 者打开过程中, 首先要做的就是根据传入文件和传出文件的后缀名匹配合适的 demuxer 和 muxer, 得到合适的信息后保存在 AVFormatContext 中。

3.3.2 相关数据结构介绍

1、AVInputFormat

该结构被称为 demuxer, 是音视频文件的一个解封装器, 它的定义如下:

typedef struct AVInputFormat
 {
 const char *name; 
 const char *long_name;
 int priv_data_size; //具体文件容器格式对应的 Context 的大小, 如:avicontext int (*read_probe)(AVProbeData *); 
 int (*read_header)(struct AVFormatContext *, AVFormatParameters *ap); 
 int (*read_packet)(struct AVFormatContext *, AVPacket *pkt); 
 int (*read_close)(struct AVFormatContext *); 
 #if FF_API_READ_SEEK 
 attribute_deprecated int (*read_seek)(struct AVFormatContext *, int stream_index, int64_t timestamp, int flags);
  #endif 
 int64_t (*read_timestamp)(struct AVFormatContext *s, int stream_index, int64_t *pos, int64_t pos_limit);
  int flags; const char *extensions;
  int value; 
  int (*read_play)(struct AVFormatContext *);
  int (*read_pause)(struct AVFormatContext *); 
  const struct AVCodecTag * const *codec_tag;
  int (*read_seek2)(struct AVFormatContext *s, int stream_index, int64_t min_ts, int64_t ts, int64_t max_ts, int flags);
  #if FF_API_OLD_METADATA2
 const AVMetadataConv *metadata_conv;
  #endif 
  const AVClass *priv_class; ///< AVClass for the private context
  struct AVInputFormat *next; 
 } AVInputFormat;

对于不同的文件格式要实现相应的函数接口, 这样每一种格式都有一个对应的 demuxer, 所有的 demuxer 都保存在全局变量 first_iformat 中。 红色表示提供的接口。

2、AVOutputFormat

该结构与 AVInputFormat 类似也是在编译时静态初始化, 组织为一个链表结构, 提 供了多个 muxer 的函数接口。

 int (*write_header)(struct AVFormatContext *);
 int (*write_packet)(struct AVFormatContext *, AVPacket *pkt); 
 int (*write_trailer)(struct AVFormatContext *);

对于不同的文件格式要实现相应的函数接口, 这样每一种格式都有一个对应的 muxer, 所有的 muxer 都保存在全局变量 first_oformat 中。

3、AVFormatContext

该结构表示与程序当前运行的文件容器格式使用的上下文, 着重于所有文件容器共 有的属性,在运行时动态的确定其值,是 AVInputFormat 和 AVOutputFormat 的载体,但 同一个结构对象只能使 AVInputFormat 和 AVOutputFormat 中的某一个有效。每一个输入 和输出文件, 都在

static AVFormatContext *output_files[MAX_FILES] 

static AVFormatContext *input_files[MAX_FILES];

定义的指针数组全局变量中有对应的实体。 对于输入和输出, 因为共用的是同一个结构 体, 所以需要分别对该结构中如下定义的 iformat 或 oformat 成员赋值。 在转码时读写 数据是通过 AVFormatContext 结构进行的。 定义如下:

typedef struct AVFormatContext 
{ 
 const AVClass *av_class; 
 struct AVInputFormat *iformat; //指向具体的 demuxer
 struct AVOutputFormat *oformat; //指向具体的 muxer
 void *priv_data; //具体文件容器格式的 Context 如:avicontext
 AVIOContext *pb; //广义的输入输出;
 unsigned int nb_streams; //本次打开的文件容器中流的数量
 AVStream **streams; //每个流的相关描述
 char filename[1024]; // input or output filename */ 
 int64_t timestamp; 
 int ctx_flags;
 struct AVPacketList *packet_buffer;
 …… 
 enum CodecID video_codec_id; 
 enum CodecID audio_codec_id;
 enum CodecID subtitle_codec_id; 
 unsigned int max_index_size;
 unsigned int max_picture_buffer; 
 …… 
 struct AVPacketList *raw_packet_buffer; 
 struct AVPacketList *raw_packet_buffer_end; 
 struct AVPacketList *packet_buffer_end;
  …… 
 } AVFormatContext;

红色部分的成员是 AVFormatContext 中最为重要的成员变量, 这些变量的初始化是 ffmpeg 能正常工作的必要条件, 那么, AVFormatContext 是如何被初始化的呢?文件的 格式是如何被探测到的呢?

首先我们来探讨:

 struct AVInputFormat *iformat; //指向具体的 demuxer
 struct AVOutputFormat *oformat; //指向具体的 muxer 
 void *priv_data; //具体文件容器格式的 Context 如:avicontext

三个成员的初始化。

在 avformat_open_input() 函 数 中 调 用 了 init_input() 函 数 , 然 后 用 调 用 了 av_probe_input_format()函数实现了对 AVFormatContext 的初始化。其调用关系如下:

 int av_open_input_file(AVFormatContext **ic_ptr, const char *filename, AVInputFormat *fmt, int buf_size, AVFormatParameters *ap);
 int avformat_open_input(ic_ptr, filename, fmt, &opts);
 static int init_input(s, filename);
 av_probe_input_format(&pd, 0);

av_probe_input_format (AVProbeData *pd, int is_opened, int *score_max) 函数用途是根据传入的 probe data 数据, 依次调用每个 demuxer 的 read_probe 接口, 来进行该 demuxer 是否和传入的文件内容匹配的判断。 与 demuxer 的匹配不同, muxer 的匹配是调用 guess_format 函数, 根据 main( ) 函数的 argv 里的输出文件后缀名来进 行的。 至此完成了前三个重要成员的初始化, 具体的做法就不在深入分析。

下面分别给出 av_read_frame 函数以及 av_write_frame 函数的基本流程。

int av_read_frame(AVFormatContext *s, AVPacket *pkt);
 ->av_read_frame_internel
    ->av_read_packet 
       ->iformat->read_packet(在实现中会丢弃多余信息) 
          ->av_get_packet 
             ->get_xxx

int av_write_frame(AVFormatContext *s, AVPacket *pkt);
  ->oformat->write_packet
     ->put_xxx

由上可见, 对 AVFormatContext 的读写操作最终是通过 ByteIOContext 来实现的, 这样, AVFormatContext 与 URLContext 就由 ByteIOContext 结构联系到一起了。 在 AVFormat 结构体中有一个 packet 的缓冲区 raw_packet_buffer, 是 AVPackList 的指针 类型, av_read_packet 函数将读到的包添加至 raw_packet_buffer 链表末尾。

3.4 Decoder/Encoder 模块

3.4.1 概述

编解码模块主要包含的数据结构为:AVCodec、AVCodecContext 每一个解码类型都 会有自己的 Codec 静态对像, Codec 的 int priv_data_size 记录该解码器上下文的结构 大 小 , 如 MsrleContext 。 这 些 都 是 编 译 时 确 定 的 , 程 序 运 行 时 通 过 avcodec_register_all()将所有的解码器注册成一个链表。在 av_open_input_stream() 函数中调用 AVInputFormat 的 read_header()中读文件头信息时, 会读出数据流的 CodecID, 即确定了他的解码器 Codec。

在 main()函数中除了解析传入参数并初始化 demuxer 与 muxer 的 parse_options( ) 函数以外, 其他的功能都是在 av_encode( )函数里完成的。 在 libavcodec\utils.c 中 有 如 下 二 个 函 数 :AVCodec *avcodec_find_encoder(enum CodecID id) 和 AVCodec *avcodec_find_decoder(enum CodecID id)他们的功能就是根据传入的 CodecID, 找到 匹配的 encoder 和 decoder。在 av_encode( )函数的开头,首先初始化各个 AVInputStream 和 AVOutputStream,然后分别调用上述二个函数,并将匹配上的 encoder 与 decoder 分 别保存在:

AVInputStream->AVStream *st->AVCodecContext *codec->struct AVCodec *codec 

AVOutputStream->AVStream *st->AVCodecContext *codec->struct AVCodec *codec 

变量。

3.4.2 相关数据结构的初始化

AVCodecContext 结构

AVCodecContext 保存 AVCodec 指针和与 codec 相关数据,如 video 的 width、height, audio 的 sample rate 等。

AVCodecContext 中的 codec_type, codec_id 二个变量对于 encoder/decoder 的匹 配来说, 最为重要。

enum CodecType codec_type; /* see CODEC_TYPE_xxx */
enum CodecID codec_id; /* see CODEC_ID_xxx */

如上所示, codec_type 保存的是 CODEC_TYPE_VIDEO, CODEC_TYPE_AUDIO 等媒体类 型, codec_id 保存的是 CODEC_ID_FLV1, CODEC_ID_VP6F 等编码方式。

以支持 flv 格式为例, 在前述的 av_open_input_file(…… ) 函数中, 匹配到正确 的 AVInputFormat demuxer 后,通过 av_open_input_stream( )函数中调用 AVInputFormat 的 read_header 接口来执行 flvdec.c 中的 flv_read_header( )函数。flv_read_header( ) 函数内, 根据文件头中的数据, 创建相应的视频或音频 AVStream, 并设置 AVStream 中 AVCodecContext 的正确的 codec_type 值。codec_id 值是在解码过程。flv_read_packet( ) 函数执行时根据每一个 packet 头中的数据来设置的。

以 avidec 为例 有如下初始化,我们主要知道的就是 code_id 和 code_type 该字段关 联具体的解码器, 和解码类型(音视频或 subtitle)

if (st->codec->stream_codec_tag == AV_RL32(" Axan" )) 
{
  st->codec->codec_id = CODEC_ID_XAN_DPCM;
  st->codec->codec_tag = 0; 
}
 if (amv_file_format) 
{
  st->codec->codec_id = CODEC_ID_ADPCM_IMA_AMV; 
  ast->dshow_block_align = 0; 
}
 break;
 case AVMEDIA_TYPE_SUBTITLE:
    st->codec->codec_type = AVMEDIA_TYPE_SUBTITLE; 
    st->request_probe= 1;
    break;
 default: 
   st->codec->codec_type = AVMEDIA_TYPE_DATA; 
   st->codec->codec_id= CODEC_ID_NONE; 
  st->codec->codec_tag= 0; 
avio_skip(pb, size);

3.5 其他重要数据结构的初始化

3.5.1 AVStream

AVStream 结构保存与数据流相关的编解码器,数据段等信息。比较重要的有如下二个成员:

AVCodecContext *codec; /**< codec context */ 
void *priv_data;

其中 codec 指针保存的就是上节所述的 encoder 或 decoder 结构。 priv_data 指针 保存的是和具体编解码流相关的数据,如下代码所示,在 ASF 的解码过程中,priv_data 保存的就是 ASFStream 结构的数据。

AVStream *st;
ASFStream *asf_st; 
… … 
st->priv_data = asf_st;

3.5.2 AVInputStream/ AVOutputStream

根据输入和输出流的不同, 前述的 AVStream 结构都是封装在 AVInputStream 和 AVOutputStream 结构中, 在 av_encode( )函数中使用。 AVInputStream 中还保存的有与 时间有关的信息。 AVOutputStream 中还保存有与音视频同步等相关的信息。

3.5.3 AVPacket

AVPacket 结构定义如下, 其是用于保存读取的 packet 数据。

typedef struct AVPacket
 {
  int64_t pts; ///< presentation time stamp in time_base units
  int64_t dts; ///< decompression time stamp in time_base units
  uint8_t *data;
  int size; 
  int stream_index;
  int flags;
  int duration; ///< presentation duration in time_base units
  void (*destruct)(struct AVPacket *); 
  void *priv; 
  int64_t pos; ///< byte position in stream, -1 if unknown 
  } AVPacket;

在 av_encode()函数中, 调用 AVInputFormat 的

(*read_packet)(struct AVFormatContext *, AVPacket *pkt)

接口, 读取输入文 件的一帧数据保存在当前输入 AVFormatContext 的 AVPacket 成员中。

写在后面

如果对FFmpeg有需要更多了解的请订阅我的专题:音视频专辑

上一篇下一篇

猜你喜欢

热点阅读