Hacker Guide/Decoder：如何做一个解码器(VL

2018-01-16 本文已影响180人团不慌

本篇笔记是在学习 Wiki - Hacker Guide /Decoder 过程中的简单翻译与记录，初学编码，敬请批评指正。

概要

1 如何书写一个解码器
1.1 VLC中的解码器究竟是什么？
1.2 解码器配置
1.3 数据包的结构
1.4 比特流（输入模块）
1.4.1 数据包的更改与对齐问题
1.4.2 警告
1.5 内置解码器
1.5.1 在当前版本的局限性
1.6 MPEG解码器
1.7 IDCT插件
1.8 对称多处理

1 如何书写一个解码器

1.1 VLC中的解码器究竟是什么？

解码器是用于播放过程中将数据流按照某种规则进行解码的部件，也是流处理过程中偏数学化的部分。它与输入时的解复用过程相互分离，解复用模块主要负责管理数据包来重建输入流，在输出过程中才调用解码器对数据包（可以看成样品）进行解码，并将重构后的样本输出（播放）。所以解码器基本上无须和设备进行交互，只是一个单纯的算法。
至于解码器如何从输入中检索流以及一些API的接口将在后面讨论。

1.2 解码器的配置

输入线程从 src / input / decoder.c 中生成适当的解码器，创建解码器时依靠方法

CreateDecoder( input_thread_t *p_input,es_format_t *fmt, int i_object_type )

来创建一个 i_object_type 类型的 p_dec 变量，其中 i_object_type 在我们的 VLC_OBJECT_DECODER 中有定义。

在 CreateDecoder 函数调用之后我们可以使用 module_Need 函数以评分为依据去建立一个“可能模块”的能力列表。

module_Need( vlc_object_t *p_this, const char *psz_capability,const char *psz_name, bool b_strict )*
使用时可以令 *psz_capability="decoder" , *psz_name="$codec"

我理解的 model_Need 的列表像是对解码模块性能的评定（优先级），举个例子：

a52模快中配置：set_capability( "decoder", 100 );

即在这个模块中将我们请求解码器时 a52 模快返回的评分设置为了100，同样 VLC 中其他模块也会返回一个类似的评分，我们可以用这个评分来决定到底是否调用该模块，之后他还需要确定这个解码器是否需要将数据打包。最终通过以下的函数调用解码器：

vlc_thread_create( p_dec, "decoder", DecoderThread, i_priority, false )

1.3 数据包的结构

输入模块提供了一个很不错的API来完成传输数据流到解码器的过程，而数据包的结构的具体定义可以参看 include / input_ext-dec.h 文件。

在 data_packet_t 中包含了一个指向数据物理地址的指针。解码器从 p_payload_start 开始读，到 p_payload_end 结束，如果下一个包不为空就继续读取（p_next），如果发现某个包的 b_discard_payload 标志被激活则代表包内数据出现错误，并直接把这个包丢弃。

pes_packet_t 中记录了 data_packet_t 的头结点 p_first ，并把它看做一个完整的 PES 数据包（此处是以 MPEG 为例）。当然这里所谓的链表并不是平时意义上的链表，在 PS 流中一个 pes_packet_t 一般只记录一个 data_packet_t ，而在 TS 流中一个 PES 数据包会被分成十几个 TS 数据包。

一个 PES 数据包中包含的信息很多（具体可以参看 MPEG 的规范），其中主要有 PST 日期以及用来协调读取速度的内插日期（current pace of reading that should be applied for interpolating dates, 不太清具体名词，变量名为 i_rate ），以及用于指示该分组是否为随机接入点的 b_data_alignment 和记录前一个分组是否被丢弃的 b_discontinuity 。

程序中的 PES 数据包

理论上传输流中 PES 的数据包分组数量没有任何限制，在他的缓冲器中写有 PS 的首部、 PES 的首部以及有效载荷（数据）。

输入部分和解码器都可以访问缓冲区 decoder_fifo_t ，这个缓冲区里存放着按照 FIFO 顺序排列的等待被解码的 PES 数据包们。输入部分提供了用于控制这个缓冲区的宏定义：
DECODER_FIFO_ISEMPTY，
DECODER_FIFO_ISFULL，
DECODER_FIFO_START，
DECODER_FIFO_INCSTART，
DECODER_FIFO_END，
DECODER_FIFO_INCEND
当然，作为缓冲区应当属于临界资源，所以在对FIFO序列进行任何操作之前都应记得对其加锁（ p_decoder_fifo-> data_lock ）

获取下一个解码的数据包可以使用 DECODER_FIFO_START（* p_decoder_fifo） ，之后使用 p_decoder_fifo-> pf_delete_pes（p_decoder_fifo-> p_packets_mgt，DECODER_FIFO_START（* p_decoder_fifo））

接着再调用 DECODER_FIFO_INCSTART（* p_decoder_fifo） 将 PES数据包返回到缓冲区管理器。

当 FIFO 队列为空时（ DECODER_FIFO_ISEMPTY ）进程可以阻塞，直到新的数据包带着 cond 信号出现：vlc_cond_wait（＆p_fifo-> data_wait，＆p_fifo-> data_lock），在此之前应当保持锁定的状态。

文件结束或用户退出时 p_fifo->b_die 会被置1，此时应当及时释放我们建立的数据结构并调用 vlc_thread_exit（）。

1.4 比特流（输入模块）

前面的缓存区方法所代表的传统数据包读取方式太不方便（因为流可以被任意分割），所以输入模块为我们提供了更加方便的比特流读取原语*。在我们读取比特流时可以选择使用这些原语或者缓冲区，不过只能二选一（不然加锁解锁什么的会冲突的吧）。
注：既然是原语则不应也不可被打断

我们可以直接调用 GetBits 函数透明的*读取数据包到缓冲区，并在必要时对数据包进行改变。我们也无须关心边界问题和队列的维护。
注：透明的即过程对使用者不可见，过程无须干预

比特流的核心思想是引入一个32位的缓冲区 bit_fifo_t （一般是字型—— WORD_TYPE ，但64位版目前还不行），这个缓冲区包含字缓冲区以及有效位数（高位部分），输入模块提供了五个函数来管理它：

u32 GetBits（bit_stream_t * p_bit_stream，unsigned int i_bits）：从位缓冲区返回下一个 i_bits 位。如果没有足够的位，则从 decoder_fifo_t 中读取下一个字节。此功能只能保证最多24位。虽然它可以一直工作到31位，但这只是一个边界问题。而且由于<<运算符的原因，我们不得不为32位读取编写一个不同的函数 GetBits32 。

- RemoveBits（bit_stream_t * p_bit_stream，unsigned int i_bits）：与 GetBits（）相同，但不返回数据（可以节省几个CPU周期）。它有相同的限制，所以也必须有 RemoveBits32 。

u32 ShowBits（bit_stream_t * p_bit_stream，unsigned int i_bits）：与 GetBits（）相同，只是在读完之后这些位不会被刷新，需要手动调用 RemoveBits（）。这个函数不能在24位以上工作，除非能在字节边界上对齐（见下一个函数）。
RealignBits（bit_stream_t * p_bit_stream）：丢弃 n 个高位（ n < 8），这样缓冲区的第一位就对齐了一个字节的边界。寻找对齐的起始码（如 MPEG ）时需要。
GetChunk（bit_stream_t * p_bit_stream，byte_t * p_buffer，size_t i_buf_len）：它和 memcpy（）很像（一个模拟），但是是将一个比特流作为第一个参数。必须为它分配 p_buffer ，并且至少需要 i_buf_len long 。主要是用来复制你想跟踪的数据。

1.4.1 数据包的更改与对齐问题

由于data_packet_t 应该具有偶数个字节，而且某些CPU只能读取字边界对齐的字，所以我们必须对不符合格式的数据进行截断，然后读取被截断的单词并进行对齐。

比如在 GetBits（）中将从 src / input / input_ext-dec.c 中调用 UnalignedGetBits（）。一般他会一个一个的读取字节，直到流重新排列。当然 UnalignedShowBits（）可能有点复杂，而且可能需要临时数据包（p_bit_stream-> showbits_data）。

要使用比特流，我们必须调用 p_decoder_config-> pf_init_bit_stream（bit_stream_t * p_bit_stream，decoder_fifo_t * p_fifo）来设置所有变量。然后需要定期从数据包中获取某些信息比如PTS。如果 p_bit_stream-> pf_bit_stream_callback 不是 NULL ，那么这个函数就将在数据包更换时被调用。比如在 src / video_parser / video_parser.c 中。第二个参数可以用于区分数据包到底是一个新的 data_packet_t 还是一个新的 pes_packet_t 。我们可以将自己的结构存储在 p_bit_stream-> p_callback_arg 上。

1.4.2 警告

当我们使用 pf_init_bit_stream 时，很有可能 pf_bitstream_callback 还没有被定义，但程序仍会跳转到第一个数据包，这时候我们应该在 pf_init_bit_stream 后手动回调比特流。

1.5 内置解码器

VLC 提供了 MPEG 第一层和第二层的音频解码器、MPEG MP@ML 的视频解码器、AV3、DVD SPU、LPCM 等解码器，我们可以仿照他们写一个自己的解码器。

1.5.1 在当前版本的局限性

要添加一个新的解码器必须要添加流的类型，因为在 src / input / input_programs.c 中仍然有一段硬编码的代码。

MPEG 音频解码器是原生的但并不支持第3层解码（太麻烦）， AC3 解码器来自 Aaron Holtzman 的 libac3 （原始libac3 不重复）的端口，并且 SPU 解码器是本地的。如果想看 AC3 解码器中的 BitstreamCallback 可以看看。不过在应该跳过 PES 数据包的前3个字节，它们不是基本流的一部分。视频解码器有点特别，将在后面进行介绍。

1.6 MPEG解码器

VLC 播放器提供了 MPEG-1 和 MPEG-2 Main Profile @ Main Level 解码器。这本来就是为 VLC 编写的，所以已经相当成熟了。不过它的情况有点特殊，因为它被分成了两个逻辑实体：视频分析器和视频解码器，源于最初想将位流解析函数从高度可并行化的数学算法中分离出来。它理论上应该有一个视频解析器线程（只有一个线程以防竞争），以及一个视频解码器线程池，一次对多个块进行 IDCT 和运动补偿模快。

VLC不会支持 MPEG-4 或 DivX解码 ，因为这些不是编码器。当然它支持整个 MPEG-2 MP @ ML 规范，虽然有些功能尚未测试，比如差分运动向量。请牢记在输入基本流必须有效（比如不能直接读取 DVD 多角度 .vob 文件）。

最有趣的文件是 vpar_synchro.c ，它真的值得一看。它解释了整个丢帧算法。如果机器足够强大，我们就解码所有的 IPB ，如果我们时间足够,我们就解码所有的 IP 和 Bs。另一个有趣的文件是 vpar_blocks.c ，它描述了所有的块（包括系数和运动矢量）解析算法。这个文件的底部为每个常见的图片类型生成了一个优化的函数，和慢迭代的函数。还有几个分级的优化（编译速度较慢，但某些类型的文件解码更快）称作 VPAR_OPTIM_LEVEL，级别0意味着没有优化，级别1意味着优化 MPEG-1 和 MPEG-2 帧图像，级别2意味着对 MPEG -1 和 MPEG-2 字段和帧图片，等等。

运动补偿（即来自参考图片的区域的副本）非常依赖于平台（比如MMX或AltiVec），所以VLC将其移至 plugins / motion 目录下。视频解码器将更为方便，其他视频解码器（MPEG-4 之类的）也可使用插件工作。

运动插件必须定义6个函数：
vdec_MotionFieldField420，
vdec_MotionField16x8420，
vdec_MotionFieldDMV420，
vdec_MotionFrameFrame420，
vdec_MotionFrameField420，
vdec_MotionFrameDMV420。
等效的4：2：2和4：4：4函数因为 MP @ ML 禁止所以没被列进来。

如果你想要更多的信息可以看看C语言版本的代码。不过需要注意DMV算法还没有未经测试，可能还有点 Bug 。

1.7 IDCT插件

和运动补偿类似，IDCT 也是针对平台存在区分的，所以VLC也把他放在了插件里，具体路径是 plugins/idct 这个模块主要用来执行 IDCT 算法并将数据拷贝到最终的图像中。编写新的编解码器则需要定义一下七个函数：

vdec_IDCT（decoder_config_t * p_config，dctelem_t * p_block，int）：完整的 2-D IDCT.64 系数是否在 p_block 中存放。
vdec_SparseIDCT（vdec_thread_t * p_vdec，dctelem_t * p_block，int i_sparse_pos）：在一个非 NULL （由 i_sparse_pos 指定）的块上执行 IDCT 。可以用 plugins / idct / idct_common.c 中定义的函数，函数将在初始化时对64个矩阵进行预处理。
vdec_InitIDCT（vdec_thread_t * p_vdec）：是否需要由 vdec_SparseIDCT 初始化。
vdec_NormScan（u8 ppi_scan [2] [64]）：通常这个函数什么都不做。对于较小的优化，一些 IDCT（MMX）需要反转 MPEG 扫描矩阵中的某些系数（参见 ISO / IEC 13818-2）时使用。
vdec_InitDecode（struct vdec_thread_s * p_vdec）：初始化 IDCT 和可选裁剪表。
vdec_DecodeMacroblockC（struct vdec_thread_s * p_vdec，struct macroblock_s * p_mb）：解码整个宏块并将其数据复制到最终图像，包括色彩信息。
vdec_DecodeMacroblockBW（struct vdec_thread_s * p_vdec，struct macroblock_s * p_mb）：解码整个宏块，并将其数据复制到最终图像，不包括色彩信息（用于灰度模式）。

目前 VLC 已经为 MMX ， MMXEXT 和 AltiVec 实现了优化版本。有两个普通的 C 版本，基础的（被认为是优化的）伯克利版本（idct.c），以及来自 ISO 参考解码器（ idctclassic.c ）的简单的一维分离 IDCT 算法。

1.8 对称多处理

我们可以根据需要使用多处理器进行处理，主要方法就是使用处理器池一次对多个宏块进行 IDCT 或运动补偿的处理，管理多处理池的方法在 src / video_decoder / vpar_pool.c 中有调用，不过不推荐在非 SMP 机器上使用，那样可能会比单线程还慢...