视频 --- 压缩基础

2017-07-25 本文已影响142人 vedon_fu

压缩方式

** 为什么会存在有失真的压缩？**
主要是因为人的眼睛和耳朵灵敏度不高，一张图片少掉一些高频的内容，人眼无法感知，因此并不影响图片的展示。又例如音乐，音乐高频部分超过人耳可以识别的范围，这部分数据可以去掉。因此有了mp3 等音频压缩算法。

视频压缩的时候，用的色域是YCbCr 。 YCbCr其中Y是指亮度分量，Cb指蓝色色度分量，而Cr指红色色度分量。查看更多

它们之间的关系是：

Y = 0.257*R+0.564*G+0.098*B+16
Cb = -0.148*R-0.291*G+0.439*B+128
Cr = 0.439*R-0.368*G-0.071*B+128

** 不是有RGB了吗？什么还用YCbCr ?**
人眼对亮度是比较敏感的，对彩度的敏感度不高。因此，亮度的压缩率可以降低，彩度的压缩率可以提高。人眼对压缩后的图片与原图，在感官上差异就会大大减少。

另外它将亮度信息（Y）与色彩信息（UV）分离，没有UV信息一样可以显示完整的图像，只不过是黑白的，这样的设计很好地解决了彩色电视机与黑白电视的兼容问题。并且，YUV不像RGB那样要求三个独立的视频信号同时传输，所以用YUV方式传送占用极少的频宽。

首先图片会被切分为一些8 * 8的格子，每个格子都会走一次上图的流程。
DCT 转换，主要是把图像从空间域转为频域，这样子可以有效的分离出高频的数据，用于过滤。什么是高频的数据：以声音为例就是那些很尖锐的声音。图像的话就是指那些变动很大的数据，例如熊猫的黑白分割部分，由于变化很大，所以这就是高频部分。如果两个像素之间的差别很小，就属于低频部分。
![Uploading Screen Shot 2017-07-25 at 8.52.35 AM_976479.png . . .]
Quantization 是一种失真压缩，简单来说就是把每个值都除以一个固定的数，然后在de code 端相对应的乘以这个固定的数，恢复数据，但是此时数据只是一个近似的数值。例如数字100 ，除以10 ，会得到10 。但是102 的话，结果也是10 。所以在decode 的时候，无法知道真正的数据是什么，只能拿到近似值。
Entropy encoder 把失真压缩后的数据做无失真压缩

要恢复图片只需要执行的反操作，得到的图片与原图是有区别的，只要人眼无感知就好。