Lecture #13 & #14

2019-07-29  本文已影响0人  全村滴希望

数据压缩

调查 - 您最大的两个存储难点是什么?

管理存储增长排第一

存储效率策略和最佳实践

不要存储太多
把数据存放在正确的位置

一系列基本技术可实现存储效率

停止存储这么多

压缩和重复数据删除使用较少的物理存储,这两者是不冲突的

§更有效地存储数据
§降低运营费用:电力,冷却,占地面积§在线保存更多数据,以便进行分析和快速恢复

数据压缩

§数据压缩对存储系统很重要,因为它允许将更多字节打包到给定的存储介质中,反过来说就是用更少的字节来表达相同的信息量。
§某些存储设备(特别是磁带)会在写入时自动压缩数据,从而减少磁带消耗并显着加快备份操作。
§压缩还可以缩短文件传输时间,节省时间和通信带宽

介绍

§压缩的一个好指标是由下式给出的压缩因子(或压缩比):

§如果我们有一个100KB的文件压缩到40KB,我们的压缩系数为:

§整个消息的熵是各个符号熵的总和
Σn-P(xi)×log2 P(xi)i
§长度为l的消息中每个字符的平均冗余度由下式给出
P(xi)×li - -P(xi)×log2 P(xi)ΣnΣn

统计编码

§考虑一下这个信息:HELLO WORLD!

§刚才描述的熵度量是统计数据压缩的基础
§两种广泛使用的统计编码算法是霍夫曼编码和算术编码
§Huffman编码根据消息中的字母频率构建二叉树

构建树的过程首先计算要编码的文本中每个符号的出现次数,出现频率最低的是在二叉树中最深的。这样频率最高的编码最短。

§对于大多数数据,统计编码方法提供了出色的压缩比
§它们的主要缺点是它们需要对要编码的数据进行两次传递

LZ字典系统

Ziv-Lempel(LZ)字典系统通过使用数据中的值作为字典对自身进行编码来解决双遍问题
§LZ77压缩算法采用文本窗口和前瞻缓冲区

数据压缩摘要

§数据压缩的两种方法是统计数据压缩和字典系统
§统计编码需要两次输入,字典系统只需要一次
§LZ77和LZ78是两种流行的字典系统

数据重复删除Deduplication

§通常称为单实例存储
§在重复数据删除过程中,删除重复数据,只留下一个要存储的数据副本

Deduplication 架构

有很多层次来做
deduplication,各有利弊。
客户端

服务端

§块存储设备

重复数据删除过程(简化)

§假设数据对象或-Stream作为重复数据删除的主题
§数据对象以chunk块为单位(固定或可变大小)
§对于每个Chunk,确定身份特征
§识别出重复的块

数据块方法

§基于文件

分块方法影响重复数据删除率

确定重复的方法

§哈希

§二元比较

in-Line重复数据删除

§数据在实际存储之前进行重复数据删除,而不是在数据产生之前就进行deduplation
§重复数据删除是在数据流入辅助数据时执行的存储系统
§ 好处

out-Band重复数据删除(后处理)

§数据首先在后台存储和重复数据删除
§ 好处

重复数据删除摘要

§潜在的优势

上一篇 下一篇

猜你喜欢

热点阅读