Deduplication介绍
Deduplication介绍:
Data reduction is a tactic which can decrease the disk storage and network bandwidth
required, lower Total Cost of Ownership (TCO) for storage infrastructures, and optimize use of
existing storage assets and improve data recovery infrastructure efficiency. Deduplication and
other forms of data reduction are features that can exist within multiple components of the
information infrastructure.
IBM提供的Dedulication解决方案:
N-Series:
是一种运行在数据存储服务设备上的后处理去重。它对普通文件或者数据块进行分区,使用HASH方法进行识别,并使用inode级别的文件系统操作指向合并后数据块。
没有去重的文件操作 去重后的文件操作WAFL的文件处理方法:
块指纹数据库:每个数据块都被生成指纹数据
WAFLInode指针:一个数据块可被多个文件指定
数据去重的最佳体验:
完整的数据去重架构数据去重消耗系统资源也提高了数据分布和读的效率;
数据去重对性能的影响需要注意测量,如果对性能要求高请注意如下因素:
1,应用和数据类型
2,数据访问方式:流式,随机式,以及读取的比例(写多还是读多)
3,重复数据占比
4,存储卷上的数据存储属性
5,数据变化和重复数据的占比
6,内存和CPU性能
7,系统加载方式
8,存储硬件类型:ATA/FC/SAS 和 存储速度如果多为小文件,减少数据去重频率
如果需要系统快照,使用快照之前,先去重
数据去重的metadata需要额外的空间存储
ProtecTIER(HyperFactor):
Hyperfactor架构备份服务器发送数据,HyperFactor过滤重复块,磁盘阵列存储新块至仓库
数据流程VTL概念:
virtual tape library conceptsOST概念:
OpenStorage(OST)架构Tivoli Storage Manager :
数据去重方法:
ITSM支持的数据去重方法TSM数据去重示例
server-side去重:
服务器端数据去重:服务器处理重复client-side 去重:
客户端去重模式:提前发现重复
IBM提供的Dedulication三种选项:
As a Virtual Tape Library:
ProtecTIER can be accessed as a Virtual Tap Library(VTL), like a gateway or disk-based appliance. I offers global deduplication across domain or backup servers, applications and disks. Tivoli Storage Manager works effectively with ProtecTIER and exploit ProtecTIER's efficient network replication capability.
In the data protection application:
Tivoli Storage Manager Version 6 provides storage pool deduplication, which can reduction of backup and archive data.
As a primary or secondary storage system:
N series storage systems offer native, block-level, file-level, application-level, OS-level, protocol-agnostic postprocess data deduplication.
Deduplication概述
简单数据去重流程:分区-》识别-》合并Chunking分区块:
Chunking refers to breaking data into standardized units that can be examined for duplicates.
分区处理的两种主流方式:
File-level去重:一般情况下文件级别去重功能受限,效率不高。但是如果被去重目标文件是已知格式的,他具备被识别和去重可能性;
Block-level去重:由于对于数据完整性的不确定,所以需要文件类型,上层应用和源操作系统的确认。又可能因为数据的分区块(数据去重的第一步),加密等原因会造成数据前后的不匹配。Block-level去重因为粒度小,所以需要更多的处理量,索引量和标识追踪能力。
数据分区块方法,分区方法不同会影响去重的效率:
File based:根据文件区分;
Block based:根据数据块区分;
Format aware:根据文件格式区分;
Format agnostic:根据特定算法区分逻辑内容或者相似数据;
Processing识别处理:
Each chunk of data must be identified in a way that is easily comparable.
识别处理方法
Hashing:计算哈希值(MD-5, SHA-1, SHA-2)
Binaray comparison:字节比较
Delta differencing:差分比较,先确定基准,然后对增量进行识别;
Consolidation合并重组:
After duplicate chunks have been compared and identified, the pointers to those chunks must
be changed so they point to a single unique copy rather than multiple duplicate chunks.
Deduplication架构
数据去重架构去重发生情况:
内联去重(自动去重):写数据至存储时,触发数据去重;
后处理去重(手动去重):比如设定具体的去重任务或者手动去重;