2019-07-30

2019-07-30  本文已影响0人  AliceGYY

存储和成本管理

14.1数据压缩

在分布式文件系统中,为了提高数据的可用性与性能,通常会将数据存储3分,这就意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。

archive压缩算法

14.2

数据重分布

14.4生命周期管理

1.周期性删除策略

2.彻底删除策略

3.永久保留策略

4.极限存储策略

5.冷数据管理策略

冷数据管理是永久保留策略的扩展。永久保留的数据需要迁移到冷数据中心进行永久保存,同时将MaxCompute中对应的数据删除。一般将重要且不可恢复的、占用存储空间大于100TB,且访问频次较低的数据进行冷备,例如3年以上的日志数据。

6.增量表merge全量表策略

14.4.2

通用的生命周期管理矩阵

1.历史数据等级划分

P0:非常重要的主题域数据和非常重要的应用数据,具有不可恢复性,如交易、日志、集团KPI数据、IPO关联表。

P1:重要的业务数据和重要的应用数据,具有不可恢复性,如重要的业务产品数据。

P2:重要的业务数据和重要的应用数据,具有可恢复性,如重要的业务产品数据。

P3:不重要的业务数据和不重要的应用数据,具有可恢复性,如某些SNS产品报表。

2.表类型划分

(1)事件型流水表(增量表)

事件型流水表(增量表)指数据无重复或者无主键数据,如日志。

(2)事件型镜像表(增量表)

事件型镜像表(增量表)指业务过程性数据,有主键,但是对于同样主键的属性会发生缓慢变化,如交易、订单状态与时间会根据业务发生变更。

(3)维表

(4)merge全量表

(5)ETL临时表

(6)TT临时数据

(7)普通全量表

14.5数据成本计量

将一个数据表的成本分为存储成本和计算成本。存储成本是为了计量数据表消耗的存储资源,计算成本是为了计量数据计算过程中的CPU消耗。

上一篇下一篇

猜你喜欢

热点阅读