数据仓库与数据挖掘技术—建模过程
数据仓库的建模,首先要将现实的决策分析环境,抽象成一个概念数据模型,然后将此概念模型逻辑化、建立逻辑数据模型,最后还要将逻辑数据模型向数据仓库的物理模型转化,作为数据仓库的灵魂的元数据模型则自始至终伴随着数据仓库的开发、实施和使用
数据仓库的概念模型设计时需要确定数据仓库的主要主题及其相互关系。主体应该能够完整、统一的刻画出分析对象所涉及的各项数据以及相互联系。根据需求分析确定几个基本的主题域及其维度。概念模型设计主要完成以下工作:
(1)界定系统边界,即进行任务和环境评估、需求收集和分析,了解用户迫切需要解决的问题及解决这些问题所需要的信息,需要得现有数据库中的数据有一个完整而清晰的认识。
(2)确定主要的主题域,给每一个主题的公共码键、主题域之间的联系,充分代表主题的属性进行明确的描述。
(3)一旦主题划分清楚了,接着就要细化分析的具体内容以及根据分析内容的性质确定分析维度,维元素对应的是分析角度,而度量对应的是分析关心的具体指标。
ETL把数据从数据源装入数据仓库的过程。数据抽取(extract)、转换(transform)、和装载(load)。
数据转换接受来自不同运作系统的输入并将其转换成目标数据仓库中需要的格式的过程,包括数据的合并、汇总、过滤、转换等。
(1)直接映射:数据源字段和目标字段长度或精度相同,则无需做任何处理。
(2)字符串处理:从数据源的字符串字段中获取特定信息作为目标数据库的某个字段,则对字符串的操作有类型转换、字符串截取等。
(3)字段运算:对于数值型字段来说,有时数据源的一个或多个字段进行数学运算而得到的目标字段,则需要某些字段运算。
(4)空值判断:对于数据源字段中的NULL值,可能在目标数据仓库中进行分析处理时会出现问题,因此必须对空值进行判断,并转换成特定的值。
(5)日期转换。 由于目标数据库中的日期类型格式是统一的,所以对数据源字段的日期格式需要相应的转换。
(6)聚集运算:目标数据库事实表中的一些度量指标,通常需要通过数据源中一个或多个字段应用聚集函数进行聚集运算得来。
(7)既定取值。
数据加载的两个基本方式:
1、刷新方式:采用在定期的间隔对目标数据进行批量重写的技术。
2、更新方式:只将源数据中的数据改变写进数据仓库的方法。