分布式数据库和数据仓库知识点
2021-05-07 本文已影响0人
林中白虎
分布式数据库的特点:
1、数据独立性:分布式数据除了拥有数据库的逻辑独立性和物理独立性外,还具有分布式独立性(分布透明性)即用户感觉不到数据库的分布情况
2、集中与自治共享结合的控制结构:局部的DBMS可以独立的管理自身的数据库,具有自治性,与此同时分布式数据库系统又设有集中控制机制,协调各局部DBMS的工作,从而执行全局应用
3、适当增加数据冗余度:分布式数据库为了提高系统的可靠性、可用性和提高系统的性能会在不同的场地储存同一数据的多个副本
4、全局的一致性、可串性和可恢复性
商业智能系统(BI系统)主要包括数据预处理、建立数据仓库、数据分析和数据展现四个主要阶段的任务。
数据预处理就是整合企业原始数据其中包括数据的抽取、转换和加载三个过程。
建立数据仓库则是处理海量数据的基础。
数据分析师体现系统智能的关键,采用联机分析处理(OLAP)和数据挖掘技术。
数据仓库的特点:
1、面向主题
2、集成性
3、相对稳定
4、反映历史变化
数据挖掘的分析方法包括:关联分析、序列模式分析、分类分析和聚类分析。
关联分析主要是用于发现不同事件之间的关联性,即一个事件发生改变的时候另一个事件也会发生改变。此分析的重点主要是在于快速发现那些有实用价值的关联发生事件。
序列模式分析主要是用于发现一定时间间隔内接连发生的事件,这些事件构成一个序列,发现序列之间的普遍意义。
分类分析就是通过分析具有类别的样本特点,得到决定样本属于各种类别的规则或方法。利用这些规则和方法来对未知样本分类时应该具有一定的准确度。
聚类分析的分析依据就是聚集到同一个组中的样本应该彼此相似,而属于不同组的样本应该具有不相似性。