大数据学习day_1
#思考问题
##什么是结构化数据,什么是非结构化数据?
1. 结构化数据即行数据,存储在传统的关系型数据库里,一般是以字段的形式,按照一定的二维表格逻辑结构保存,内容遵循固定的格式,比较容易查询。
2. 非结构化数据是那些不能轻易分类并存储在固定大小的结构中的数据,例如图片,视频,网页,PDF,各类文档等以文件的形式存储。
3. 半结构化数据是那些介于完全结构化数据和完全无结构的数据之间的数据,特点是自描述,数据的结构和内容混在一起,没有明显的区分。
##大数据是什么?有什么特点?
1. 大数据(big data)指的是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流畅优化能力的海量、高增长率和多样化的信息资产。
2. 大数据具有4个基本特征
-- 数据体量巨大 Volume
-- 数据类型多样 Variety
-- 处理速度快 Velocity
-- 价值密度低 Value
##数据仓库是什么?
1. 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用与支持管理员决策。
-- 数据仓库是一个过程而不是一个项目;
-- 数据仓库是一个环境而不是一件产品;
-- 数据仓库提供用户用于决策支持的当前和历史数据
##CAP理论是什么?
1. CAP定理指出对于一个分布式计算系统来说,不可能同时满足以下三点:
-- 一致性,指所有节点访问同一份最新的数据副本
-- 可用性,指每次请求都能获取到非错的响应
-- 分区容错性,分区相当于对通信的时限要求
2. CAP权衡
-- CA without P:如果不要求P(不允许分区),则C(强一致性)和A(可用性)是可以保证的。但其实分区不是你想不想的问题,而是始终会存在,因此CA的系统更多的是允许分区后各子系统依然保持CA。
-- CP without A:如果不要求A(可用),相当于每个请求都需要在Server之间强一致,而P(分区)会导致同步时间无限延长,如此CP也是可以保证的。很多传统的数据库分布式事务都属于这种模式。
-- AP wihtout C:要高可用并允许分区,则需放弃一致性。一旦分区发生,节点之间可能会失去联系,为了高可用,每个节点只能用本地数据提供服务,而这样会导致全局数据的不一致性。现在众多的NoSQL都属于此类。