2020-04-06大数据学习记录
2020-04-06 本文已影响0人
家有小魔怪
1大数据的需求?
2云和大数据时代成功公司的特点:
变革、
资源整合、
开放性成长、
超出客户想象、(MP3的播放)
颠覆性的业务创新(有想法,还要能够落地)
3什么是云计算?
SPI模型从服务和业务模式的角度看待云计算
技术的角度
设备虚拟化
超大规模(无限的存储和计算能力)
高可靠性
易扩展型
低成本
烟囱式系统:每个系统有自己的硬件、DBMS、OS开发运行平台……,用户做一件事情需要同时使用多个系统
烟囱式系统通过将资源统一管理后就变成了有横有纵的通用架构
4什么是大数据?
云计算彻底改变IT?
大数据彻底改变业务?
大数据的4V特性
体量VOLUME
多样性Variety
速度Velocity
价值密度Value
5什么是hadoop?
Apache来源的一个生态系统
HDFS分布式文件系统,----Google FileSystem
MapReduce
Hbase
HadoopV2.0稳定版主要推广产品
采集、处理、清晰、挖掘
HBase:分布式数据库,适用于结构化和半结构化数据
Hive:数据仓库,提供数据的汇总和随机的查询,类似于SQL语句的查询语言
Mahout:可扩展的机器学习和数据挖掘库,里面数据聚类的算法
PIG:计算
Spark:快速的通用的计算模型,ETL。机器学习。流处理的计算,可以在内存里进行多次的叠加计算
Zookeeper:高性能的协作服务应用,服务器出现异常时,可以承担集群管理,分布式系统里应用的协同服务
Cassanda:可扩展的多主的数据库,数据库没有单点故障,1Master,n个slave,写的时候mysql会出现故障,这个数据库多主,有效的解决单点故障
Ambari:基于WEB的,提供给运维人员可以快速的部署和运维