云计算介绍---和我一起学习大数据程序开发系列
云计算怎么来的?
工业革命之后,信息化再次掀起了新的革命浪潮,数据信息量呈指数幂增长,大量数据蕴含的价值 成为人们关注的焦点。
大量数据中蕴含什么样的价值?用已经存在的大量数据去推测和预测未来的“数据”就是大数据的价值。然而,庞大的数据量存储和计算是个问题,而且已经成为一个具有挑战的问题。
为了解决大量数据的存储和计算问题,我们有两个发展方向。一个是不断增强单台机器的磁盘空间和提升单台机器的计算能力,比如各国发展的巨型计算机。另一个方向是利用已有的廉价计算机组成一个集群来解决问题,这时候就出现分布式的问题。
补充知识点:
分布式系统:组件分布在互联的计算机上,组件之间通过传递信息进行通信和协调的系统。这样的系统有3个特征:
1)并发性;
2)副本;
3)可扩展性;
Hadoop是Apache公司旗下的一个开源项目,是一个高效的分布式计算平台。Hadoop的兴起,简化了数据海量存储和计算的难题。
数据规模演进过程的特征:
随着信息化飞速发展,数据规模完成了从单台计算机------>单台服务器-------->服务器集群------>云的演进过程。完成数据量单位从原始的KB到PB级的飞跃。
![](https://img.haomeiwen.com/i14405984/d711e1006a2e2473.jpeg)
分布式计算的出现是因为一些大任务要求计算机能应付大量的计算工作,此时单机并行计算或多机并行计算尤其对于分散系统的计算显示出局限性。分布式计算的核心思想是把需要大量计算的工程数据分成小块,由多台计算机分别计算,再上传计算结果,将结果统一合并,得出数据结论。
补充知识点:
数据的分类:结构化数据、半结构化数据、非结构化数据;
半结构化数据的代表:电子邮件、办公处理文档;
非结构化数据:文本、音频、视频、文件记录;
数据来源:文本数据、数据库数据、网页数据、图片数据、视频数据和影像数据等。
Hadoop与云计算的关系
Hadoop是开源软件,它实现了分布式文件系统HDFS和MapReduce框架在内的云计算平台的基础架构,并且在其基础上整合了数据库、云计算管理、数据仓库等一系列平台。云计算是一种基于互联网的计算,在其中共享的资源、软件和信息以一种按需的方式提供给计算机和设备。
Hadoop不等于云计算,Hadoop是一种技术实现,而云计算更偏重于业务的建设。更具体一点讲,Hadoop这款产品的技术实现,体现了云计算体系中的一部分功能的应用技术架构。
什么是云计算?
简单理解:基于互联网的一种计算。
云计算的分类
广义的云计算解释为一切能够通过互联网提供的服务,这些服务被划分为3个层次:基础架构即服务---IaaS、平台即服务---PaaS、软件即服务---SaaS。
如果按照部署模式分,可以分为:公有云、私有云、社区云、混合云;
云计算被认为是一种更好的业务运行模式。在这种模式中,用户的应用程序运行在共享的数据中心中,用户只需要通过登录和个性化定制就可以使用这些数据中心的应用程序。这种模式的核心原则是:硬件和软件都是资源并被封装为服务,用户可以通过网络按需访问和使用。
云计算架构层次
![](https://img.haomeiwen.com/i14405984/1b82b64647abf155.png)
Hadoop在云计算中的地位
Hadoop主要解决的是分布存储、分布计算的问题,是云计算的PaaS层的解决方案之一,但不等同于PaaS。
2018年12月16日