2019-02-22问题整理
云计算和大数据分别是什么?
云计算最初的目标是对资源的管理,管理的主要是计算资源、网络资源、存储资源三个方面。
什么叫计算、网络、存储资源?
比如你要买台笔记本电脑,是不是要关心这台电脑是什么样的 CPU?多大的内存?这两个就被我们称为计算资源。
这台电脑要上网,就需要有个可以插网线的网口,或者有可以连接我们家路由器的无线网卡。
您家也需要到运营商比如联通、移动或者电信开通一个网络,比如 100M 的带宽。然后会有师傅弄一根网线到您家来,师傅可能会帮您将您的路由器和他们公司的网络连接配置好。
这样您家的所有的电脑、手机、平板就都可以通过您的路由器上网了。这就是网络资源。
您可能还会问硬盘多大?过去的硬盘都很小,大小如 10G 之类的;后来即使 500G、1T、2T 的硬盘也不新鲜了。(1T 是 1000G),这就是存储资源。
时间灵活性:想什么时候要就什么时候要,需要的时候一点就出来了。
空间灵活性:想要多少就有多少。需要一个空间很小的电脑,可以满足;需要一个特别大的空间例如云盘,云盘给每个人分配的空间动不动就很大很大,随时上传随时有空间,永远用不完,也是可以满足的。
空间灵活性和时间灵活性,即我们常说的云计算的弹性。而解决这个弹性的问题,经历了漫长时间的发展.
数据中心的物理设备都很强大,我可以从物理的 CPU、内存、硬盘中虚拟出一小块来给客户,同时也可以虚拟出一小块来给其他客户。
每个客户只能看到自己的那一小块,但其实每个客户用的是整个大的设备上的一小块。
虚拟化的技术使得不同客户的电脑看起来是隔离的。也就是我看着好像这块盘就是我的,你看着这块盘就是你的,但实际情况可能我的这个 10G 和你的这个 10G 是落在同样一个很大很大的存储上。
而且如果事先物理设备都准备好,虚拟化软件虚拟出一个电脑是非常快的,基本上几分钟就能解决。所以在任何一个云上要创建一台电脑,一点几分钟就出来了,就是这个道理。
因为虚拟化软件一般创建一台虚拟的电脑,是需要人工指定这台虚拟电脑放在哪台物理机上的。
这一过程可能还需要比较复杂的人工配置。所以使用 VMware 的虚拟化软件,需要考一个很牛的证书,而能拿到这个证书的人,薪资是相当高,也可见其复杂程度。
所以仅仅凭虚拟化软件所能管理的物理机的集群规模都不是特别大,一般在十几台、几十台、最多百台这么一个规模。
这一方面会影响时间灵活性:虽然虚拟出一台电脑的时间很短,但是随着集群规模的扩大,人工配置的过程越来越复杂,越来越耗时。
另一方面也影响空间灵活性:当用户数量多时,这点集群规模,还远达不到想要多少要多少的程度,很可能这点资源很快就用完了,还得去采购。
所以随着集群的规模越来越大,基本都是千台起步,动辄上万台、甚至几十上百万台。如果去查一下 BAT,包括网易、谷歌、亚马逊,服务器数目都大的吓人。
这么多机器要靠人去选一个位置放这台虚拟化的电脑并做相应的配置,几乎是不可能的事情,还是需要机器去做这个事情。
人们发明了各种各样的算法来做这个事情,算法的名字叫做调度(Scheduler)。
通俗一点说,就是有一个调度中心,几千台机器都在一个池子里面,无论用户需要多少 CPU、内存、硬盘的虚拟电脑,调度中心会自动在大池子里面找一个能够满足用户需求的地方,把虚拟电脑启动起来做好配置,用户就直接能用了。
这个阶段我们称为池化或者云化。到了这个阶段,才可以称为云计算,在这之前都只能叫虚拟化。
大数据:
数据的应用分这四个步骤:数据、信息、知识、智慧。
最终的阶段是很多商家都想要的。你看我收集了这么多的数据,能不能基于这些数据来帮我做下一步的决策,改善我的产品。
例如让用户看视频的时候旁边弹出广告,正好是他想买的东西;再如让用户听音乐时,另外推荐一些他非常想听的其他音乐。
用户在我的应用或者网站上随便点点鼠标,输入文字对我来说都是数据,我就是要将其中某些东西提取出来、指导实践、形成智慧,让用户陷入到我的应用里面不可自拔,上了我的网就不想离开,手不停地点、不停地买。
数据 经过 清洗 变成信息, 信息通过提取变为知识,知识经过应用变为智慧,而智慧聪哥数据收集的.
数据的处理分以下几个步骤,完成了才最后会有智慧:
数据收集
数据传输
数据存储
数据处理和分析
数据检索和挖掘
可是随着数据量越来越大,很多不大的公司都需要处理相当多的数据,这些小公司没有这么多机器可怎么办呢?
大数据需要云计算,云计算需要大数据