数据中心超融合基础架构(HCI)深度调研
1. 概述
传统数据中心主要由服务器、网络设备、存储设备以及附属设备,而这些设备通常由多家供应商提供。因此,随着业务应用程序及其产生的数据的增长,设备种类和数量也随之增加,从而导致运维的成本和设备部署的周期也迅速增加,同时也增加了资源调度的难度,降低了系统资源的利用效率。
为了解决这一问题,由同一厂商或者若干家厂商联合提供的融合系统开始出现,将服务器、网络设备和存储设备等集成在同一个机柜或者机架上销售给客户,从而降低部署难度,提升资源利用效率。但是融合系统只是服务器、存储和网络设备的简单“粘合”,一体化交付,尽可能“开箱即用”。虽然理论上只要三者搭配得当,各种类型的应用都可以很好的支持。而在实际应用中,服务器和存储等计算资源还是独立管理、独立扩展,仍然无法摆脱传统存储价格高企,运维成本高,升级扩容困难等问题。
超融合架构是软件定义数据中心的一种表现形式,是基于标准通用的硬件平台,通过软件定义实现计算、存储、网络融合,实现以虚拟化为中心的软件定义数据中心的软硬一体化IT基础架构。
超融合架构以软件定义存储为核心,使用大量标准的x86服务器组成集群,通过虚拟化计算(KVM,VMware,Hyper-v,Xen,容器等)和虚拟化网络(软件定义网络SDN)技术,把分布在每个节点上的服务器本地资源天然(native)融合起来,形成统一资源池,通过统一管理界面向外暴露标准的计算、存储、网络能力,实现模块化的无缝横向扩展(Scale-Out)。集群中各节点间没有明确的计算和存储的分工,不存在单点故障,可以根据需要对计算、存储、网络按需进行横向的动态扩展。运行在每个服务器节点上的单一的、高度虚拟化的超融合软件栈,通过网络和分布式算法同时为CPU、内存、硬盘、网络等物理资源提供抽象化功能,从而建立起一个同质化的、具有高度可用性和弹性的存储及计算资源池。
相对于传统IT架构,超融合架构具有如下优势:
- 单一支持:计算、存储和网络融合,统一部署,单一厂商提供所有软硬件(计算、存储和虚拟化等)支持;
- 部署简便:无需划分Zone、RAID等,从上机架开始最快30分钟内即可交付使用;
- 降低TOC(总拥有成本):资源池化,无需一次性大规模采购,按需采购,水平扩容;
- 重复利用:充分利用旧设备,保护现有投资,延伸到云计算架构;
- 减小依赖:采用标准服务器,不依赖具体软硬件厂商;
- 简化管理:单一界面统一管理计算、存储、虚拟化等资源,运维管理简单化;
- 弹性扩展:分布式架构,线性扩展,无节点数限制,无单点故障,内置本地备份、同城和异地容灾能力;
- 高效利用:多节点并发访问,本地访问SSD加速,数据自动负载均衡,快速镜像和恢复。
超融合架构适用于必须运行在物理硬件环境中的应用之外的所有场景,但是目前主要适用于如下场景:
- 服务器虚拟化场景:由于超融合架构可以将计算、存储和网络资源虚拟化后在图形界面中进行统一管理,因此能够简化虚拟化的配置管理;
- 虚拟桌面(VDI):超融合架构能够解决启动风暴问题,因此产生之初最主要的部署场景就是VDI;
- 容灾系统:容灾系统需要快速,简便,适应性强,扩展方便,而超融合的快速部署、按需配置和扩容等特性,能让容灾变的异常简单,因此在容灾系统的生命力会越来越强大;
- ROBO(远程和分支办公):超融合架构节约空间,性能出色,扩容简便,维修方便,适应性强,可以在分支机构IT支持不够的条件下提供高性能,高可靠性,易维护,易管理的IT系统,提高ROBO环境的办公效率;
- 私有云:私有云对于IAAS层的要求是简单,高效,弹性,敏捷,强健,虚拟化层适应性强,兼容性好;而这些特性都是超融合最擅长,与生俱来的,因此随着超融合的蓬勃发展,对比传统架构这些优势愈发显著。
2. 发展现状
2012年Steve Chambers和Forrester咨询首次提出超融合基础架构概念以来,其技术已经从最初简单的以替换传统存储厂商集中式存储为目的,到如今的 从Iaas层(Infrastructure as a Service)融合向Paas层(Platform as a Service)技术,并尝试结合容器技术,提供更多样的服务,技术日趋成熟。
2014年之前是HCI概念提出、市场试水的阶段,如今Gartner HCI魔力象限中的绝大多数超融合厂商,如Nutanix、Dell EMC、VMware、华为、思科等均是在该阶段开启了HCI之路。2015~2016年,随着云计算的爆棚,HCI被视为最具潜力的数据中心基础架构之一,发展驶入快车道,2016年甚至被称之为“超融合元年”。
国际数据公司(IDC)认为,虽然超融合系统在整个融合系统市场中所占的比例还不够大,但全球的HCI市场在2021年之前会有平均28.9%的年复合增长,而整个市场营收会达到 83亿美元的规模,因此高速增长的势头有望迅速抹平差距。
Gartner预计,超融合系统年复合增长率为48%左右,而中国将超越这一数字,并在2020年成为数据中心的主流;2021年,60%以上的超融合基础设施(HCI)采用将偏向虚拟桌面基础架构(VDI)和远程办公/分支机构(ROBO)工作负载;软件定义网络(SDN)将在大多数HCI产品中可用,然而最终用户采用率仍将低于10%。
超融合架构的优势和客户价值已经勿容置疑,全球和国内市场都已经初步形成,HCI是未来5-10年新一代数据中心基础架构的首选方案。
在数据中心领域,超融合概念异常火爆,Nutanix和SimpliVity等初创公司备受追捧,并且随着全球超融合市场呈现快速增长的势头,业内无论是服务器巨头、存储巨头等均加入了这一战局。2018年,Gartner最新发布的超融合基础设施魔力四象限中,国内厂商仅有华为迈入挑战者象限,但国际市场仍以Nutanix、Dell EMC、VMware和收购了Simplivity的HPE(惠普企业)为首。
国内超融合市场主要分为如下几个阵营:
- 传统服务器厂商,例如浪潮、联想、DELL EMC、HPE;
- 相关领域转行的厂商,例如通信领域的华为、网络设备领域的H3C、安全领域的深信服等;
- 超融合初创厂商,例如SmartX、达沃时代、大道云行、青云、神州云科、云宏等。
其中:
- Nutanix主要与联想合作,采用X3650服务器,提供基于Nutanix的2U产品;
- Simplivity采用Cisco或Dell的定制服务器,但是被HPE收购后,实际上相关业务已经并入H3C。
根据分布式文件系统,超融合技术方案划分为如下3种:
- 分布式文件系统自主开发,支持多种虚拟化架构(VMware、KVM、Hyper-v);代表产品是Nutanix,其分布式文件系统分别是NDFS;此外还有华为、SmartX、达沃时代、大道云行、青云等;
- 分布式文件系统自主开发,仅支持自家虚拟化平台,无法独立部署;代表产品是EMC的VxRail,采用VMware + vSAN;
- 分布式文件系统基于开源软件开发,仅支持KVM虚拟化;代表产品是深信服,其分布式文件系统是基于GlusterFS的aSAN,此外还有H3C基于Ceph的UIS。
最近几年,容器已经成为数据中心新工作方式的标志。容器作为一种轻量级、可移植、自包含的软件打包技术,使应用程序可以在几乎任何地方以相同的方式运行。开发人员在自己笔记本上创建并测试好的容器,无需任何修改就能够在生产系统的虚拟机、物理服务器或公有云主机上运行。
容器作为继大数据和云计算之后又一炙手可热的技术,而且未来相当一段时间内都会非常流行。因此许多公司,包括Google、SmartX等,都在研发基于容器的超融合解决方案,即在同一个物理服务器的虚拟化平台上运行虚拟机(VM)和容器,共享分布式存储和软件定义网络,并使用统一的界面进行管理,从而更好的满足用户的需要。
3. 主流超融合厂商介绍
目前主流超融合厂商包括Nutanix、VMware、华为、H3C、SmartX等,下面分别进行介绍:
3.1 Nutanix(路坦力)
Nutanix成立于2009年,是一家提供超融合解决方案的设备厂商,多次被IDC和Gartner评为超融合领域的领导者,具有深厚的技术沉淀,拥有美国专利与商标局正式批准的分布式软件架构专利。Nutanix软件已经部署在全球六千多家企业,功能稳定完善,超融合生态链中具有无可比拟的优势。但是,随着HCI市场的扩张和更加激烈的竞争,其业绩仍然出现了下滑。为了实现从超融合技术方案向云计算方案公司的转型,Nutanix从2017年5月开始与IBM和Google合作,提供基于IBM Power Systems的数据中心软硬件解决方案和横跨私有云、公有云(Google Cloud)和边缘云(Edge Cloud and IoT)的多云解决方案(Nutanix Calm)。此外,Nutanix还于2018年3月收购了业内领先的云解决方案提供商Minjar,推出Nutanix Xi Cloud Services,通过Prism集中化数据中心基础设施管理软件,将数据中心服务扩展到云,避免将内部部署服务扩展到云的复杂性。
Nutanix的主要产品是分布式资源管理平台Prism和分布式多资源管理器Acropolis,以及基于这两个整合产品家族的NX系列软硬件一体机。其中,Prism主要用于提供一键式的基础架构管理平台,方便用户统一管理各个超融合集群;而Acropolis则用于提供超融合的核心组件,分布式文件系统(DSF)和用于封装虚拟机、存储、容器等接口的应用接口(AMF)。Prism和Acropolis服务需要运行在每个物理机虚拟化平台上的控制虚拟机(CVM)上,用以提供对外接口。
Prism提供HTML5 UI, REST API, CLI, PowerShell CMDlets等多种接口,用于管理如下功能:
- 运行环境和硬件设备的健康和状态信息,包括存储的容量、IOPS、延迟,内存和CPU的利用率,虚拟机的数目等;
- 虚拟机和容器的管理,包括创建、运行、更新、监控、删除等;
- 服务器、磁盘和网络的管理、监控和健康检查以及集群扩展等;
- 容灾、公有云对接、快照、恢复等数据保护功能。
Acropolis是Nutanix方案的核心,其核心是使用分布式文件系统DSF和应用接口层(AMF)实现存储和计算能力的软件定义,从而将易耗资源虚拟机、容器、存储等与用户应用解耦,提供一致性的操作平台,从而使得用户应用可以在虚拟机管理器、平台、容器和各种云之间无缝迁移。
分布式文件系统DSF是从Nutanix原来的分布式文件系统HDFS扩展而来,是Nutanix赖以生存的核心组件,通过使用Intel VT-d技术,将管理SSD和HDD的SCSI控制器被直接传递到运行着DSF控制模块的控制虚拟机(CVM),从而形成统一的资源池,进而提供给用户虚拟机、容器等。
分布式文件系统DSF具有如下特点:
-
支持多种虚拟机管理器:
- Acropolis Hypervisor:集群最少支持3个节点,最多节点数没有限制,每次最少扩展1个节点;每个节点和集群的VM数量取决于物理内存;每个VM的最大内存是2TB,每个VM的最大CPU数为物理CPU数目;
- VMwrae vSphere:集群最少3个节点,最多64个节点,每次最少扩展2个节点;每个节点最多1024个VM;每个集群最多8000个VM,每个VM的最大内存是6128GB,每个VM最多128个虚拟CPU;此时可支持VMware VAAI接口,从而将某些磁盘操作从CPU转移到存储设备执行,减轻CPU负担;
- Hyper-V:集群最少支持3个节点,最多64个节点,每次最少扩展1个节点;每个节点最多1024个VM;每个VM的最大内存是1TB,每个VM最多64个虚拟CPU;
- Citrix XenServer:2017年开始支持,无进一步信息。
-
支持多种文件系统访问接口,可动态创建新的适配器接口:
3.冷热数据分层,本地SSD优先,自动磁盘均衡:
本地SSD利用率过高时,最近最少使用的数据会被迁移到集群中其他节点的SSD,从而降低本地SSD的空间,保证本地SSD写入优先,使得本地虚拟机尽可能不需要跨节点访问存储数据;而只有当整个集群的SSD利用率达到阀值时,才会将每个节点的SSD中的数据按照冷热程度顺序迁移到该节点的HDD硬盘中。
-
读写缓存独立,提高IO性能,同时兼顾消重功能:
-
数据写入时,除非是顺序IO访问,否则必须写入本地SSD的写缓冲opLog,然后同步复制到DSF自动选择的同一个集群的某个节点上,并在opLog利用率达到阈值时写入到扩展存储,即本地HDD或者集群内部其他服务器的SSD和HDD;同时,所有数据写入都会打上标记,从而在数据进入读缓冲时进行消重。
-
数据读取时,优先检查写缓冲opLog中是否存在需要的数据,不存在则从横跨内存和SSD的Unified Cache读缓冲查找数据;读缓冲中不存在时,则进一步从扩展存储中加载数据,并存放到读缓冲的Single-touch池中;Single-touch池中的数据会根据LRU算法逐步刷到读缓冲Multi-touch池的内存段和SSD段,实现数据的进一步分层。
!](https://img.haomeiwen.com/i5574441/97769d744ed59cba.JPG?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
-
-
基于Apache Cassandra深度修改的Cassandra组件,使用环状分布式数据库保存元数据和其他重要数据和Paxos算法保证数据的一致性;引入RF(复制因子)和校验和基址,使得数据写入opLog时同步复制和更新到其他节点的opLog,并发送应答给写入节点,最后在满足赋值因子(复制份数)的情况下异步推送到扩展存储中,从而提供足够的数据的冗余度和可用性:
此外,为了减少集群内节点数量变化时元数据重映射的数据量,一致性散列算法被引入,以确保新节点被均匀的插入到环状分布式数据库的老节点之间,从而使得需要更新的数据量最少;
-
通过Cassandra和基于Apache Zookeeper组件,实现节点、模块和机架的数据、元数据、配置数据等的感知,确保某个VM、节点、模块、机架故障时,系统仍然能够从副本中恢复;
-
提供纠删码、在线压缩、事后压缩、弹性消重等多种存储优化技术并协同工作,减少配置复杂度,提高存储利用效率;
-
采用基于vDisk虚拟映射的写时重定向算法(redirect-on-write),提供快照克隆功能和基于快照克隆功能的容灾和复制功能,从而实现快速备份和恢复:
-
提供云链接功能和跨物理站点扩展能力,使得计算和存储集群跨越私有云、公有云(亚马逊AWS等)和不同地点的多个物理站点,使用同样的组件创建集群并加入管理,从而实现对本地集群原生容灾和复制功能的扩展;其中存储可以使用亚马逊S3(AWS)或微软BlobStore(Azure)提供的云磁盘;
-
通过网络和数据访问本地化,虚拟机和文件的影子克隆和读取时迁移能力,优先使用物理机本地网络和存储,降低网络和存储压力。
Acropolis包含一个基于CentOS KVM开发的Acropolis Hypervisor,增加在线迁移、高可靠性、iSCSI重定向、容器调度等功能,通过PCI直通方式访问磁盘,通过Linux内核支持的Open vSwitch(OVS)功能提供虚拟化网络功能。其中高可靠性功能通过预留主机和每个主机上预留VM资源两种方式实现,分别适用于同构主机和异构主机,可在某个VM故障时迅速切换到预留主机或某个主机的预留VM上。
此外,Nutanix方案还集成了OpenStack,用于提供业界标准构建和管理接口(Swift对象存储等),包括:
- OpenStack控制器(OSC): 现存或新建的虚拟机,用于提供OpenStack界面;
- Acropolis OpenStack驱动:用于将OpenStack控制器的OpenStack RPC转换成Acropolis API调用;
-
Acropolis OpenStack虚拟机(OVM):通常装有Acropolis OpenStack驱动的虚拟机,也可以包含OpenStack控制器,通常作为一个辅助类型的虚拟机存在。
最后,Nutanix方案支持全闪存存储方案以提高核心应用效率,并可以外接传统SAN存储网络以满足更多需要。
3.2 VMware
VMware成立于1998年,是一家提供云计算和硬件虚拟化的软件和服务的著名软件公司,并号称是第一个在x86架构虚拟上成功商业化的公司。VMware与2004年被EMC收购,并于2016年通过Dell收购EMC成为Dell的子公司。VMware最初的产品是桌面虚拟化软件VMware Workstation和企业级服务器虚拟机管理软件VMware ESXi。
2009年,VMware开始开发开源多云Paas平台Cloud Foundry的原型B29项目,随后通过收购吸收SpringSource公司为亚马逊EC2共有云平台开发的Paas项目,与2011年发布Cloud Foundryde,吸收在2008年通过与思科合作开发分布式虚拟软件交换机,并与2011年4月发布Cloud Foundry,从而进入云服务领域。目前,Cloud Foundry由Cloud Foundry基金会管理,可以部署到多家基础设施提供商,包括VMware vSphere,OpenStack,Amazon Web Services,Microsoft Azure,Google Cloud Platform,阿里巴巴 Alicloud等。截至2018年4月,认证提供商名单包括Atos Cloud Foundry、华为FusionStage、IBM Cloud Foundry、Pivotal Cloud Foundry、SAP云平台、Swisscom应用云等。
2013年,VMware发布提供IaaS服务的公有云vCloud Hybrid Service(现在的vCloud Air),并于2017年卖给了法国云提供商OVH。
2016年,由于戴尔收购EMC,VMware宣布重组,Workstation和Fusion背后的整个开发团队被解散,并随后发布了VMware Workstation 12.5和Fusion 8.5版本以支持Windows10和Windows Server 2016。
目前,VMware的超融合产品包括全包式超融合设备VxRail、VxRack SDDC(软件定义数据中心)和以 vSAN ReadyNode形式提供的超过 150种经过认证的平台,其核心为紧密集成的服务器虚拟化平台vSphere(ESXi为其中的Hypervisor组件)、集成在vSphere中的闪存优化型高性能超融合存储方案vSAN和适用于vSphere环境的统一且可延展的管理解决方案vCenter Server。此外,VMware还提供专为混合云而构建的云管理平台VMware vRealize Suite、集成软件定义数据中心(SDDC)系统上部署和运行私有云的解决方案VMware Cloud Foundation、虚拟桌面基础架构(VDI)产品VMware Horizon View、灾难恢复解决方案VMware Site Recovery Manager(SRM)以及网络虚拟化产品VMware NSX等一些列云管理软件。
VMware超融合软件体系的核心是集成VMware vSAN的VMware vSphere服务器虚拟化平台,具有以下特征:
-
仅能用于vSphere,集群最少3个节点,最多64个节点,每次最少扩展2个节点;每个节点的最多1024个VM;每个集群最多8000个VM,每个VM的最大内存是6128GB,每个VM最多128个虚拟CPU;
-
与vSphere中的虚拟机管理器ESXi紧密集成,降低计算能力开销;
-
支持混合vSAN集群和全闪存集群,以适应不同的需求;
-
采用支持弹性、无中断扩展的分布式体系结构,可以增加新节点以横向扩展,也可以增加硬盘驱动器以纵向扩展;
-
支持重复数据消除、压缩和纠删码 (RAID 5/6) 、共享逻辑卷并发访问等高级存储功能,使存储利用率提高多达10 倍,同时显著降低存储容量和成本;
-
通过vSphere Web Client管理,并与VMware 产品体系集成,包括 vMotion、High Availability (HA)和Fault Tolerance (FT) 等主要功能特性和其他VMware产品(VMware Site Recovery Manager、VMware vRealize Suite等);
-
集成业界首个具有静态数据加密功能的原生HCI安全解决方案,支持客户选择标准驱动器(SSD 和 HDD)、双因素身份验证(SecurID 和 CAC)和所有符合 KMIP 标准的密钥管理器(如 CloudLink、Hytrust、SafeNet、Thales 和Vormetric),从而避免因为选择自加密驱动器 (SED) 而导致选项有限并产生额外费用;
-
支持虚拟机存储和存储服务级别(如容量、性能、可用性)根据存储策略自动调整,以实现存储资源负载均衡;
-
采用分布式RAID和缓存镜像,内置容错和高级可用性功能,无缝支持vSphere可用性功能(vSphere Fault Tolerance、vSphere High Availability等);
-
提供VAAI(vStorage APIs for Array Integration)功能,可以将某些磁盘操作从CPU转移到存储设备执行,减轻CPU负担:
-
Copy Offload(存储端离线拷贝),适用于克隆或从模板创建虚拟机等情况;
-
Block Zeroing(块清零),创建虚拟机时虚拟磁盘清零时使用可以保证后续运行中的性能下降;
-
Atomic Test and Set(原子测试锁定机制),硬件辅助的锁定机制,用于并发访问时针对整个逻辑卷中所有磁盘的锁定释放机制,通过存储设备离线锁定逻辑卷中某个磁盘来提高并发效率:
-
UNMAP/Reclaim:适用于删除或释放虚拟机时磁盘空间的释放:
-
-
支持跨物理站点扩展、双节点直连等高级功能;
-
vCenter Server与vSphere紧密结合,能够聚合多台 ESXi 主机的物理资源,集中呈现灵活多变的资源,供系统管理员置备虚拟环境中的虚拟机。vCenter Server 组件包括用户访问控件、核心服务、分布式服务、插件以及各种界面;
-
vCenter Server提供vSphere Client、vSphere Web Client、vSphere命令行或终端服务(Windows 终端服务)等多种访问接口。
3.3 华为
华为作为传统的通信设备制造商,于2012年9月华为云计算大会上发布了FusionCube 9000超融合设备,正式进军超融合市场,随后在2014年6月首次进入Gartner超融合魔力四象限,并在2017年成为首家进入挤入挑战者象限的中国企业。
目前,华为的超融合产品包括:
- 适用于适用于虚拟化、桌面云、大容量数据库场景的FusionCube 2000;
- 适用于虚拟化和桌面云场景的FusionCube 6000;
- 适用于数据库或虚拟化场景的FusionCube 9000;
- 经过VMware认证的全新一代服务器FusionCube vSAN Ready Nodes;
- 自带FusionSphere云操作系统的FusionCube超融合方案。
华为FusionCube超融合基础设施以计算/存储/网络融合、预集成、高性能、高可靠、高安全、业务自动化快捷部署、统一运维管理、资源智能弹性伸缩为设计理念,是华为IT产品线的旗舰产品。其总体架构如下所示:
华为FusionCube方案的核心是FusionCube Storage分布式存储平台,通过合理有序组织刀片服务器的本地硬盘,提供高性能高可靠的块存储业务,其架构如下所示:
- 管理模块(Manager):提供告警、监控、日志、配置等操作维护功能,通常工作在主备模式下;
- 代理进程(Agent):各节点上与管理模块通信的代理,可以各节点监控与告警信息手机或节点软件升级;
- Zookeeper:基于Apache ZooKeeper,用于为MDC集群提供选主仲裁,需要保持一半以上的活跃度;3节点起步,奇数个部署;
- 元数据控制(MDC):控制数据分布规则、数据重建规则、集群状态等;3节点起步,最多96个;每个MDC最多管理2个资源池;每个资源池对应1个归属MDC,故障时则托管到其他MDC;主MDC负责监控其他MDC;MDC负责
- 虚拟块存储管理组件(VBS):通过与对应资源池的OSD之间的点对点通信,并发访问硬盘和SSD,执行卷元数据管理,从而提供包含CHAP身份验证的SCSI或iSCSI接口服务;每个节点对应1个或多个VBS进程,并在启动时与主MDC连接并协商出主VBS;
- KV(Key-Value)设备服务(OSD):执行具体的I/O 操作;每块磁盘对应1个或多个OSD进程以提升IO效率。
FusionCube Storage具有如下特点:
-
支持业界主流的虚拟化平台VMware ESXi、Xen、KVM以及华为基于Xen开发的FusionSphere等,集群最少3个节点,最多288个节点;使用VMware ESXi作为虚拟化平台时最多64个节点,但是可以支持VMware VAAI接口,从而将某些磁盘操作从CPU转移到存储设备执行,减轻CPU负担;
-
支持每个集群最多128个资源池,以满足不同性能存储介质和故障隔离要求;所有资源池共享同一套Zookeeper和MDC;2个副本时每个资源池最多支持96个硬盘,3个副本时2048个硬盘,但是类型和容量必须相同;每个资源池中各节点的硬盘数相差不得超过2个,且硬盘差额之和不得超过最大硬盘数的33%;
-
同时提供块存储(SCSI/iSCSI)、对象存储(亚马逊S3/OpenStack Swift)和文件存储(NFS/CIFS等)服务以及针对不同接口的增强服务;
-
基于ROW(Redirect-On-Write)机制的快照技术,减少对初始卷的影响:
-
基于同样被Nutanix采用的DHT路由(分布式一致性Hash)技术实现自动精简配置功能(SmartThin/HyperThin等),即初始化时将硬盘划分为1M字节的分区,并在内存创建与物理硬盘的映射关系尽可能将数据均分到所有节点中,并减少新节点增加时需要更新的数据量,从而在此基础上实现存储空间的按需分配和动态映射,提供超越实际物理存储的虚拟存储资源,显著提高存储空间利用率;
-
基于双令牌桶算法(C桶存放令牌,E同存放余额)的QoS功能,用于对I/O进行精细化控制并提供burst功能(即允许短期内从超出IOPS配置份额的访问):
-
基于临时节点的Hint可用性增强,通过将IO临时写入快速扩开辟的hint节点后通过过后台延时任务写入原目的节点的方式,在1~2分钟内快速解决节点亚健康状态:
- 通过NFS多路径、CIFS多通道、NFS协议调优等技术,提高NFS、CIFS等文件系统接口效率;
-
兼容主流大数据平台,包括华为FusionInsight、Cloudera CDH、Hadoop等大数据平台的对接;
- 通过为OpenStack开源云平台各存储模块实现的Provider,提供与主流发布版本和商业版本的对接能力;
- 通过对SNMP(简单网络管理协议)和SMI-S(存储管理计划 - 规范)标准协议的支持,实现对主流IT运维管理平台的支持;
-
-
数据分层,多级cache,读写分离,本地优先,提高性能:
- 写入时,首先以同步方式写入到本节点SSD cache以及数据副本所在其他节点的SSD Cache,全部写成功后才返回成功;随后,SSD Cache 中的数据会异步刷入到硬盘;然后周期性或达到阈值后批量写入硬盘;
- 读取时,优先从本地节点的cache中读取数据,故障时才会选择副本节点;选中节点后,首先检查内存读Cache中,存在时调整该数据到读Cache LRU队首并返回数据,否则检查SSD中的读Cache;存在时增加该数据的热点访问因子并返回,否则继续检查SSD中额写Cache;存在时增加该数据的热点访问因子并返回,同时在热点访问因子达到阈值后将数据缓存到SSD中的读Cache,失败则从硬盘读取数据,增加该数据的热点访问因子并返回,同时在热点访问因子达到阈值后将数据缓存到SSD中的读Cache。
-
文件存储接口采用业界先进的动态子树技术,支持百万数量级的超大目录,访问响应与普通目录基本没有差别;其中,整个文件系统采用统一命名空间,需要根据所在节点将目录树划分为若干子树,并在子文件过多或子文件访问热度超过阈值时分裂;每个子树对应于1个MDC(元数据管理模块),而每个MDC可以管理多个子树;
-
通过数据条带化技术将写入的数据划分为N个固定大小的源数据分片(条带Strip),然后计算出M个冗余数据分片(条带Strip),从而组成一个N+M的数据分条(Stripe),然后按照数据保护级别选择不同的节点分散存放,从而实现数据的并行访问和故障恢复:
-
支持大块或顺序访问IO直接落盘(HDD)技术,充分利用HDD顺序访问和SDD随机访问的优势,提高SD卡寿命和SD Cache命中率;
-
通过SSD Cache读写空间动态调整技术,根据系统运行场景自动均衡读写Cache比例,最大程度上发挥SD Cache作用;
-
提供设备、网络、业务和管理的全面安全解决方案,确保系统安全可靠:
-
支持存储和计算节点分离部署以及自动化部署,部署和维护更加灵活方便。
3.4 H3C(新华三)
H3C最初与2003年由华为和美国老牌网络设备厂商3Com合资成立的一家网络设备制造厂商,历经多次股东变化,目前大股东包括华为、3COM、HP、紫光等,但是仍然占据中国企业网络设备市场龙头地位。惠普企业收购的Simplivity相关超融合产品也一并合入新华三。
除了惠普企业转入的Simplivity超融合产品,H3C还面向IaaS(基础架构即服务)推出了基于OpenStack和KVM的全基础架构软件定义超融合解决方案H3C UIS(统一基础架构系统),包含UIS Manager统一管理矩阵、UIS8000 刀片式超融合设备、UIS Cell 机架式超融合设备等,是最早推出超融合解决方案的中国企业,曾将在超融合市场连续两年中占据致中国第一,世界第三。
UIS基于开源的KVM虚拟化,包括如下核心组件:
-
UIS Manager(统一管理矩阵):系统中服务器、交换机、KVM控制器等各个组件进行统一管理的一站式管理平台,提供业界最全的数据中心管理功能,将计算、存储、网络和安全这四个IT的资源进行深度的内核级融合和开发,具备资源一站式监控、设备自助上线、应用一键部署、资源弹性扩展、问题事件快速处理等特点:
-
CAS(虚拟化平台):基于Linux + KVM,从计算、存储、网络和安全等四个领域进行深度的内核级融合和开发,集成Intel DPDK等开源模块,与占据运营商领域半壁江山的亚信安全软件实现内核级对接,支持VMware vSPhere虚拟化内核即EXSi,并且可以与H3C的NFV软件集成;
-
ONEStor(分布式存储) :基于开源分布式文件系统Ceph深度修改,采用分布式管理集群,分布式哈希数据分布算法,分布式无状态客户端、分布式Cache等全分布式架构,提供线性扩展能力、多副本、数据强一致性等功能和块、文件和对象存储等多种接口:
3.5 SmartX(北京志凌海纳科技)
SmartX成立于2013年,是中国领先的超融合产品与企业云解决方案创业公司,其技术团队主要由来自Nimbula、Microsoft、百度、HP、EMC、Redhat、Citrix,VMware等公司的优秀工程师组成,具有丰富的虚拟化、分布式系统研发和大规模运维经验,并在去年拿到了经纬创投领投的近亿B轮投资。SmartX的理念是通过软件重新定义数据中心,将类似 Google 等互联网公司数据中心的架构带给企业,并结合最新的硬件趋势,为企业构建更快速,更易扩展,更灵活的数据中心。SmartX落地的联通云数据有限公司沃云平台具有超过2000节点和24TB数据,是得到Granter认可的国内最大规模超融合案例。
SmartX的产品是SmartX Halo超融合平台和SmartX Halo一体机。
SmartX Halo超融合平台基于自主研发的ZBS分布式文件系统,提供分布式块存储、数据保护、网络管理等 IT 基础服务,实现“一站式”超融合虚拟化平台解决方案,具有以下特点:
- 100% 软件定义技术,实现数据中心的 IT 基础服务;
- 无硬件平台绑定,支持不同厂商多种型号x86 服务器;
- 无虚拟化软件锁定,生态友好,支持VMware vSphere、Citrix XenServer、Linux KVM 等Hypervisor
- 按需同时水平扩展容量和性能,支持无停机扩容,扩容简单,对线上业务无影响;
-
全分布式设计,数据冗余,智能数据恢复,确保业务可靠可用;
- 支持NFS和iSCSI协议以及开放API,方便与OpenStack等各类云平台集成;
- 内置虚拟化平台、虚拟网络管理和运维管理软件,轻松部署,简化管理,降低 IT 运维成本。
SmartX超融合平台的核心是ZBS分布式块存储文件系统,由安装在每个节点上的vSphere、XenServer、KVM 等Hypervisor上的SCVM(SmartX Controller Virtual Machine)通过网络组成分布式存储集群来提供虚拟的块设备存储池,具有如下特点:
-
支持两级LRU队列模式的SSD智能缓存技术、IO写请求合并优化技术和核心业务专用的SSD存储池技术,提高IO访问速度和SSD使用效率;
- 支持无停机扩容、硬盘热插拔、VM重连、VM热迁移等技术,确保业务连续性;
- 支持弹性多副本、数据块校验、秒级无依赖快照和回滚、增量去冗备份工具、智能数据恢复、集群负载均衡、全局瘦供给(ThinProvision )等技术,确保数据安全可靠;
- 支持命令行/Web管理接口、RESTFUL/Python开放接口、集群监控和报警软件等,简化IT管理。
SmartX ZBS的基础架构如下所示:
其中: - ZooKeeper服务:基于Apache ZooKeeper,用于为Meta(元数据)服务提供选主仲裁,需要保持一半以上的活跃度;3节点起步,奇数个部署;
- Meta服务:管理元数据,包括维护数据块(8K字节)到具体物理服务器的映射,执行元数据同步、负载均衡、数据主动恢复、垃圾回收等集群层面的策略任务;每个节点1个;
- Chunk服务:管理本地存储资源(SATA和SSD等),充分挖掘SSD的特性来优化本地I/O性能;每个节点1个。
SCVM(SmartX Controller Virtual Machine)上需要安装一款融合虚拟计算、分布式存储及虚拟网络的基于Linux的操作系统SmartX OS,用于为用户构建完整的超融合虚拟化IT基础架构。
4. 超融合技术总结
4.1 关键技术
除了VMware之类缺少详细资料的,主流超融合厂家通常都采用了如下关键技术:
-
统一管理界面:通过统一界面管理系统中的计算、存储、网络等节点并提供在线升级、无缝水平扩容等功能;
-
I/O MMU虚拟化技术:用于CVM直接访问硬盘控制器和网卡等,包括架构无关的的PCI单根I/O虚拟化技术(SR-IOV)和各个主流处理器架构的IOMMU技术(英特尔的VT-d、AMD的AMD-Vi、ARM的SMMU、Power的PAMU/IOMMU等);其中SR-IOV技术已经广泛应用于各种架构的处理器和PCI设备,但是需要配合IOMMU技术使用;
-
分布式KV(Key-Value)存储技术:通过分布式一致性Hash(DHT路由)、HASH分片、CRUSH算法等为数据块生成key,然后映射到逻辑分区,进而将逻辑分区映射到不同存储节点上不同硬盘的真实分区:
-
Apache ZooKeeper:曾经属于Hadoop,目前为顶级独立项目,通过将数据以冗余方式分散存储在分层名称空间中来支持为大型分布式计算提供开源的高可用性分布式配置服务、同步服务和命名注服务,具有以下特性:
- 高可靠:3节点起步,奇数个部署,自动选择主节点,单节点故障不影响系统运行;
- 架构简洁:通过共享分层命名空间来协调整个系统;
- 可伸缩:可通过增加节点提升系统性能;
- 快速处理:读取操作多于写入的读取主导场景中事务处理尤其快速。
-
自动多级缓冲/SSD加速技术:根据数据访问频率自动划分冷热数据,通过LRU算法将热门数据放入内存和SSD等高速缓冲,冷门数据后台刷新到HDD硬盘;
-
写时重定向ROW(redirect-on-write)或写时复制COW(copy-on-write)算法,提供快照克隆功能和基于快照克隆功能的容灾和复制功能,从而实现快速备份和恢复;
-
vSwitch技术:提供网络虚拟化功能,包括VMware VDS(vSphere Distributed Switch)和Linux内核支持的Open vSwitch(OVS)等技术。