联想超融合
发表时间:2019年08月13日浏览量:
联想超融合 AIO H1000
联想超融合 AIO H1000 基于超融合设计,采用极具创新的超融合架构,将计算与存储高度集成,并且 还构建出云管理平台的一站式解决方案,是一款真正的将软件、硬件和管理超级融合的云基础设施一体机, 为用户提供一个高度简化的一站式基础设施云平台。不仅可以使得业务部署上线从周缩短到天,而且与企业 应用软件、中间件和数据库软件完全解耦,打破传统分离架构的 IO 瓶颈,数倍提升企业关键应用的性能。联想超融合 AIO 作为一体化私有云基础架构的标准组件,为客户整合企业计算、存储和网络等资源, 快速构建企业云,提供全新的 IT 模型和服务体验。
联想超融合 AIO H1000 系列方案基于“快速实施,快速部署”的设计,给予客户 2 小时快速交付云平 台的设想,使客户彻底摆脱构建云平台时的复杂设计、安装和部署等过程。
联想超融合 AIO H1000 集成串联多台服务器,可水平扩展云平台计算与存储资源的规模,使云平台具 备高可用、高性能、易管理和低碳等核心优势。
联想超融合 AIO H3000
联想超融合 AIO H3000 是一个与管理程序无关的、纯软件实现的企业存储解决方案,为虚拟化环境提 供虚拟机级别的存储概念,并可与服务器虚拟化管理方案和用户界面完全集成。联想超融合 AIO H3000 平 台消除对存储阵列(无论是 SAN 还是 NAS)的需要,通过汇聚多台服务器的分散存储资源来提供共享存 储。其消除存储配置、存储管理和存储网络,使管理员可以专注于高附加值的活动,从而大大简化 IT 操作。联想超融合 AIO H3000 系统提供以虚拟机为中心的企业级数据服务,支持虚拟机实时迁移、动态负载 均衡、高可用性、数据保护和灾难恢复等高级功能。
通过整合标准通用服务器上的计算与存储资源,联想超融合 AIO H3000 系统的存储节约大量资本支出, 而不影响虚拟工作负荷的性能及可扩展性。联想超融合 AIO H3000 存储可与传统存储阵列和服务器共存以 保护投资。不必配置冗余资源,其多功能的体系结构即可提供独立、按需扩展容量和性能的能力。
管理平台 LUC
联想超融合虚拟化管理平台 LUC 是采用 B/S 架构模式自主研发的一套管理系统,实现对一体机计算、 存储和网络资源的统一管理。最终,用户能够通过浏览器、移动终端和瘦客户端来访问管理系统,实现各项 功能操作。
联想超融合虚拟化管理平台的主要功能模块有主页、服务器和集群、镜像、存储、网络、系统管理、任 务和信息。其中,系统管理又包含各种平台安全与权限设置,如租户管理、用户管理、角色管理、权限管理、策略管理、通知列表和 SSL 证书等。同时,提供 RESTful API 接口,保证第三方用户平台能够对接一体 机管理平台,方便用户完成各种第三方集成,大幅提升系统集成的便利度。
在逻辑实现架构上,联想超融合虚拟化管理平台采用微服务的开发架构。各个功能管理模块均为一个独 立服务体,相互解耦,能够独立部署,使管理平台架构的可扩展性增强。同时,由于我们的平台属自主研 发,不仅能避免基于开源框架进行二次开发模式下,开源框架本身因技术局限带来的隐患,也能使功能扩展 更加灵活自如。
虚拟化技术
虚拟化技术
联想超融合采用自主研发的计算虚拟化 LHV 和网络虚拟化 LNX 技术,共同实现具体的云平台管理工
作。
LHV 是联想超融合针对联想超融合 AIO H1000 自主研发的一个云计算管理平台项目,通过域、计算、 网络和存储驱动等几个重要的组件组合,完成具体的云平台管理工作,其产品目标是提供实施简单、可大规 模扩展、丰富和标准统一的云计算管理平台。其通过各种互补的服务提供基础设施服务(IaaS)的解决方 案,每个服务都提供相应的 API 进行集成。
LNX 是联想超融合自主研发的一种跨集群 SDN 技术,其采用扁平的网络结构,提供二层平面的 SDN 功能,并使用 VLAN 技术对网络进行物理隔离,大大提高网络的利用率,确保网络安全保密。其网络类型 分为以下四种:
联想超融合 AIO H 系列网络类型介绍
计算虚拟化 LHV 和网络虚拟化 LNX 的架构极其精简,均采用组件式开发,每个组件单独对外提供相 应的服务。组件间互不影响,拥有良好的可扩展性,可维护性和高可用性。同时,采用高效的 C 语言设计 开发,使其拥有极高的性能和组件响应性能,这是联想超融合虚拟化平台有别于其他平台的特色。
此外,联想超融合通过引入功能权限控制模块,实现管理平台基于权限进行用户管理和功能控制。并通 过在各个模块中加入权限控制流程,从而实现对各个组件功能的权限控制。
作。
LHV 是联想超融合针对联想超融合 AIO H1000 自主研发的一个云计算管理平台项目,通过域、计算、 网络和存储驱动等几个重要的组件组合,完成具体的云平台管理工作,其产品目标是提供实施简单、可大规 模扩展、丰富和标准统一的云计算管理平台。其通过各种互补的服务提供基础设施服务(IaaS)的解决方 案,每个服务都提供相应的 API 进行集成。
LNX 是联想超融合自主研发的一种跨集群 SDN 技术,其采用扁平的网络结构,提供二层平面的 SDN 功能,并使用 VLAN 技术对网络进行物理隔离,大大提高网络的利用率,确保网络安全保密。其网络类型 分为以下四种:
联想超融合 AIO H 系列网络类型介绍
计算虚拟化 LHV 和网络虚拟化 LNX 的架构极其精简,均采用组件式开发,每个组件单独对外提供相 应的服务。组件间互不影响,拥有良好的可扩展性,可维护性和高可用性。同时,采用高效的 C 语言设计 开发,使其拥有极高的性能和组件响应性能,这是联想超融合虚拟化平台有别于其他平台的特色。
此外,联想超融合通过引入功能权限控制模块,实现管理平台基于权限进行用户管理和功能控制。并通 过在各个模块中加入权限控制流程,从而实现对各个组件功能的权限控制。
LDM(域管理)
主要提供数据中心和集群的管理服务。通过数据中心和集群管理,用户可以更好的划分资源管 理,合理规划云平台虚拟化资源。同时,域管理提供的资源监控统计,为用户动态合理的管理虚 拟化资源提供有效的依据。
VMM(计算管理)
一套控制器,用于为单个用户或使用群组管理虚拟机实例的整个生命周期。根据用户需求提供 虚拟服务,负责虚拟机创建、开机、关机、挂起、暂停、调整、迁移、重启和销毁等操作,配置 CPU 和内存等信息。
IMAGEM(镜像管理)
一套虚拟机镜像查找及检索系统。支持多种虚拟机镜像格式(AKI、AMI、ARI、ISO、QCOW2、
Raw、VDI、VHD、VMDK),实现创建上传镜像、删除镜像、编辑镜像基本信息的功能。
SPM(块存储管理)
为运行实例提供稳定的数据块存储服务。它的插件驱动架构有利于块设备的创建和管理,如创建 卷、删除卷、在实例上挂载和卸载卷。
FWM(安全组管理)
一套网络安全服务系统,提供安全组功能。用户可自行配置安全组规则,控制虚拟机互通和隔离 的关系。保证属于同一个安全组的虚拟机和属于不同安全组的虚拟机,均默认全部隔离,仅安全 组允许的访问请求才能访问该安全组。
L2M(L2 网络管理)
为超融合云平台提供物理网络,为多用户划分物理网络功能,为不同的用户(租户)提供独立的 网络环境。
L3M(L3 网络管理)
展示所有的子网信息,包括使用者信息、子网名称、私有网络、网关 IP 地址、IP 版本、CIDR 网 段、虚拟 DHCP Server 和 DNS 域名服务器,并负责虚拟路由器的管理等功能。
RMM(资源监控管理)
主要为数据中心、集群、主机和虚拟机等提供可视化的、量化的、实时的资源使用情况,为用户 实时合理规划平台资源提供可靠的保障。
LICS(许可证管理)
主要负责管理平台提供许可证管理,通过提供用户功能接口,实现物理设备使用时效的控制和资 源使用范围的控制。
Admin CLI
为平台提供的命令行管理工具,为系统管理人员和第三方厂商提供友好的管理运行维护服务。
计算虚拟化 LHV 功能特性
虚机管理
在联想超融合 AIO H1000 环境中,计算虚拟化 LHV 在虚机管理方面具有以下特色功能:• 支持虚拟机全生命周期管理。
• 支持虚拟化的 USB 外设、CD-ROM 和软盘等设备。
• 支持 QCOW2、ISO、VFD 和 OVA 等多种格式镜像。
• 支持从模板创建虚拟机。
• 同时支持冷迁移和热迁移。
• 支持高可用 HA 功能。
• 支持快照的创建、回滚和一键删除等功能。
虚拟化平台管理
在联想超融合 AIO H1000 环境中,计算虚拟化 LHV 在虚拟化平台管理方面具有以下特色功能:• 支持虚拟机批量操作(开机、关机和强制关机)。
• 支持虚拟机的批量加域和批量克隆。
• 支持 CPU/内存资源优化。
• 支持用户及其权限的管理。
• 支持存储池化管理。
• 适配 OpenStack。
运维自动化
在联想超融合 AIO H1000 环境中,计算虚拟化 LHV 在运维自动化方面具有以下特色功能:• 支持实时监控各对象的性能、告警、任务和信息。
• 支持配置虚拟机 HA 策略。
• 支持 API 和命令行交互。
网络虚拟化 LNX 功能特性
在联想超融合 AIO H 系列环境中,网络虚拟化 LNX 具有以下特色功能:• 虚拟路由器
联想超融合 AIO H 系列管理平台的每个数据中心都可以创建多个虚拟路由器,每个虚拟路由器都拥 有专用的 I/O 端口、缓存、地址空间和路由表。虚拟路由器通过配置普通连接、上行连接或网关连接, 实现内网与外网的网络通信。
• 负载均衡
通过服务池将特定的业务 (网络服务或网络流量等) 分担给多个虚拟机,不仅能够缓解用户对单一服务 的访问压力,还大幅提高业务处理能力,保证业务高可用。目前可通过轮询、最小连接、源 IP 和权重 四种策略,实现网络流量的负载均衡引导。
• 浮动 IP
为已分配内网 IP 地址的虚拟机分配外网 IP 地址,建立内外网的映射关系,加强虚拟机的安全防护, 防止将虚拟机直接暴露在外网中。
• 安全组
在计算节点设置安全组规则,可过滤出入虚拟机的流程。通过在设置出入站规则时,设定 TCP 协议、 UDP 协议或 ICMP 协议的安全组策略,不仅可以避免计算节点因处理恶意访问而造成资源损失,还可 以充分过滤内部的恶意访问。
• 拓扑国
在联想超融合虚拟化管理平台中,使用拓扑国构建业务逻辑拓扑时,整个超融合架构底层,通过执行 大量的动作和指令,并根据业务逻辑拓扑进行底层真实环境模拟,从而屏蔽底层的复杂性,方便 IT 管 理人员可以更快速、简单、直观地构建数据中心各个业务所需的逻辑拓扑。
高可用 HA
在联想超融合 AIO H 系列中,VM 存储在共享存储上。系统会自动周期性的检查每一个计算节点。当发 现计算节点不响应,会把在该计算节点上的所有 VM 都进行重新分配,迁移到其它的可用物理机上。在该迁移过中,仍然保证资源的平均分配。具体过程如下:
1. 定期周期检查所有的计算节点。
2. 发现处于故障(broken)状态的节点,查询其上所有的 VM,准备迁移。
3. 对每个 VM 计算新的节点,并进行迁移。
当原先坏掉的计算节点经过修复,重新加入到集群中时,为避免重复,此节点上存留的被迁移走的 VM
会被删除。
存储技术 LHS
架构
联想超融合分布式存储 LHS 是由一组联想超融合节点构成的一个分布式平台。LHS 会像任意集中存储 阵列一样呈现给 Hypervisor。从用户角度来看,超融合存储集群的每个节点是等价的。但是,所有的 I/O 由 于是在本地处理,所以可以提供更高的性能。联想超融合分布式存储 LHS 的数据结构如下表所述。
数据保护
联想超融合使用复制因子(RF,Replication Factor/Resillience Factor)和校验和(CheckSum),保证数 据的冗余度和可用性。复制因子 RF
复制因子 RF,用于动态配置同一集群中,不同应用程序的不同级别的容错。
Oplog 作为暂存区接受所有写操作,并保存到低延迟的 SSD 中。当数据写入本地 OpLog 时,数据将依 据 RF 设置被同步复制到其他 CVM 的 Oplog 中。当同步操作完成后,此次写操作才被确认(Ack),确保数 据至少存在于 2 个或 3 个独立节点上,保证数据的冗余度。联想超融合所有节点都参与 Oplog 的复制操作, 可消除“热点节点”,并保证线性的性能扩展。
当发生网卡、节点或磁盘失效时,数据块会重新在所有节点之间进行复制,以满足复制因子的设置,增 强系统弹性。
校验和 CheckSum
校验和 CheckSum,不仅可以用于检测和解决无提示磁盘错误,还可以用于检查软件定义存储的完整性。
当数据被写入磁盘时,会同时计算该数据块的校验和,并将其作为数据块元数据的一部分进行存储。随 后,数据块在保证满足复制因子的前提下,被“异步”推送到 Persistent Store 中。
任何时候,读取数据块时,都将同时计算其校验和以确保数据块有效。当数据块检查结果不匹配校验和 时,副本数据将会覆盖该无效数据块。
在检查软件定义存储的完整性时,其既不需要特殊的硬件和昂贵的磁盘或阵列支持,也不需要格式化为 固定大小扇区,便可提供更高级别的数据完整性。
数据通道弹性
作为分布式存储系统,LHS 是基于处理组件、服务和 CVM 故障而构建的,主要分以下三类:
磁盘故障
故障特点 磁盘被拔掉、磁盘彻底损坏或由于 I/O 出错被主动删除。
故障恢复 当出现磁盘故障时,将会立即触发一个扫描,扫描元数据以发现故障磁盘上的数据和 拥有该数据副本的节点或磁盘。当发现数据需要重新复制时,LHS会把复制任务分派到整个集群的节点。
由于联想超融合把数据和副本分散到所有节点/CVM/磁盘,所有节点/CVM/磁盘都将参与到上述复制 中,所以,利用整个集群的能力,从实质上减少重新回到保护状态的时间。集群越大,回到保护状态的时间 越短。
CVM 故障
故障特点 由于 CVM 的权利行为,引起 CVM 的面时不可用。当 CVM 故障后,I/O 将重定向到 集群其他 CVM,透明处理此类故障。
故障恢复 当出现 CVM 故障时,会将原故障 CVM 作为主路径处理的 I/O,转发到两个远程路径 中激活的一个路径,由集群中其他 CVM 处理。当发现本地 CVM 恢复正常并稳定,本地 CVM 将立即接管 新的 I/O。
节点故障
在线压缩对正常 I/O 路径无影响,有助于提高存储层利用率。其通过减少数据从磁盘复制和读取,有利 于提高大 I/O 数据块或顺序 I/O 性能。
在数据写入磁盘前,对顺序的数据流或大 I/O 数据块会直接在内存中压缩,而对于随机 I/O 数据块会直 接写入 Oplog,合并后再在内存里压缩。对于压缩收益不足的数据块,LHS 会放弃压缩,直接写入磁盘。
节点故障
故障恢复 当出现节点故障时,虚拟机将启动 HA 机制,在其他节点上重新启动虚拟机。当虚拟 机重新启动完成,其将立即在本地 CVM 的接管下继续提供服务,并通过扫描发现失效的和冗余的数据节 点。与磁盘故障类似,最终在所有正常的集群节点内实现被保护数据的再平衡。当节点故障持续时间较长时,失效的 CVM 将被从元数据环中删除。当节点恢复并稳定一段时间后,CVM 才会被重新加回环中。
容量优化
联想超融合采用在线压缩的存储优化技术,使任何工作负载的可用容量被高效利用。该技术具备智能和 自适应的工作特性,不再需要手动配置和微调。在线压缩对正常 I/O 路径无影响,有助于提高存储层利用率。其通过减少数据从磁盘复制和读取,有利 于提高大 I/O 数据块或顺序 I/O 性能。
在数据写入磁盘前,对顺序的数据流或大 I/O 数据块会直接在内存中压缩,而对于随机 I/O 数据块会直 接写入 Oplog,合并后再在内存里压缩。对于压缩收益不足的数据块,LHS 会放弃压缩,直接写入磁盘。
存储分层和优先级
存储分层是在集群中所有节点的 SSD 和 HDD 上,选择最适合的位置,持久地存放数据,以达到存储性 能最优。联想超融合 LHS 架构支持全闪存配置。LHS 将持续监控数据访问模式,智能放置数据,并根据性 能与容量动态地进行冷热数据平衡。
存储分层的优先级由高到低依次为 Local SSD、Remote SSD、HDD。
• Local SSD 负责所有本地虚拟机 I/O 的读写操作。
• Remote SSD,即集群内其他节点的 SSD,适用于本地 SSD 可用空间不足时的场景。且其与 Local SSD
会通过容量平衡尽可能保持所有节点都有足够可用空间。
• HDD 可用于存储选择直接写入 HDD 的顺序写数据,并参考所运行的实时监控数据,通过冷热迁移把 冷数据放入 HDD。
注解:
• 特定类型的存储资源在集群范围内被池化统一管理。形成集群范围内的存储分层。即集群内任意节点 不论资源在本地还是其他节点,都可以使用整个存储分层。
• 针对某些特定虚拟机和数据盘,可选择数据的存储空间固化在闪存盘中。
当联想超融合系统中部分节点作为存储节点使用时,其上数据快速增长,导致磁盘利用率高于其他节 点。此时将触发容量平衡功能,移动该节点上最冷的数据至其他节点,既保证最热数据本地化,也保证所有 节点磁盘利用率达到基本平衡的状态。
存储分层是在集群中所有节点的 SSD 和 HDD 上,选择最适合的位置,持久地存放数据,以达到存储性 能最优。联想超融合 LHS 架构支持全闪存配置。LHS 将持续监控数据访问模式,智能放置数据,并根据性 能与容量动态地进行冷热数据平衡。
存储分层的优先级由高到低依次为 Local SSD、Remote SSD、HDD。
• Local SSD 负责所有本地虚拟机 I/O 的读写操作。
• Remote SSD,即集群内其他节点的 SSD,适用于本地 SSD 可用空间不足时的场景。且其与 Local SSD
会通过容量平衡尽可能保持所有节点都有足够可用空间。
• HDD 可用于存储选择直接写入 HDD 的顺序写数据,并参考所运行的实时监控数据,通过冷热迁移把 冷数据放入 HDD。
注解:
• 特定类型的存储资源在集群范围内被池化统一管理。形成集群范围内的存储分层。即集群内任意节点 不论资源在本地还是其他节点,都可以使用整个存储分层。
• 针对某些特定虚拟机和数据盘,可选择数据的存储空间固化在闪存盘中。
容量平衡
LHS 的容量平衡技术,用于确保数据一致的分布在集群内部各节点上。通过实时监控集群内各节点每 个层级上的磁盘容量(SSD/HDD),跨节点在同一层级上移动数据,确保在每个节点上有足够的空间。且所 移动数据尽可能是非本地数据副本,以保证数据本地化。当联想超融合系统中部分节点作为存储节点使用时,其上数据快速增长,导致磁盘利用率高于其他节 点。此时将触发容量平衡功能,移动该节点上最冷的数据至其他节点,既保证最热数据本地化,也保证所有 节点磁盘利用率达到基本平衡的状态。
容量平衡原理
鉴于容量平衡功能,可保证节点本地 SSD 写满后,自动迁移 SSD 中最冷数据到集群内其他节点的 SSD
上,程放本地 SSD 空间,而本节点数据会继续写在本地 SSD 上,不影响节点性能。
快照和克隆
快照和克隆均利用最有效的且高效的写时重定向(redirect-on-write)算法。 一个虚拟机构成的文件在联想超融合平台中是 vDisk。vDisk 是逻辑上连续的数据块,在存储设备里以文件形式存放。当快照或克隆发生时,基础 vDisk(vDisk@t0)被标识为只读,另创建一个新的 vDisk 做读/写。此时, 两个 vDisk 均继承之前的数据块映射,任何新的写入和更新将发生在他们单独的数据块映射里。由于每个 vDisk 都有其自己的数据块映射,所以可持续进行快照或克隆(即对快照或克隆再进行快照或克隆)而不影 响性能。
数据本地化
网络及 I/O
联想超融合内部节点间无背板链接,采用标准的 10GbE 网络进行通讯。运行于联想超融合虚拟机的所 有存储 I/O 都在专用私有网络里由 Hypervisor 处理。当 Hypervisor 接收到 I/O 请求时,由于存储智能分层对 SSD 和 HDD 的合理利用,大部分请求都将由本 地 CVM 提供服务,无需通过外部的 10GbE 网络,可减少网络延迟。只有在 LHS 的远程复制、虚拟机的网 络流量获取和磁盘的容量平衡等场景下,才会使用到 10GbE 网络。
虚拟机在线迁移
在联想超融合中,虚拟机的数据服务都将由本地 CVM 及其所管理的本地磁盘提供。当虚拟机在节点间 发生迁移时,该虚拟机的数据将由迁移后所在的本地 CVM 提供服务。虚拟机迁移前后,性能和可用性一 致。
当需在虚拟机中写入数据时,将由当前本地 CVM 提供服务完成写操作。当需读取虚拟机存储在迁移前节点 CVM 中数据时,I/O 请求将通过当前本地 CVM 转发至远端迁移前节点 CVM。当 LHS 监测到 I/O 请求发生在非本地节点时,其将在后台自动将数据移动到本地节点中,从而让所有的读 I/O 都由本地 CVM 提供服务。且数据仅在被读取到时才发生迁移,可避免过大的网络压力。