咨询热线:4008-6044-55 | OA | E-mail
深度解析 什么是超交融数据中心网络?
日期:2022-08-20 08:03:14 | 作者:华体会最新地址

  数据中心网络连接数据中心内部通用核算、存储和高功用核算资源,服务器间的一切数据交互都要经由网络转发。当时,IT架构、核算和存储技能都在产生严重革新,驱动数据中心网络从本来的多张网络独立布置向全以太化演进。而传统的以太网无法满意存储和高功用核算的事务需求。超交融数据中心网络以全无损以太网来构建新式的数据中心网络,使通用核算、存储、高功用核算三大品种事务均能交融布置在一张以太网上,一起完成全生命周期自动化和全网智能运维。

  数据中心内部有三类典型的事务:通用核算(一般事务)、高功用核算(HPC)事务和存储事务。每类事务关于网络有不同的诉求,比方:HPC事务的多节点进程间通讯,关于时延要求十分高;而存储事务对可靠性诉求十分高,要求网络0丢包;通用核算事务规划大,扩展性强,要求网络低本钱、易扩展。

  企业数字化过程中将产生很多的数据,这些数据正在成为企业中心财物。经过AI技能从海量数据中发掘价值成为AI年代不变的主题。经过AI机器学习运用各种数据辅佐实时决议计划,已经成为企业经营的中心任务之一。与云核算年代比较,AI年代企业 数据中心 的任务正在从聚集事务快速发放向聚集数据高效处理改变。

  存储介质从机械硬盘(HDD)演进到闪存盘(SSD),来满意数据的实时存取要求,存储介质时延下降了不止100倍。

  为了满意数据高效核算的诉求,业界已经在选用GPU乃至专用的AI芯片,处理数据的才干进步了100倍以上。跟着存储介质和核算才干的大幅进步,在高功用的数据中心集群体系中,当时网络通讯的时延成为运用全体功用进一步进步的瓶颈,通讯时延在整个端到端时延中占比从10%上升到60%以上,也便是说,名贵的存储或核算资源有一半以上的时刻是在等候网络通讯。

  总的来说,跟着存储介质和核算处理器的演进,网络的低效阻止了核算和存储功用的发挥;只要将通讯时长下降到与核算和存储挨近,才干消除木桶原理中的“短板”,进步运用全体的功用。

  如下图所示,在服务器内部,因为TCP协议栈在接纳/发送报文,以及对报文进行内部处理时,会产生数十微秒的固守时延,这使得在AI数据运算和SSD分布式存储这些微秒级体系中,TCP协议栈时延成为最显着的瓶颈。别的,跟着网络规划的扩大和带宽的进步,名贵的CPU资源越来越地多被用于传输数据。

  RDMA(Remote Direct Memory Access)答应运用与网卡之间的直接数据读写,将 服务器 内的数据传输时延下降到挨近1us。一起,RDMA答应接纳端直接从发送端的内存读取数据,极大减少了CPU的担负。

  RDMA与TCP的比照 依据事务的测验数据, 选用RDMA能够将核算的功率同比进步6~8倍;而服务器内1us的传输时延也使得SSD分布式存储的时延从ms级下降到us级成为可能,(大众号:网络工程师阿龙)所以在最新的NVMe(Non-Volatile Memory express)接口协议中,RDMA成为干流的默许网络通讯协议栈。因而,RDMA替换TCP/IP成为大势所趋。

  在服务器之间的互联网络中,当时有两种计划来承载RDMA:专用InfiniBand网络和传统IP以太网络,但是,它们都存在缺乏:

  InfiniBand网络:架构关闭,选用私有协议,难以与现网大规划的IP网络完成很好的兼容互通;运维杂乱,专人运维,OPEX居高不下。

  传统IP以太网:关于RDMA来说,大于10-3的丢包率,将导致网络有用吞吐急剧下降,2%的丢包则使得RDMA的吞吐率下降为0。要使得RDMA吞吐不受影响,丢包率有必要确保在十万分之一以下,最好为无丢包。而拥塞丢包是传统IP以太网络的根本机制,传统IP以太网中会运用PFC和ECN机制来避免丢包,但其根本原理是经过反压下降发送端速度来确保不丢包,实际上并没有到达进步吞吐率的作用。

  在企业的数字化转型中,以金融和互联网企业为代表,很多的运用体系迁移到分布式体系上:经过海量的PC渠道代替传统小型机,带来了本钱低价、易扩展、自主可控等优势,一起也给网络互联带来了应战:

  Incast型流量(多点对一点的流量)会在接纳端构成流量突发,瞬间超越接纳端接口才干,构成拥塞丢包。

  跟着分布式体系运用杂乱度的添加,服务器之间交互的音讯长度越来越大,即流量具有“大包”特征,进一步加重了网络拥塞。

  从上一节来看,为了满意AI年代的数据高效处理诉求、应对分布式架构应战,0丢包、低时延、高吞吐成为下一代数据中心网络的三个中心目标。这三个中心目标是相互影响,有跷跷板效应,一起到达最优有很大的应战。

  一起满意0丢包、低时延、高吞吐,背面的中心技能是拥塞操控算法。通用的无损网络的拥塞操控算法DCQCN(Data Center Quantized Congestion Notification),需求网卡和网络进行协作,每个节点需求装备数十个参数,全网的参数组合到达几十万;为了简化装备,只能选用通用的装备,导致针对不同的流量模型,常常无法一起满意这三个中心目标。

  HCI(Hyper-Converged Infrastructure,超交融根底架构)是指在同一套单元设备中不光具有了核算、网络、存储和服务器虚拟化等资源和技能,而且多套单元设备能够经过网络聚合起来,完成模块化的无缝横向扩展(Scale—Out),构成一致的资源池。

  HCI将虚拟化核算和存储整合到同一个体系渠道。简略地说便是物理服务器上运转虚拟化软件(Hypervisor),经过在虚拟化软件上运转分布式存储服务供虚拟机运用。分布式存储能够运转在虚拟化软件上的虚拟机里也能够是与虚拟化软件整合的模块。广义上说,HCI既能够整合核算和存储资源,还能够整合网络以及其它更多的渠道和服务。现在业界普遍认为,软件界说的分布式存储层和虚拟化核算是HCI架构的最小集。

  与HCI不同,超交融数据中心网络只专心于网络层面,供给全新的核算、存储互联的网络层计划。运用超交融数据中心网络,不需像HCI那样对核算资源、存储资源进行改造和交融,而且根据以太网很简单完成成低本钱的快速扩容。

  华为公司根据多年数据中心网络成功实践的经历,面临动态流量和海量参数调整,提炼出不同的流量特征模型;在交换机中实时收集流量特征和网络状况,运用首创的iLossless智能无损算法,本地实时决议计划并动态调整网络参数装备,使得交换机缓存被合理高效运用,完成整网0丢包。在网络架构上,根据CLOS组网模型构建根据CloudEngine系列交换机的Spine-Leaf两级智能架构:核算智能和网络智能结合、大局智能和本地智能协同,一起打造无损低时延的数据中心网络。(大众号:网络工程师阿龙)

  别的,根据华为的智能剖析渠道iMaster NCE-FabricInsight,根据大局收集到的流量特征和网络状况数据,结合AI算法,对未来的流量模型进行猜测,从大局的视角,实时批改网卡和网络的参数装备,以匹配运用的需求。

  华为的超交融数据中心网络,根据敞开以太网,经过共同的AI算法,能够使以太网络一起满意低本钱,0丢包和低时延的诉求。超交融数据中心网络成为AI年代的数据中心构建一致交融的网络架构的最佳挑选。

  华为超交融数据数据中心网络有什么价值?传统的FC专网和IB专网,价格昂贵,生态关闭,且需求专人运维,也不支撑SDN,无法满意云网协平等自动化布置的诉求。

  运用华为超交融数据中心网络,据威望第三方测验EANTC测验定论,能够在HPC场景下最高下降44.3%的核算时延,在分布式存储场景下进步25%的IOPS才干,且一切场景确保网络0丢包。

  运用华为超交融数据中心网络,可供给25G/100G/400G组网,满意AI年代海量数据对网络大带宽的需求。

  数据中心出资中网络占比仅10%左右,相对服务器/存储的出资(占比85%),有10倍的杠杆效应,撬动服务器和存储出资的大幅下降;华为超交融数据数据中心网络能够带来25%的存储功用进步,40%的核算功率进步,将带来数十倍的ROI(Return On Investment)才干。

  华为超交融数据中心网络支撑SDN云网协同的全生命周期事务自动化,OPEX下降至少60%以上。别的,因为华为超交融数据中心网络本质上是以太网,因而传统以太网运维人员就能够办理,且能够依托华为智能剖析渠道iMaster NCE-FabricInsight,多维度地、可视化地对网络进行运维。

  上文说到,运用以太网来承载RDMA流量,现在运用的协议为RoCE(RDMA over Converged Ethernet)v2。华为超交融数据中心网络,运用iLossless智能无损算法构建无损以太网络,是一系列技能的合集,经过以下三个方面技能的相互配合,真实处理传统以太网络拥塞丢包的问题,为RoCEv2流量供给“无丢包、低时延、高吞吐”的网络环境,满意RoCEv2运用的高功用需求。

  流量操控是端到端的,需求做的是按捺发送端的发送速率,以便接纳端来得及接纳,避免设备端口在拥塞的情况下呈现丢包。华为供给了PFC死锁检测和死锁防备,提早防备PFC死锁的产生。

  为了更好地服务存储体系,华为供给了iNOF(Intelligent Lossless NVMe Over Fabric,智能无损存储网络)功用,完成对主机的快速管控。回来搜狐,检查更多


在线留言

在线客服