咨询热线:4008-6044-55 | OA | E-mail
无损网络数据中心运用概述_通讯国际网
日期:2022-07-21 21:03:30 | 作者:华体会最新地址

  RDMA发生布景互联网中很多的在线事务,例如在线查找、购物、直播等,它需求以非常快的速度对高频率的用户恳求做出应对,数据中心内任何一个环节导致推迟,都会对终端用户的拜访体会形成极大的影响,然后影响其流量、口碑、活泼用户等。

  还有在机器学习和AI的技能趋势下,对核算才干的需求是呈几何级数上升的,为了满意日益杂乱的神经网络和深度学习模型,数据中心会存在很多的分布式核算集群,但很多并行程序的通讯推迟,则会极大影响整个核算进程的功率。

  别的为了处理数据中心内爆破式添加的数据存储和读取功率问题,运用以太网交融组网的分布式存储越来越遭到欢迎。但因为存储网络中数据流以大象流为主,所以一旦因拥塞形成丢包,将会引发大象流重传,不只下降功率,还会加重拥塞。

  所以从前端用户的体会和后端运用的功率来看,眼下关于数据中心网络的要求是:推迟越低越好,功率越高越好。为了下降数据中心内部网络推迟,进步处理功率,RDMA技能应运而生,经过答运用户态的运用程序直接读取和写入长途内存,而无需CPU介入屡次仿制内存,并可绕过内核直接向网卡写数据,完成了高吞吐量、超低时延和低CPU开支的作用。

  以数据中心当时干流的spine-leaf架构为例,其主要是2级、3级CLOS,少量或许到达5级、6级CLOS。而many-to-one流量模型和all-to-all流量模型,使得这种架构在未来数据中心新场景下存在丢包、时延、吞吐等多方面的应战。

  传统的TCP/IP软硬件架构及运用存在着网络传输和数据处理的推迟过大、存在屡次数据仿制和中止处理、杂乱的TCP/IP协议处理等问题。RDMA(Remote Direct Memory Access,长途直接内存拜访)是一种为了处理网络传输中服务器端数据处理推迟而发生的技能。RDMA将用户运用中的数据直接传入服务器的存储区,经过网络将数据从一个体系快速传输到长途体系的存储器中,消除了传输进程中屡次数据仿制和文本交流的操作,下降了CPU的负载。

  RDMA技能完成了在网络传输进程中两个节点之间数据缓冲区数据的直接传递,在本节点能够直接将数据经过网络传送到长途节点的内存中,绕过操作体系内的屡次内存仿制,比较于传统的网络传输,RDMA无需操作体系和TCP/IP协议的介入,能够容易的完成超低延时的数据处理、超高吞吐量传输,不需求长途节点CPU等资源的介入,不用因为数据的处理和搬迁消耗过多的资源。

  IB简介InfiniBand是一种依据InfiniBand架构的RDMA技能,它供给了一种依据通道的点对点音讯行列转发模型,每个运用都可经过创立的虚拟通道直接获取本运用的数据音讯,无需其他操作体系及协议栈的介入。InfiniBand架构的运用层选用了RDMA技能,能够供给长途节点间RDMA读写拜访,彻底卸载CPU作业负载;网络传输选用了高带宽的传输;链路层设置特定的重传机制确保服务质量,不需求数据缓冲。

  InfiniBand有必要运转在InfiniBand网络环境下,有必要运用IB交流机及IB网卡才可完成。

  RoCE简介RoCE技能支撑在以太网上承载IB协议,完成RDMA over Ethernet。RoCE与InfiniBand技能有相同的软件运用层及传输操控层,仅网络层及以太网链路层存在差异。

  ·RoCE v1协议:依据以太网承载RDMA,只能布置于二层网络,它的报文结构是在原有的IB架构的报文上添加二层以太网的报文头,经过Ethertype 0x8915标识RoCE报文。

  ·RoCE v2协议:依据UDP/IP协议承载RDMA,可布置于三层网络,它的报文结构是在原有的IB架构的报文上添加UDP头、IP头和二层以太网报文头,经过UDP意图端口号4791标识RoCE报文。RoCE v2支撑依据源端口号hash,选用ECMP完成负载分管,进步了网络的运用率。

  RoCE技能可经过一般以太网交流机完成,但服务器需求支撑RoCE网卡,网络侧需求支撑无损以太网络,这是因为IB的丢包处理机制中,恣意一个报文的丢掉都会形成很多的重传,严重影响数据传输功用。

  3 构建无损以太网数据中心RoCE在RoCE网络中,咱们需求构建无损以太网用于确保数据中心网络传输进程中不丢包。构建无损以太网需支撑以下要害特性:

  RoCE交融InfiniBand的低时延与以太网的简略和向后兼容,完成零丢包、低时延、大带宽

  PFC是构建无损以太网的必选手法之一,能够逐跳供给依据优先级的流量操控。设备在进行报文转发时,依据报文的优先级进入对应映射联系的行列中进行调度转发。当某一优先级报文发送速率超越接纳速率,导致接纳方可用数据缓冲空间缺乏时,设备经过PFC PAUSE帧反馈给上一跳设备,上一跳设备收到PAUSE帧报文后中止发送本优先级报文,直到再收到PFC XON帧或经过必定的老化时刻后才干康复流量发送。经过运用PFC功用,使得某种类型的流量拥塞不会影响其他类型流量的正常转发,然后到达同一链路上不同类型的报文互不影响。

  ECN是构建无损以太网的必选手法之一。ECN界说了一种依据IP层及传输层的流量操控及端到端拥塞告诉机制。ECN功用运用IP报文头中的DS域来符号报文传输途径上的拥塞状况。支撑该功用的终端设备能够经过报文内容判别出传输途径上发生了拥塞,然后调整报文的发送方法,防止拥塞加重。

  DCBX是完成无损以太网传输的要害手法之一,用于DCE中各网络单元进行桥才干洽谈以及长途装备。经过DCBX,交流机之间以及交流机和网卡之间能够洽谈和自动装备DCB参数,以完成简化装备以及确保装备一致性的意图。

  ETS是依据优先级组的带宽分配处理,ETS用于完成许诺带宽。设备经过ETS参数与对端进行洽谈,操控对端指定类型数据的发送带宽,确保其在接口的许诺带宽规模之内,然后不会因流量拥塞而导致数据丢掉。

  为了防止拥塞丢包,需求在Leaf与Spine之间布置PFC流控技能,一起,Spine设备也需求支撑依据拥塞的ECN符号;

  Leaf作为服务器网关,支撑和服务器之间依据PFC的流量操控,一起支撑拥塞ECN符号;为了进步吞吐量,需求在服务器网卡支撑DCQCN,将发送速率调整到最优;

  全网设备布置PFC、ECN,依据事务特征合作可视化技能,SDN操控器依据事务流量特征完成水线调优,为网络的安稳运转供给无损保证;

  RDMA网络正是经过在网络中布置PFC和ECN功用来完成无损保证。PFC技能让咱们能够对链路上RDMA专属行列的流量进行操控,并在交流机进口(Ingress port)呈现拥塞时对上游设备流量进行反压。运用ECN技能咱们能够完成端到端的拥塞操控,在交流机出口(Egress port)拥塞时,对数据包做ECN符号,并让流量发送端下降发送速率。

  从充分发挥网络高功用转发的视点,咱们一般主张经过调整ECN和PFC的buffer水线,让ECN快于PFC触发,即网络仍是继续全速进行数据转发,让服务器自动下降发包速率。假如还不能处理问题,再经过PFC让上游交流机暂停报文发送,尽管整网吞吐功用下降,可是不会发生丢包。

  在数据中心网络中运用RDMA,不只要处理转发面的无损网络需求,还要重视精细化运维,才干应对推迟和丢包灵敏的网络环境。


在线留言

在线客服