中国信通院王少鹏等：数据中心无损网络要害技能研讨_通讯国际网_hth华体会最新网站

中国信通院王少鹏等：数据中心无损网络要害技能研讨_通讯国际网
日期：2022-07-24 10:36:29 | 作者：华体会最新地址

　　（CWW）各种运用程序、数据的指数级添加，以及云服务的快速遍及等要素，导致由孤立的单体体系构成的传统根底架构变得过期。根底架构的交融成为数据中心的底子改动，交融或超交融根底架构应运而生，其将核算、存储、网络和虚拟化组合构建成一个一致架构，以便简捷高效地装备和横向扩展。在网络方面，以太网成为现代数据中心实践选用的互联办法。依据以太网的一致网络架构用于传输各种类型的通讯流，为这种交融奠定了根底。虽然这种一致和交融式网络有着许多长处，但也带来了新的应战。

　　因为传统数据中心网络在数据传输中采纳“尽力而为”的办法，以太网络是“有损”的。当以太网络发生拥塞时，数据包会被丢掉，然后由上层（如TCP中的从头传输）确保数据的完整性。在从头传输的情况下，这些数据包一般不按次序抵达意图地，然后需求从头排序。跟着数据流会聚到以太网络上，这种从头传输和从头排序将导致运用程序的功能严峻下降[1]。考虑到交融性质，这种景象还或许会导致网络上的其他数据流的运用功能下降。因而，需求一套办法来确保流量在以太网网络上完成无损传输。

　　无论是构建公有云，仍是用作企业云服务的私有数据中心，都需求处理一组常见的问题：怎么为快速改动的环境构建一个高度灵敏的组网，以承载多种类型的流量，然后使网络可以最小化，乃至消除丢包丢失；在供给高吞吐量的一起，坚持低推迟。数据中心盛行的CLOS网络架构经过等价多途径完成无堵塞功能，并具有弹性，交流机之间的衔接办法使其具有可扩展、简略、标准和易于了解等长处[2]。在CLOS网络中，机架顶部的交流机被称作叶交流机，它们衔接在被当作中心的脊交流机上。叶交流机之间互不相连，而脊交流机只与叶交流机衔接。现在，数据中心现已选用了许多技能，企图处理拥塞操控问题。虽然拥塞操控有所改善，但仍不能为往后的运用场景供给无损的网络，以下问题依然存在。

　　经过散列流标识符来挑选途径，这样的做法很简洁，但短少考虑途径自身是否拥塞。如图1所示，很简略发生多个流被散列到相同的途径上的情况，然后导致链路过载。此外，流量的巨细一般呈双模态散布：大多数的流是老鼠流，而大部分传输字节则来自大象流。ECMP挑选途径时不会考虑流量的巨细，而对ECMP的改善应该触及挑选途径时的拥塞感知和细粒度的流量负载均衡。

　　大型的网络具有更多的跳数，因而ECN操控回路的往复时刻（Round-Trip Time，RTT）会更长。大型的网络也会支撑更多的数据传输，在ECN收效前很难处理突发流量。经过添加交流机缓存去处理突发流量是不可取的，因为这样不只会添加本钱，也会添加那些正常流的排队时刻。端到端的拥塞操控对有序的网络至关重要，但为确保网络可以有用地防止丢包丢失，额定的协助也相同重要。

　　PFC是一种防止丢包的技能，但这一技能应该作为最终的手法运用。当交流机的某一个出口发生拥塞时，数据被缓存到备份里，并一起调用PFC。因为PFC会阻挠特定等级的一切流量，所以流向其他端口的流量也有或许会被隔绝,这种现象被称为队头堵塞。为了防止队头堵塞，很有必要去尽早辨认引起拥塞的流，并供给针对流特征（一般引起拥塞的流一般是大象流）的拥塞缓解技能。

　　队头堵塞或许会引起上游的额定堵塞。因为PFC阻隔了一切流，包括那些发往没有拥塞途径的流。这使得一切流有必要在上游交流机处排队，发生的行列延时反过来又会引起上一个上游交流机的拥塞。假如上游交流机的缓存被填满，一个新的PFC信息会被调用并发送到网络，循环往复，构成更多的队头堵塞和拥塞现象，这被称为拥塞分散。

　　CLOS架构在未来数据中心新场景下存在丢包、时延、吞吐等多方面的应战，这些应战首要来自many-to-one流量模型和all-to-all流量模型。流量模型many-to-one有时候也被称为Incast流量模型。在高度并行的云运用中，Incast是一个很自然发生的现象，它被证明是数据中心大部分丢包发生的原因。

　　数据中心里的运用和存储架构需求不断地进化，以满意日益添加的对实时和交互的数字技能的要求，业界干流抢手的运用场景均对数据中心提出了越来越高的要求。

　　在线数据密集型服务和线下的通讯（如MapReduce核算）之间最底子的差异在于，在线数据密集型服务需求对高速率涌进的恳求做出当即答复。对此，推迟是一个要害问题，终端的用户体会高度依赖于体系的呼应，即使是一个少于1 s的适度延时也会对个人查询以及相关的广告收入带来可观的影响。并且运用云作为决议计划源和信息源的体系先天性地具有一大部分不可防止的延时，这给数据中心的内部呼应时刻带来更大的压力。为了处理推迟问题，在线数据密集型服务将单个恳求一起分配布置在几千个服务器上，并把这些服务器的呼应进行协谐和叠加以构成最优的引荐和答案。

　　深度学习是机器学习的一个分支，人类日常日子中的语音辨认和图像辨认由大型神经网络掌控，经过对百万级，乃至十亿级参数的练习构成模型，并集成到在线服务中。一旦模型树立，一些杂乱的任务例（如交际网络过滤、诈骗和反常辨认等）都可以毫不费力地被履行。深度学习网络也可以被笼统成一个有百万量级神经元互联的大脑，网络的规划越大、模型参数越多，网络的作业体现一般会越好。现如今的深度学习网络可以具有数十亿级的参数和百万级的互联。

　　深度学习模型不断地被练习和优化，伴跟着这一持续进程的一个应战是昂扬的通讯本钱。许多的数据不断地被同享，假如发生同步延时，核算进程就会被推迟，而网络一般被以为是引起延时的原因。在练习进程中，网络里运用的练习服务器先六合存在Incast问题，因为集群几乎是在同一时刻回来效果，Incast场景会导致在衔接参数服务器的交流机处发生拥塞，然后带来丢包丢失和同步延时。因为更多的节点需求更多的通讯恳求，所以更多的并行处理或许会添加延时，添加网络拥塞。在网络有损情况下，数据复制会引进推迟颤动、拥塞丢包等功能丢失，构成处理器闲暇等候数据，并连累全体并行核算功能，导致无法经过简略添加处理器数量来进步全体核算功能。

　　Non-Volatile Memory Express（NVMe）是一种存储通讯接口和标准，它依据固态硬盘（Solid-State Driver，SSD）供给了一套低推迟、内部并发化的接口标准。NVMe快速牢靠的特色非常适用于未来云数据中心的高并行环境。全闪存阵列（All-Flash-Arrays，AFA）需求NVMe拜访网络，因而需求极低的推迟，以构成竞赛优势。

　　在交融根底架构数据中心中，NVMe over Fabrics被指定依据UDP运行在RoCEv2上，或许依据TCP运行在iWARP上。当网络检测到拥塞时，ECN指示符会被符号在数据包上，接纳端收到后就会告诉发送端下降发送速率，以防止丢包丢失。假如信息的往复时刻太长，丢包丢失依然不可防止，而丢包则需求从头传输，这将严峻下降NVMe存储的拜访速度。依据有损网络的存储云化，因为网络存在拥塞丢包、推迟颤动、毛病倒换而严峻影响NVMe存储云化的作用。

　　为了使大规划云服务能满意实时交互的推迟要求，运用和存储有必要分而治之。现在，有太多的数据需求处理，而数据的真实价值在于能否快速地被提炼出有用的信息。高功能散布式并行核算，本质上是网络功能要向内存拜访看齐（见图3）。在有损网络下，数据复制会引进推迟颤动、拥塞丢包等功能丢失，构成处理器闲暇等候数据，并连累全体并行核算功能，导致无法经过简略添加处理器数量来进步整体核算功能。散布式体系里的并行性取决于同步信息和参数散布，信息传递时，因为Incast和混乱流，网络流量模型会先天性地引起拥塞，假如不加以管控，拥塞就会导致网络的全面丢失：丢包丢失、推迟丢失和吞吐丢失。

　　高功能传输技能的发生，40 G/100 G/400 G以太网和RDMA等高功能的网络技能的快速展开，可以很好地代替原先贵重的专属存储网络。怎么运用网络将核算资源和存储资源结合起来，并进行一致的办理和协同操作，供给具有低时延和高带宽的互联网络，关于进步资源运用功率和满意运用程序的功能需求具有重要的实践意义。

　　在曩昔的很长一段时刻内，CPU的展开速度是一般机械硬盘的几十万倍，关于低速的存储介质磁盘来说，存储网络带来的影响相对不明显。因而，在低速存储盛行时期，集中式的存储布置架构被广阔企业所承受，并坚持很长时期的首要位置。近年来，“软件界说”概念的鼓起，闪存技能的运用，正在改动这一趋势。Server SAN可以用标准的x86服务器和高速通用网络来建立完成一个更高性价比的体系。

　　Server SAN的网络比较于传统存储网络具有更高的要求，如在时延和带宽上要可以合作存储的需求，减小处理器到存储的时刻。运用现有的技能，经过组成各种子网的办法，如高功能子网、大数据子网和元数据子网等，可以很好地满意不同事务的需求。Server SAN的需求也推动了网络技能的快速展开，从低延时、高带宽的传输网络，到智能网卡的呈现以及交融网络技能的展开。可是，大型的网络企业更多地期望可以运用现有的低本钱的网络技能来处理网络传输进程中遇到的功能瓶颈问题。

　　现在市道上有许多不同架构的交流机，假如这些交流机的进口端和出口端短少和谐，那么将很难用这些交流机去建立一个无损的网络环境。一般路由器会在进口行列选用PFC机制，也便是当进口端的缓存区存满时，PFC会被激起并反响到上游附近交流机[3]。但是，在Incast场景中，因为短少进口端和出口端之间的和谐，在进口端的各个行列抵达阈值之前，出口端的行列就现已溢出。

　　虚拟输入行列（Virtual Input Queuing，VIQ）是一种和谐出口端可用资源和进口端需求资源以用来传输数据的办法。运用VIQ，出口端将可用缓存奉告进口端，以防止交流机内部带来的丢包丢失，数据包可以自然地备份在进口端处，假如需求，PFC也可以适当地被选用。VIQ可以被笼统成一种模型，也便是在进口端有一个和谐一切进口端的专有行列，用于公正地、有计划地去同享运用脱离交流机的流量。VIQ具有防止交流机内部因为拥塞所引起的丢包丢失的长处。此外，VIQ建模可以使流量公正有序地脱离交流机，是完成无损的根底之一。

　　网络拥塞会引起数据包在网络设备中排队乃至导致行列溢出而丢掉，是导致网络高动态时延的首要原因。网络拥塞从本源上可以分为两类，一类是因为流量调度不均引起的拥塞，另一类是对网络或接纳端处理才干过度订阅（或称“超卖”）。前面所说的ECMP抵触归于前者，Incast拥塞归于后者。拥塞操控技能依据其应对拥塞的机遇不同，可以分为被迫拥塞操控和自动拥塞操控两类。

　　被迫拥塞操控包括传统TCP拥塞操控技能，如CUBIC[4]，数据中心中改善的TCP拥塞操控技能如DCTCP[5-6]，运用于RDMA协议的拥塞操控技能如DCQCN、Timely[7]，交流机进行拥塞反响的拥塞操控技能如 QCN[8]等。虽然它们拥塞反响的办法不同，有些是依据丢包，有些是依据ECN，有些是依据时延，但一个一起的特色是发送端依据网络的拥塞反响信号，对发送速率进行调理。这类技能因为完成简略、易于布置被广泛运用，但一般被以为存在拥塞反响滞后、操控回环时刻长、简略引起吞吐率振动、速率收敛慢、误伤老鼠流等问题，因而有很大的优化空间。

　　自动拥塞操控是相对比较新的拥塞操控技能，老练的运用还比较少。首要技能是网络设备或承受端直接主张或辅导发送端发送速率的办法，比方RCP（Rate Control Protocol）[9]，接纳端驱动的依据诺言的速率操控技能等。自动拥塞操控能有用处理被迫拥塞操控拥塞反响滞后和速率收敛慢等问题，一起也给处理Incast拥塞等网络恶疾带来了曙光。自动拥塞操控技能展示了处理拥塞问题的新思路，是有远景的新式拥塞操控技能，但也存在精确主张速率确认困难，完成机制相对杂乱，引进额定的信令开支等问题。

　　值得注意的是，被迫拥塞操控和自动拥塞操控并不是两类互斥的技能，它们存在优势互补，可以结合运用。数据中心无损网络对这两类技能各自的优化研讨和它们之间的组合研讨提出了需求。动态虚拟通道（Dynamic Virtual Lanes，DVL）是拥塞阻隔的一个东西，拥塞阻隔可以消除因过度运用PFC所构成的队头堵塞。DVL辨认出引起拥塞的流，并把它们阻隔到独自的流量类别，然后向上游街坊发送信号让它履行相同操作。比较于端到端的操控环路需求必定时刻才干收效，DVL可以有用地将拥塞暂时移开。

　　图4描绘了DVL的施行进程。当流量在交流机的出口端发生抵触时，该办法会检测到抵触并辨认违规流，来自违规流的后续数据包将被引向一个拥塞流的专有行列（即被有用地移出），一旦拥塞流行列抵达阈值，DVL将会向上游附近交流机发送拥塞阻隔包（Congestion Isolation Packet，CIP）。CIP包括满足的信息可以让上游交流机辨认出该拥塞流，上游交流机相同也会阻隔该拥塞流，并监控拥塞流行列的深度。来自拥塞流的数据包被传输的优先级要低于非拥塞流行列，假如拥塞一向持续，拥塞流行列就会被填满，在这种情况下，选用DVL的交流时机运用VIQ去和谐拥塞流行列和进口端。一起，当拥塞流行列填满时，进口端也会宣布PFC以防止丢包。流量操控只会堵塞拥塞流行列，而其他未拥塞的流量则可以由非拥塞流行列自在经过。

　　在以Clos架构为代表的网络架构中，因为源节点和意图节点间有多条途径，因而存在两节点间的流量怎么在多条途径上分发的问题，即负载均衡问题。如前所述，流量调度不均是引起网络拥塞的一大重要本源，因而负载均衡技能一向是业界重视的要点技能[9]。

　　负载均衡技能存在丰厚的规划空间，首要可以从三个维度去考虑：第一个维度，集中式仍是散布式。前者易于完成并简略取得大局信息，但存在扩展性和操控回环时延大的问题；后者完成相对杂乱，但可扩展性好。第二个维度，网络情况无关仍是网络情况感知（拥塞感知）。前者完成简略，但难以习惯网络情况的改动；后者能及时感知网络拥塞的改动，做到自习惯的负载均衡，但完成杂乱度高且存在拥塞丈量困难和滞后的问题。第三个维度，流量调度的粒度。从大到小，存在流、Flowlet、Flowcell、包等不同的流量调度粒度，在封闭体系中乃至还有更小的以Cell为单位的流量调度。流量调度粒度越小，流量分发越均匀，但小粒度的流量调度简略带来数据包乱序的问题，然后对要求确保次序的传输协议的功能发生影响。

　　对上述维度的不同挑选和组合，发生了一系列的负载均衡技能计划，比方ECMP、Hedera、CONGA等。但跟着网络速率的进步，时延的下降，流量动态性的增强，大象流抵触、操控回环时刻太长等问题越来越杰出，越来越需求更细粒度、反响更快、能习惯网络负载动态改动的负载均衡技能。本文提出负载感知逐包负载均衡技能（Load-Aware Packet Spraying，LPS），它是一种散布式、以包为调度粒度、拥塞感知的负载均衡技能，可以完成细粒度负载均衡，且不引进包乱序。经过LPS，两个ToR（Top of Rack）交流机之间的流量会依据丈量到的各途径拥塞程度，以包为粒度均匀地分发在多条途径上，并在抵达意图ToR时进行重排序。

　　与传统的ECMP技能比较，LPS有三大优势：一是流量分发更均匀。LPS以包为粒度进行细粒度的流量分发，有用防止了大象流抵触，然后可以大幅度地进步流量的吞吐率和网络的运用率。二是自习惯。LPS能依据网络途径拥塞情况，快速调整流量分发途径，然后习惯网络负载改动。三是低网络排队时延。LPS均匀分发和自习惯网络负载改动的才干，可有用下降网络拥塞，削减网络排队，然后有用地减小端到端传输时延。

　　以数据传输服务为中心，无损网络或将再进一步进步数据中心数据传输速率。长途直接数据存取（Remote Direct Memory Access，RDMA）技能经过运用程序直接读取或写入长途内存，防止操作体系、协议栈的介入，然后完成数据愈加直接、简略、高效的传输，大幅削减数据传输进程中所需的时刻。而该技能在数据传输进程中，需求尽或许地确保网络是无损的。未来无损网络可与RDMA技能调集，促进数据在不同设备间的高效传输，在完成数据中心网络无损的前提下，更进一步进步数据中心网络的数据传输速率。

　　网络虚拟化与无损网络结合，确保虚拟化场景下运用对网络功能的需求。近年来，软件界说网络作为网络虚拟化的重要完成办法之一，相同备受业界重视。但是，虚拟网络并不是无损网络，仍有或许存在丢包的问题，然后不能很好地支撑现有数据中心的典型运用与场景需求。未来，无损网络或许与网络虚拟化相结合，使得数据中心网络一起兼具虚拟化与无损的长处。

　　进步数据中心网络功能，让网络更好地运用于数据中心，支撑数据中心事务展开是职业一起的方针与任务。现在，IEEE、CCSA和ODCC等国内外集体在数据中心无损网络方面现已展开了许多标准化作业，IEEE发布了技能白皮书《The Lossless Network for Data Centers》、CCSA发布了通讯职业标准YD/T 3902《数据中心无损网络典型场景技能要求和测验办法》、ODCC发布了《无损网络技能与运用白皮书》《无损网络测验标准》等效果，一起华为、Mellanox（已被Nvidia收买）和思科等厂商均推出了相关的产品。后续需求持续会聚职业力气，加速无损网络产业化进程，让无损网络更好地服务于数据中心的展开。

上一篇：中国电信互联网数据中心（IDC）事务介绍下一篇：贵州支撑数据中心抢占算力制高点

在线留言

在线客服