咨询热线:4008-6044-55 | OA | E-mail
思享家 噩梦不再美梦成真—数据中心智能自动运维
日期:2022-08-22 10:32:18 | 作者:华体会最新地址

  是一个介绍怎么运用思科先进技能处理客户难题的栏目。每期聚集一个技能热门或运用场景,约请资深思科技能专家浅显易懂地介绍,为读者供给实用性强的主张。

  在上一期 《 思享家 网工历险记 》中咱们为解救网工们的头发,祭出了个大杀器 根据目的的自动运维体系,并小试牛刀,轻松处理了网工们头疼的 “ 鬼魂丢包 ” 问题。详细来讲,这个架构长得这个姿态:

  左半部分下方是由自动化引擎构成的自动化层,它根据必定战略从杂乱的多云根底架构中搜集满足的现场数据供给它的上一层 由洞见引擎构成的洞见层,后者对数据进行处理、剖析和判别,辅佐人类做出正确的决议计划( 咱们称为 “ 目的 ” )。这些目的或许是对数据搜集战略的调整,也或许是直接完结某个自动运维的方针,总之在构成后都会被发送给下面的自动化层,它们被转换为详细的履行战略,由自动化引擎驱动履行,并一起持续搜集数据反馈给洞见层完结状况监控,然后终究构成一个不断自我优化的闭环。“ 鬼魂丢包 ” 问题便是通过自动化层的 AppDynamics Agent 探针搜集了许多数据,在洞见层的洞见引擎 AppDynamics 对这些数据剖分出运用结构和结构内每一层运用体会的定量化目标,终究找到导致端到端体会恶化的准确方位( 即 “ 确诊目的 ” ),再交给自动化层的自动化引擎 ACI APIC 控制器进行底层精细化监测和确诊,然后终究捕获鬼魂丢包首恶。

  其实咱们看到这个比方中 ACI APIC 的故障确诊东西箱内仍是传统的端口计数、过失计算、Traceroute 等,但有了洞见层清晰的确诊目的加持,马上功力倍增,瞬间搞定了传统要几天才干处理的难题。假如能把自动化层搜集数据的手法进一步晋级,比方引进大数据搜集手法;把洞见层处理和剖析数据的手法晋级为大数据分布式处理、机器学习和人工智能,那会是一幅什么图景呢?不必凭空幻想,由于这便是 Cisco 智能自动运维体系 Nexus Insights 。

  自动化层为什么要加持大数据呢?咱们常常把网络流量比喻为道路交通( 在英语里乃至是同一个词 Traffic ),那发现网络反常就相当于交警查看交通违章。传统搜集数据的手法往往是一个搜集器轮番搜集网络节点数据,或许宣布勘探包沿线勘探( 比方 ping、traceroute 等),这就比方交警轮番到路口查看闯红灯和超速,或许骑着摩托在路上巡查,撞见了就抓、撞不见也没什么办法。在网络世界中也相同,在搜集器轮询的空地、勘探包之间的距离以及勘探包没能掩盖的途径上,处处都有或许存在导致用户体会恶化的瞬断、丢包,突发拥塞、推迟和颤动,也就像没能亲临现场的差人漏掉交通违章相同被搜集器漏掉了。这种由搜集器方主张的数据搜集形式被称为 “ 拉取 ”( Pull )。

  更高效的数据搜集办法必定是 “ 推送 ”( Push )而非 “ 拉取 ”( Pull )。幻想一下不靠交警亲临,而是一切车辆和路口都设置摄像头,并实时自动对外陈述交通状况会是一种什么局面?必定是任何违章都逃不过高眼。所以有必要要想办法让每一个用户数据包( 车辆摄像头 )、每一个网络交换机( 路口摄像头 )都向外陈述,这种运用带内数据包和带内网络设备自动推送( Push )的数据搜集手法,又称为带内网络遥测( In-band Network Telemetry,INT )。当然价值便是数据量相当大( 所谓 “ 大数据 ” ),但咱们因此取得的是全时全场景信息,能为洞见层供给全真的场景重现。

  云根底架构单端口现已演进到了 400G ,要想不影响事务数据流而又逐包的完结全场景重现,就有必要依托设备的硬件转发芯片。也便是说,不管厂商宣扬的软件网管渠道多么酷炫,它的交换机的硬件决议了这个舞台的天花板。因此出名的交换机、路由器和 NIC 硬件开源规范安排 P4()对数据平面 INT 做了功用界说和分类:

  没耐性看完本技能宅唠叨的小伙伴记住上面这三幅图就可以点赞回家了 ( 手动狗头 ),但要想洞悉各厂数据中心交换机内部玄机,仍是需求耐性看完本文。

  在用户的实践事务数据包内嵌入监控信息,即所谓 Embed( 嵌入 )办法,就比方在路上跑的一切车都加上摄像头,是最直接的搜集途径状况的办法。但途径信息要想都嵌入进去,势必会由于附加的推迟、MTU 乃至安全问题而不能被用户承受,所以分化出两种处理计划:直接对用户数据包着手,但不碰负载,而是只动包头的封装,当然包头字段也只够嵌入监控信令或指令,这称为 eMbed instruct(X)ions( MX );另一个计划是彻底不触碰用户数据包,而是仅将用户数据包头独自仿制而构成一个新数据包,由于这个包的包头和用户数据包头相同,因此可以和用户数据流齐头并进,一起它每通过一跳,就把相应的信息以一段段 Metadata 的办法挂在包头后边,就像火车车皮,越走挂的越多,最后到结尾把一切 Metadata 卸下来封装到地道内发给搜集器,这称为 eMbed Data(MD)。MD 不是在用户车内装摄像头,而更像是让狗仔队盯梢,一路走一路拍。

  小伙伴们必定关怀哪一个最好用,惋惜工程上没有完美的技能,它们各有优缺点。MX 的长处是十分轻量化,无须附加流量就可以无抽样的监测每一个用户数据包,但包头字段能带着的信息很有限,只能附加一些信令或指令,因此需求整个网络体系与之合作才干完结相应功用,灵活性和扩展性受限。

  MD 能带着许多信息,所以功用扩展强壮,但工程上也有许多问题,比方要用多高的频率仿制用户数据包头呢?1:1 仿制相当于把网上负载增加一倍,太稀少的抽样又导致不能反映用户数据流瞬间的真实情况,相当于狗仔队跟丢了。别的带着信息的功率也是问题,网络反常产生的方位和时刻十分随机,假如很长时刻没有改变,而每一个包都带着着许多彻底没什么改变的状况就显得十分糟蹋,而一些反常忽然产生却不必定刚好有数据包通过,会耽搁信息的搜集,所以要想全面搜集信息,硬件资源投入就十分巨大,这一起也带来的第三个问题,即硬件完结难度。当时干流商业芯片厂商只在十分高端的芯片上做了部分完结,但即便是这样,为了平衡本钱和杂乱度,在需求最杂乱操作的进口和出换机仍是无法全硬件化完结,全时全景信息捕捉很简单形成资源过载,许多厂商不主张全时敞开,致使 MD 功用名存实亡。

  Cisco 的工程完结要比 P4 的规范分类早许多,比方早在第一代 ACI 开端就现已广泛布置的 Atomic Counter 其实便是一种 MX 的完结。运用 VXLAN 发明者和自研 ASIC 转发芯片的优势,Cisco 在 VXLAN 封装的头部设置了特别的比特位用于传递 MX 的信令,又凭借 Nexus 系列交换机在全体硬件规划上的优势完结了硬件化的 PTP( 高精度时刻同步协议 )和皮秒级时刻戳封装才干,使得用户进行正常事务流传输的一起,就在极为准确的丈量一切端到端途径上每一个包的推迟、颤动和丢包,并把信息按每 30 秒为届进行聚集,陈述给自动化引擎( SDN控制器APIC ),整个进程在 ASIC 上完结,用户毫无感知,像是运行在 ACI 上的用户事务流与生自带的特性相同。某大型闻名互联网渠道便是运用这个特性,亲近监控其最要害的数十个端到端数据流健康状况( 主要是Proxy/LoadBalancer ),只需推迟、颤动和丢包数超越阈值,就会在 ACI 控制器对应的运用健康分值上减去相应分数( 对,由于 ACI 控制器有这样的运用健康分值核算功用,其实它也是一个很好的洞见引擎 )。

  在 MD 方面,Cisco 两年前就在其 Nexus 3000 系列 400G 渠道上以纯硬件办法完结了完好的 MD 功用,MD 功用不再名存实亡。而一些用户广泛运用的商业芯片,估计要到 2022 年左右开端才干供给相似全硬件完结的功用。但不管选用 MD 的哪种挑选,端到端交换机的产品形状都会是单芯片 12.8T 以上、端口带宽 400G 的渠道,这在近几年内对绝大部分企业的柜顶接入交换机都不太或许成为实际。

  那么问题来了,假如用户需求超出了 MX/Atomic Counter 规则的功用( 比方需求知道详细的丢包、推迟的方位和原因 ),而一般企业又无法短期内端到端布置能供给更详细信息的 MD 办法,有没有一种功用强壮但一起又满足轻量化、性价比高到能端到端布置的带内遥测计划呢?


在线留言

在线客服