华为AI存储助力中国移动构建超大规模智算集群_hth华体会最新网站

HTH华体会体育
NEWS

公司新闻

首页 > 新闻中心 > 公司新闻

华为AI存储助力中国移动构建超大规模智算集群
日期：2024-12-22 00:28:44 | 作者：华体会最新地址

华为AI存储助力中国移动构建超大规模智算集群

大模型领域都会存在规模化定律，即大模型的性能深受模型参数量、数据集大小以及训练算力规模三要素的影响。生成式AI的运行主要基于深度学习原理，其发展离不开海量数据信息的投入。面对智算集群目前存在的可用度、推理体验等问题，华为推出业界首款AI存储——OceanStor A800，致力于成为支撑智算集群发展的关键基座。

近年来，智能计算慢慢的变成了推动社会持续健康发展进步的重要力量。从计算机视觉到自然语言处理、多模态等基础大模型研究，再到面向无人驾驶、生命科学等重点行业的专用大模型研发，各行各业都展示出对智能算力的巨大需求。

中国移动抢抓数字化的经济发展新机遇，立足自身资源禀赋和能力优势，以算为中心、以网为根基、以存为引擎，打造多种信息技术深层次地融合、可提供一体化服务的算力网络，对内满足“九天”人工智能大模型训练，对外面向千行万业提供一站式智能计算服务，加快发展新质生产力。

借助智算集群提供的服务，运营商行业加速数智化转型，可汇聚数百万个基站、数亿用户以及数百PB级历史数据，实现L4级网络无人驾驶；金融行业可对信贷申请进行快速处理，时间从原来的数天缩短到一分钟，甚至最快一秒钟就可以完成审批。

中国移动智算中心（哈尔滨）节点充分的利用中国移动（哈尔滨）数据中心软硬件优势、自然冷源地域优势，提前4个月攻坚完成3千多平方米机房的供电、制冷、建筑结构等重大调整改造，涉及5000多台设备、7万多根线多万个端口、千万级精密器件的大规模集群复杂施工。在30多个单位、千余人的协同支持下，历经7个月时间，超万卡规模智算集群建成，存力规模达150PB。

在智能融合分级存储集群的设计初期，中国移动面临几大挑战：在吞吐性能方面，万亿级参数大模型需要至少10TB/秒的吞吐量，而传统存储系统难以满足这一要求；在多协议处理方面，数据从归集到处理再到训练，涉及对象存储和文件存储的频繁转换，这对传统存储架构是一个巨大挑战；在数据管理效率方面，随着数据的动态变化，热数据与冷数据需要按需流动，传统系统主要依赖人工干预，效率较低。

为应对上述挑战，华为为中国移动提供AI数据湖解决方案，构建智算中心数据底座，实现聚合带宽8TB/秒，IOPS（每秒读写次数）达2.3亿。受益于AI数据湖高可靠、高性能等特点，大幅度降低集群故障概率，缩短了断点续训时间，使得90天单训练周期内GPU的等待时间从7天减少到2天。

华为推出AI数据湖解决方案，基于OceanStor AI存储和OceanStor Pacific分布式存储的诸多技术创新，可支撑千亿/万亿级参数大模型高效训练与推理。

大模型训练系统对算力需求很大，计算密度空前，对数据吞吐量的要求也与时俱增，要求达到传统应用的数十倍甚至百倍。对于存储来说，首先就是要快速将数据源源不断地投入大模型。

为最大程度发挥每块算力卡的“潜力”，华为OceanStor A800首创数控分离架构，让数据从接口卡直接传输到存储介质，避免CPU和内存等潜在的瓶颈，大幅度的提高存储带宽和IOPS能力。在2024年MLPerf TM存储基准性能测试比拼中，OceanStor A800荣登榜首，其2节点性能高达679 GB/秒。

面对训练过程中的海量数据汇聚与高效存储问题，华为AI数据湖解决方案构建了全局文件系统、无损多协议互通、EB级扩展以及热温冷数据智能分级存储等能力，用一套存储实现AI各阶段数据的免拷贝和格式免转换，加速数据价值释放，并实现整体拥有成本（TCO）最优。

大模型产品具有即时问答的“快思考”能力，让AI变得更“聪明”，就要使其具备逻辑梳理、应对变化的“慢思考”能力。

使AI具备“慢思考”的能力，重点是记录下AI推理过程中的每一次“思考”结果，使其再遇到相同的复杂问题时不要重新计算。专门记录大模型思考结果的存储被称为“长记忆内存型存储”，作为内存的扩展，以分级的方式实现月级/年级的记忆能力，甚至是“终生”记忆能力。

华为OceanStor A800是业界首款提供“长记忆”能力的存储，通过“多级键—值缓存（KV—Cache）机制”将所有的思考结果持久化保存并高效使用，让大模型推理具备“慢思考”能力，以减少大模型在预填充阶段的重复计算。如此，客户进行AI推理的时延可降低近八成，单个计算卡的吞吐量提升约2/3，可在实现推理体验提升的同时降低成本。

如今，智算中心正从千卡集群向万卡甚至超万卡集群演进。华为将与中国移动等企业持续深入合作，一起应对超万卡集群建设和运营带来的前所未有的挑战，抓住人工智能发展的历史机遇，打造自主创新的智算中心可靠数据底座。

华为推出AI数据湖解决方案，基于OceanStor AI存储和OceanStor Pacific分布式存储的诸多技术创新，可支撑千亿/万亿级参数大模型高效训练与推理。

大模型产品具有即时问答的“快思考”能力，让AI变得更“聪明”，就要使其具备逻辑梳理、应对变化的“慢思考”能力。

上一篇：应对 AI 时代的云工作负载开发者正加速向 Arm 架构迁移下一篇：国家标准！品高软件参与起草的《信息技术云计算参考架构》正式发布

在线留言

在线客服