当度过最初的兴奋、回归现实之时,许多从业者、开发者感到失落与迷茫,甚至对未来前景开始有所怀疑。
“因为人们总是高估技术的短期价值,却低估技术的长期价值。”在9月25日举办的2024百度云智大会上,百度创始人李彦宏指出。在他看来,大模型是一次颠覆式的技术革命,长期前景很乐观。
不过坦言之,大模型落地仍存在诸多挑战。在底层基础设施方面,科技大佬们“英雄所见略同”,从此前的万卡集群到近期讨论日盛的“十万卡集群”,“堆算力”成为共同选择。应用落地方面,今年以来大模型厂商掀起“价格战”,但单纯比拼降价幅度难言“触及灵魂”,开发者还有更多的应用开发需求。
如今,“十万卡时代”的临近,叠加大模型应用的序幕,云厂商能够扮演怎样的角色?
单点万卡集群,让生成式AI成为绝对头部玩家“权力游戏”的同时,也让大模型厂商承受着算力利用率低下、“停下即烧钱”的“难言之痛”。
9月初,特斯拉CEO埃隆·马斯克突然宣布,旗下人工智能初创企业x.AI打造的超级人工智能训练集群Colossus(巨人)正式上线 GPU,并将在未来几个月内继续增加10万颗GPU。
在日前结束的云栖大会上,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭指出,阿里的单网络集群已扩展至十万卡级别。
“很快就会有更多的十万卡集群出现。”9月25日,在2024百度云智大会上,百度集团执行副总裁、百度智能云事业群总裁沈抖判断称。
事实上,在大模型领域,拥有著名的第一性原理,即尺度定律(Scaling Law)。简单理解就是,随着模型大小、数据集大小和用于训练的计算浮点数的增加,模型的性能会相应提升,并且要想获得最佳性能,这三个因素需要同时放大。
这个定律仍在延续。据估算,自2012年以来,AI模型训练算力需求每3至4个月就翻一番,每年训练AI模型所需算力增长幅度高达10倍。因此也就不难理解,当前各大科技巨头进军“十万卡集群”的缘由。
“要部署十万卡的大规模集群,光是在物理层面就要占据大约10万平方米的空间,相当于14个标准足球场的面积。”沈抖透露,“在能耗方面,这些服务器一天就要消耗约300万千瓦时的电力,相当于北京市东城区居民一天的用电量。”
如此种种,对空间与能源提出了巨大需求,远超于了传统机房部署方式所可承受的范畴,跨地域机房部署成为不得已而为之的选择,但这又带来网络层面的巨大挑战。
与此同时,还有运维方面的难点。事实上,即便是当前的万卡集群中,运维的复杂性已飞速增加。根据Meta披露的研究多个方面数据显示,使用了1.6万张GPU的Llama 3.1训练持续54天,在此期间集群遭遇419次意外组件故障,平均每3小时发生一次。
而集群规模提升至十万卡,出现故障的概率无疑会更高。“大模型训练是一个庞大的单一任务,需要齐步走。一个节点出错,整个集群就得停下、回滚到上一个记忆点。”沈抖解释称,“每停一分钟,都是白白烧钱。”
在接受包括21世纪经济报道在内的媒体采访时,百度杰出系统架构师、百度智能云AI计算部负责人王雁鹏指出,2024年很多企业加大了在大模型领域的投入,但大家在大模型训练时遇到了一个共性问题,那就是算力利用率很低。“目前企业训练大模型的算力有效利用率不足50%,这在某种程度上预示着,一半以上的算力被浪费了。”
这也为“十万卡时代”的算力建设提供了另一种思路。除了大干快上“圈地”算力池之外,提升算力的有效利用率成为首选项。
百度所升级的百舸4.0平台,正是面向万卡、十万卡集群全方面提升算力管理能力。不仅在集群创建阶段可将万卡集群运行准备时间从几周缩短至1小时,还能够在模型训练阶段,通过AI算法判断集群状态“未雨绸缪”,和故障发生时实现秒级感知和定位进行快速处理,以此来实现接近无损的集群容错。此外,百舸4.0还可以通过一系列加速方法,实现模型推理的降本增效。
就此,沈抖给出了一组数据:目前在万卡任务上,百舸4.0可以保障有效训练时长占比达到99.5%,远高于行业内公布的相关指标;在集群的模型训练效率方面,百舸4.0整体性能比业界中等水准提升了高达30%;在模型推理方面,百舸4.0长文本推理效率提升超过1倍。
而面对十万卡集群,百舸4.0已经构建了超大规模无拥塞HPN高性能网络、10ms级别超高精度网络监控,以及面向十万卡集群的分钟级故障恢复能力。“百舸4.0正是为部署十万卡大规模集群而设计的。今天的百舸4.0,已经具备了成熟的十万卡集群部署和管理能力,就是要突破这些新挑战,为整个产业提供持续领先的算力平台。”沈抖指出。
考虑到GPU采购及运营的成本问题,提升算力的有效利用率,换个理解,就是省钱。
这与当前业界“不算眼前账”、“烧钱”降价带动应用爆发的思路不一样。有开发者向21世纪经济报道记者指出,过去一年内,大模型的降价更多是由平台补贴所致,但这并不能解决本质上的问题。
通过提升算力有效利用率,百度智能云正在持续降低模型调用成本。沈抖介绍,过去一年,文心旗舰大模型降价幅度超过90%、主力模型全面免费,最大限度降低企业创新试错的成本。
不过,相较于别的厂商而言,本次百度云智大会的重点显然并未落在降价身上,而是放在了推动大模型落地的需求满足方面。
沈抖透露,进入2024年,百度智能云的许多客户慢慢的开始将大模型落地在自身的生产力场景中。目前在千帆平台上,文心大模型日均调用量超过7亿次,千帆平台累计帮助用户精调了3万个大模型,开发出70多万个企业级应用。
“这不仅反映了千帆平台上大模型的调用量,也是过去18个月整个国内大模型产业高质量发展的一个缩影。”沈抖指出。
但在沈抖看来,这只是一个序幕。“我们始终相信,大模型给每个公司可以提供了平等的增长机会。不管企业大小、场景多少,谁先用起来,谁就抢占先机。”
具体而言,下游企业与开发者要真正用上大模型、用好大模型,离不开便捷、高效的大模型工具链和应用开发平台。就此,百度智能云发布千帆大模型平台3.0。
据介绍,升级后的千帆平台,不但可以调用包括文心系列大模型在内的近百个国内外大模型,还支持调用语音、视觉等各种传统的小模型。同时在模型开发方面实现数据、模型、算力等资源的统一纳管和调度,为公司可以提供一站式的大、小模型开发服务。
在应用开发方面,针对企业落地大模型的高频应用场景,千帆3.0从检索效果、检索性能、存储扩展、调配灵活性四方面对企业级检索增强生成(RAG)进行了全面升级;针对企业级智能体的开发,千帆3.0增加了业务自主编排、人工编排、知识注入、记忆能力及百度搜索等80多个官方组件支持。
众多AI应用的发展趋势,李彦宏直言最看好智能体,并将之视为PC时代的网站和自媒体时代的账号。
李彦宏表示,智能体最明显的特点是门槛足够低,谁都能上手,但同时天花板又足够高,能做出很复杂,很强大的应用。未来,将会有数以百万量级的智能体出现,形成庞大的智能体生态。
值得一提的是,在今年百度举办的“文心杯”创业大赛中,有超过60%参赛团队聚焦智能体的应用,超过30%参赛团队没有专业程序员。
不过,目前智能体还并非业界共识。“像百度这样把智能体作为大模型最重要的战略、最重要的发展趋势的公司并不多。”李彦宏坦言道。
目前,从绝对市场占有率来说,百度智能云并不算有优势。根据Canalys披露的最新数据,2024年第二季度,中国大陆云基础设施服务支出达到94亿美元,同比增长8%。阿里云、华为云和腾讯云继续主导市场,共占71%的市场份额。
不过从增速而言,百度云正在追赶中。在百度2024年第二季度财务报表电话会上,李彦宏透露,百度智能云在本季度营收达51亿元,同比增长14%,并持续实现盈利(Non-GAAP)。
相较之下,阿里云第二季度营收增长6%,华为云13%,腾讯云未直接披露收入增速。
之所以智能云可以在一定程度上完成超出市场的增长,与百度AI大模型能力密不可分。随着文心大模型及文心一言的发布,百度在AI领域进一步巩固、拓展了自身的优势领域。而生成式AI及大语言模型的能力,又转而增强了百度在云端的竞争优势。
因此也就不难理解,受益于大模型训练及推理需求等,百度智能云业务收入实现可观增长。根据百度方面披露的数据,今年二季度智能云收入中,AI贡献的收入占比逐步提升至9%,高于上一季度的6.9%。
根据IDC发布的《中国大模型平台市场占有率,2023:大模型元年—初局》显示,2023年中国大模型平台及相关应用市场规模达17.65亿元,百度智能云在2023年大模型市场规模达3.5亿元,位居市场第一,市场占有率达19.9%。
海通国际研报认为,百度此次云智大会展现了其在大模型赛道全线的能力。百度一直在持续迭代并巩固其行业领先的地位。尽管商业化前景尚不明确,但随着宏观经济好转,大模型大规模商用的时间节点到达,百度有望凭借其先发优势,在广告、智能体、模型训练推理、智能云部署方面率先获得增量收入。
以上内容与证券之星立场无关。证券之星发布此内容的目的是传播更多详细的信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关联的内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至,我们将安排核实处理。