咨询热线:4008-6044-55 | OA | E-mail
AI算力专题学习笔记
日期:2024-08-19 06:17:28 | 作者:华体会最新地址

  

AI算力专题学习笔记

  (个人学习笔记,资料来源于不严谨的新闻以及各种研究报告,有自相矛盾的观点和信息也都会记录,分类、标题也都有提升空间)

  a) 计算机行业此前的发展模式一直是硬件先行,软件后行。而这一次人工智能最大的不同在于,这可能是一个由软件创新引领硬件创新的一个时代性的拐点。国内当前处于人工智能预热期,而美国因为ChatGPT的广泛使用已经处于市场启动期。硬件性能与软件要求的性能及下游需求首次呈现缺口

  b)现在要做大模型的话,训练和推理对高配卡的需求大幅度的增加,低配卡在显存上都不能满足需求;

  c)另一方面需要提高存储力,一秒内尽量出30、40个任务的存储力,这样就可以服务于更多的用户。

  d) 我们大家都知道图像和视频的容量都远超于文本,所以它们单独需要更大的存储空间。同样地,我们去理解一段文本所需的计算能力与去理解图片和视频所需的计算能力也是完全不同的。打个简略的例子,训练一个 GPT 3 的大模型或者 GPT 4 的大模型,可能只需要 1000 张训练卡,但训练图片和视频在大多数情况下要 1 万张训练卡,因此所需的训练资源会以 10 倍的量级增长。

  e) 算力的不足,我们正真看到现在的GPT4已经具备了视频的解决能力,但是却没有发布相关的功能,归根结底是算力瓶颈,表面上是来自于英伟达的芯片能力,事实上更底层来自于半导体技术尤其是设备技术的进步速度跟不上,这一点类似于锂电池或者碳酸锂的成本,制约了电动汽车的普及速度一样

  f) 需求量太大,以至于OpenAI不得不暂停Plus的销售。之后何时开放也没有明说。前几天ChatGPT就因出现大规模封号引发热议,现在竟正儿八经地关闭了Plus付费会员的申请。不少用户反馈使用gpt会出现延迟,估计也和算力紧张有关系。百度的算力也不够,所以现在试用账号迟迟没有大面积放开。

  g) 摩尔定律是18个月的时间,而算力需求是10个月左右翻倍,甚至大模型有3-4个月算力需求翻倍的说法。

  h) 降低算力成本,目前优化算法底层是将更加迅速。但是有瓶颈。硬件迭代升级慢,但是具有更加长远的空间。

  a) 算力需求大致上可以分为两部分,包括训练算力和推理算力。目前来说对训练算力需求非常高,ChatGPT的公开多个方面数据显示它的整个训练算力消耗非常大,达到了3640PF-days(即假如每秒计算一千万亿次,需要计算3640天),换算成英伟达A100芯片,它单卡算力相当于0.6P的算力,理想情况下总共需要大概6000张,在考虑互联损失的情况下,需要一万张A100作为算力基础。在A100芯片10万人民币/张的情况下,算力的硬件投资规模达到10亿人民币。

  b) 整个的数据中心还需要推理算力以及服务器等,规模应该在100亿人民币以上。而且随着大模型用户的上升,对推理算力需求的提升可能速度也是非常快的。

  c) GPT-4是多模态模型,预计计算规模参数可能增长到了大概2万亿(GPT-3.5是2100亿左右)。ChatGPT是基于上一代A100训练出的,用到的GPU将近2万张,GPT-4对算力要求大概也在这个规模,训练时间在2个月左右,大致在去年9月份完成训练。其他厂商也大概需要几千张A100类似的卡来训练。

  a) 以往大多都是数据中心,超算中心以及各大网络公司的云计算中心会有相关的算力基础设施需求。以前算力的商业应用并没有特别多

  b) 训练端:训练算力相关设备主要是英伟达的A100和H100,推理算力主要是英伟达T4卡。ChatGPT的发布使得算力需求增加了,以前算力的商业应用并没有特别多,主要是推理端像图像识别、语音识别等。大模型的爆发会导致训练的应用场景慢慢的变多,对训练算力的需求会大幅度增长,增长幅度能达到10倍甚至100倍。

  c) 推理端:也会有相应的增长,但幅度不会这么大。但是后期如果访问量上来,也会带动推理端需求爆发。

  b) 国内的高端算力芯片是不是很快就报废了?是的,从2019年开始,算力需求每10个月会翻一番,对公司来讲,他们更愿意追求高算力的硬件产品,对于老产品就会慢慢从业务中剥离。

  c) 所以在一两年后,高端算力芯片会面临非常短缺的状态?即使目前AI的算力芯片对于很多大厂来说也是非常短缺的。

  b)计算光刻库:英伟达发布计算光刻库,可能对全球诸如CSMC、三星等后续的技术都有重要影响,因为2nm之后光刻光掩模的制造成本非常高,需要非常多CPU计算数个小时才能完成。计算光刻库搭配GPU可以把光掩膜的生成过程提速40倍,例如从两三个星期压缩到8个小时,台积电可能6月份就要用这套系统来进行试制。

  c) 除了大模型,即使stable diffusion这种文生图模型,也消耗较小。stable diffusion模型一直在优化,以前一个推理任务一张A100、现在降级到一个推理任务一张V100。

  d) 也可以对模型进行降级,降低精准度要求,比如从FP16降级为FP8,。

  e) 存算一体作为一种新型算力,与以往的冯诺依曼架构相比,其打破了由于计算单元与存储单元过于独立而导致的“存储墙”(即CPU 处理数据的速度与存储器读写数据速度之间严重失衡的问题,严重影响目标应用程序的功率和性能),能达到用更低功耗实现更高算力的效果。

  a) A800训练服务器主要是四卡或者八卡配置,和传统的插卡方法不一样,它是一块整板,每一个GPU像芯片一样贴在整板上,外加一个很大的散热片,因此看起来像CPU。

  b) 每一颗GPU价格在1.5万美元左右,一块整板的价格在12万美元左右。

  c) 英伟达原厂的主机官方价是20万美元,发到中国地区加上税收基本是近200万人民币。对国内合作伙伴来说价格在130万人民币左右,主要是为保护合作伙伴的利益。英伟达主要是给业界一个设计参考,并留出足够的差价空间展现出合作伙伴的性价比,不过有些土豪客户还是会买英伟达的原厂主机。H100的官方定价在3万美元左右,但是性能提升3倍以上。

  a) 国内厂商训练芯片的能力,与国外的差距有多大?目前AI领域的公司80%以上基于Facebook的PyTorch框架,例如许多应用在前几代已经在加速卡上有非常成熟的使用,迁移到新的算力平台上只需要结合新的加速卡进行编译就能够正常的使用,但切换了其他厂家的话,框架下所有的加速库(包含SDK的API以及地下驱动层)都需要做非常多的适配工作,会导致难以迁移,软件生态的差距会更大。

  b) 考虑训练场景的情况下,国内厂商总体差距较大,大概分为以下几个维度:

  i. 训练场景是多机多卡,同时显存的容量需求很大,GPT-3最少需要200多台84G的网卡,需要在单机里先做多卡互联,然后做多机的网络互联,类似INT8、INT16或IP16的能力拓展。

  ii. 第二,单卡的显存容量以及跨卡之间的互联带宽,英伟达互联带宽达到900G,国内做三卡四卡互联的厂商带宽基本在200G-500G之间,互联带宽方面存在差距。

  iv. 第三,多栖互联方面,英伟达在2020年收购了Mellanox(高性能网络领域大头,已经是高性能网络技术的独家供应商),英伟达跨GPU互联结合的技术在业界没有竞争对手。国内做AI算力加速卡的公司没有专门的网络卡帮助跨卡加速,华为有类似100G的以太网网卡芯片和交换机,以及一些基于以太网的无损以太网加速技术,它在带宽和性能上比较接近英伟达的跨卡互联。

  v. 寒武纪等公司还是声卡玩家,而不是系统级别的互联玩家,基本上只能沿用市场上已有的以太网互联技术,技术方面相差5、6倍的性能,差不多是1.4微秒和7、8微秒的差距,对大规模训练的影响很大。在可见的应用场景下,英伟达是真正商业化可行的,其他厂家目前能力尚达不到。

  b) 阿里云现在云上至少应该有上万片的A100 了,整体至少能达到10万片,阿里集团的线 倍的这样的一个量级。达摩院、天猫、淘宝的算力资源都是集团内资源使用。阿里云2023年增速会有30-50%。有个别8-9个客户会有复现GPT的需求,提出了大规模AI算力需求,我们以云的方式给。

  c) 百度年初紧急下单3000台 8卡的A800服务器,2.4万张卡,预计全年百度会有A-H800共5万张的需求。

  b) 国内的高端算力芯片是不是很快就报废了?是的,从2019年开始,算力需求每10个月会翻一番,对公司来讲,他们更愿意追求高算力的硬件产品,对于老产品就会慢慢从业务中剥离。

  c) 所以在一两年后,高端算力芯片会面临非常短缺的状态?即使目前AI的算力芯片对于很多大厂来说也是非常短缺的。


在线留言

在线客服