大模型的基础设施如何建先要搭千卡万卡规模的网络架构

2025-02-19 18:55:02阅读量:3 字体:

生成式人工智能(AI)作为一项划时代的技术,经历了巨大的变革和发展。百度杰出系统架构师王雁鹏在深圳的文心大模型技术交流会上表示,生成式AI最显著的特点是模型规模巨大,过去几年以每年10倍的速度增长。生成式AI的智能计算基础设施是一个庞大而复杂的系统,需要从网络架构、存储、加速层、框架和容错等多个方面进行设计和优化。通过这些努力,可以为大规模的生成式AI应用提供稳定、高效且易用的计算基础设施。以往的AI应用中,许多训练任务都可以在单卡或单机上完成,但在大模型时代,完成一个任务需要使用上千甚至上万张显卡。王雁鹏认为,在如此巨大的计算能力需求下,智能计算基础设施的设计范式发生了转变。

大模型的基础设施如何建先要搭千卡万卡规模的网络架构

一、要构建万卡规模的大模型基础设施,有四个关键点需要关注:

1.需要构建智能计算集群,能够支持高速互联并具备各种异构算力,如中央处理器(CPU)和图形处理器(GPU)等。这需要保证高效的卡间通信。

2.仅有强大的硬件能力并不足以取得良好效果。优化软件堆栈非常重要,优化的结果将体现在训练和推理性能上的加速。

3.高性价比是一个重要考虑因素。构建这样的系统需要合理的技术选择,不一定选择最昂贵的解决方案。合理分层存储和计算,并追求更高的性价比。

4.易用性是前所未有的挑战。在万卡规模下,稳定运行、弹性容错以及一站式应用的易用平台都是重要问题。


百度智能云副总裁朱勇透露,自百度的文心一言技术在3月16日开始内测以来,通过算法和模型的持续优化,其在企业服务中高频场景下的推理性能已经提升了50倍。为了实现这一结果,王雁鹏从技术角度解释了过去一个月的工作和新的技术范式转变。王雁鹏指出,生成式AI是一项跨越式的技术,和以前的技术有了巨大的变革。其最显著的特点是模型规模庞大,每年以10倍的速度增长。之前的AI应用中,许多训练任务可以在单卡或单机上完成,但在大模型时代,需要上千张或上万张卡来完成一个任务。

增加模型规模并不能很好地提升模型的效果和性能,还需要相应地增加数据量级。大模型的数据量级是指数级增长的,这类似于摩尔定律。以前摩尔定律需要每年翻一番,现在大模型的"摩尔定律"更快,大约每8到10个月翻一番。与原来的摩尔定律不同的是,大模型不仅需要芯片的能力,还需要整个芯片、框架和系统的全栈优化。在这种巨大的算力需求下,智能计算基础设施的设计发生了变革。

二、构建万卡规模的网络架构

在如此大规模下,保证网络的扩展性和避免拥塞是非常困难的。大模型的通信特点是有很多集合通信的操作,这可以分解成同号卡之间的集合通信。为了解决这个问题,需要优化网络架构,在同号卡之间建立高速通信通道,以提高整体网络的吞吐量并消除拥塞和冲突的可能性。

除了计算方面,存储也是另一个关键问题。需要具备大容量和高速度,因此设计了多级存储系统。大量数据存储在对象存储系统中,高速训练时需要充当缓存系统的角色。

三、加速层

对于AI训练来说,计算过程非常复杂,包括IO预处理、IO读取、各种算子的高性能实现和优化,以及通信的优化和显存利用率。需要在训练加速套件中整合整个软件栈。对于推理加速套件来说更加重要。推理过程对大模型来说是一个巨大的挑战。通过集中攻关和软件优化,百度在文心一言发布后的一个月时间内,使推理性能提高了50倍。


四、框架侧的工作,即所谓的4D混合并行

对于如此巨大的计算,如何将其拆分到各个GPU上,并采用不同的并行策略,以获得更好的计算性能。如何将并行策略映射到计算集群的硬件上也是关键。在这方面,投入了大量的工作,实现了自动并行,无论硬件拓扑和硬件组合如何,都能在分布式层面自动实现并行。

容错性也是关键问题。在万卡规模下,错误是不可避免的。集合通信的通信模式天生具有较低的容错性。因此,在通信库层、框架层和调度层做了大量的工作,实现了不同层次的容错,使得拥有千亿参数的大模型训练可以无中断地进行。

推荐阅读

  • 火星究竟能否成为未来人类的第二个地球?(具备潜力充满可能)

    火星究竟能否成为未来人类的第二个地球?(具备潜力充满可能)

    火星被科学家认为是极具潜力的可以成为第2个地球的星球,通过人为干预火星很有可能会逐渐的地球化,成为星际移民的目的地。火星作为地球的邻居,一直以来都备受关注,与火星探测的热度始终高涨。进行火星探测的目的...

    阅读: 1659

  • 男子徒步被狗追咬全身缝300多针 狗主人需承担责任么

    男子徒步被狗追咬全身缝300多针 狗主人需承担责任么

    已经62岁的郭先生在3月22日上午徒步锻炼的时候,被多条大型犬追咬导致全身被缝合三百多针,这些年随着社会需求的变化,养狗的家庭也越来越多,当自家狗将他人咬伤时,狗主人必须承担相应的刑事和法律责任,该事...

    阅读: 2710

  • 成都一辆迈巴赫连撞多人致2死2伤 开车撞人会被判刑么

    成都一辆迈巴赫连撞多人致2死2伤 开车撞人会被判刑么

    2024年3月31日晚上,四川省成都市发生了一汽迈巴赫撞人事件,该车祸导致两人受伤两人死亡,根据我国交通法规定,开车撞人已经违反交通运输管理法规,根据事故具体情况决定刑罚,目前警方已经将肇事司机控制,...

    阅读: 2944

  • 女子辅导儿子作业情绪崩溃踹断脚趾 如何辅导孩子写作业

    女子辅导儿子作业情绪崩溃踹断脚趾 如何辅导孩子写作业

    近日,江苏省南京市的母亲在辅导儿子写作业时,因儿子写作业实在墨迹情绪逐渐崩溃,本想踢儿子的课桌警示儿子却不想碰在了墙上,导致脚趾发生骨折,在辅导孩子写作业的时候,家长一定要保持平和的心态,对孩子做出适...

    阅读: 2083

  • 女子健身私密照未经允许被发网上 泄露他人隐私的责任

    女子健身私密照未经允许被发网上 泄露他人隐私的责任

    近日,一位健身房的教练为了帮助自己的店铺刷好评,未经允许就将该健身房一女子的私密照上传到网上,这属于侵害他人隐私安全,该行为将承担相应的民事、行政、刑事责任。在了解该教练将照片上传到网上的时候,该女士...

    阅读: 1354

  • 可可价格飙升 涨幅远超金价 可可涨价的原因

    可可价格飙升 涨幅远超金价 可可涨价的原因

    近期,纽约可可期货的价格在上周直接上涨破除了每吨1万元的价格关口,此次价格上涨直接打破的历史可可最高价格,这么惊人的涨幅程度已经远远超过黄金的价格,可可之所以会涨价很大程度上是因为气候原因造成的,因此...

    阅读: 1750

  • 可以再生内脏的动物是什么(蝾螈)

    可以再生内脏的动物是什么(蝾螈)

    在自然界中,有一种神奇的生物,它拥有令人惊叹的再生能力,即使内脏受伤,也能够再生。这个生物就是蝾螈。蝾螈,又称火蜥蜴或娃娃鱼,是一种两栖动物,外形像蜥蜴,但却拥有着惊人的再生能力。与壁虎的尾巴能够断掉...

    阅读: 2778

  • 假如日本沉没地球会有什么影响(引发地质环境的变化)

    假如日本沉没地球会有什么影响(引发地质环境的变化)

    随着科技的进步和电影的想象,有人开始思考:假如日本真的沉没了,会给地球带来怎样的影响?实际上,日本的沉没将给地球带来诸多影响,包括地质环境的变化、经济的动荡和海洋生态系统的破坏等。一、日本的地壳结构我...

    阅读: 812

  • 事业心强的女人面相有哪些特征(发际线高)

    事业心强的女人面相有哪些特征(发际线高)

    事业心强的女性面相常常具有发际线高、额头宽广隆起、鼻梁笔直高挺、嘴巴大且有收、下巴宽厚饱满等特征。这些特征不仅反映了她们的性格特点,也预示着她们在事业上取得成功的可能性。1、发际线高发际线的高低往往能...

    阅读: 1948

  • 史上哪个少数民族的名将含金量高(突厥)

    史上哪个少数民族的名将含金量高(突厥)

    在中国五千年的历史长河中,无数英雄辈出,留下了辉煌的战绩和传奇故事。特别是在众多的民族和文化交融中,不同民族的将领以其非凡的军事才能和英雄气概,书写了一段段令人瞩目的历史。在这些英雄人物中,突厥民族的...

    阅读: 2933

热门文章