大模型的基础设施如何建先要搭千卡万卡规模的网络架构

2025-02-19 18:55:02阅读量:10 字体:

生成式人工智能(AI)作为一项划时代的技术,经历了巨大的变革和发展。百度杰出系统架构师王雁鹏在深圳的文心大模型技术交流会上表示,生成式AI最显著的特点是模型规模巨大,过去几年以每年10倍的速度增长。生成式AI的智能计算基础设施是一个庞大而复杂的系统,需要从网络架构、存储、加速层、框架和容错等多个方面进行设计和优化。通过这些努力,可以为大规模的生成式AI应用提供稳定、高效且易用的计算基础设施。以往的AI应用中,许多训练任务都可以在单卡或单机上完成,但在大模型时代,完成一个任务需要使用上千甚至上万张显卡。王雁鹏认为,在如此巨大的计算能力需求下,智能计算基础设施的设计范式发生了转变。

大模型的基础设施如何建先要搭千卡万卡规模的网络架构

一、要构建万卡规模的大模型基础设施,有四个关键点需要关注:

1.需要构建智能计算集群,能够支持高速互联并具备各种异构算力,如中央处理器(CPU)和图形处理器(GPU)等。这需要保证高效的卡间通信。

2.仅有强大的硬件能力并不足以取得良好效果。优化软件堆栈非常重要,优化的结果将体现在训练和推理性能上的加速。

3.高性价比是一个重要考虑因素。构建这样的系统需要合理的技术选择,不一定选择最昂贵的解决方案。合理分层存储和计算,并追求更高的性价比。

4.易用性是前所未有的挑战。在万卡规模下,稳定运行、弹性容错以及一站式应用的易用平台都是重要问题。


百度智能云副总裁朱勇透露,自百度的文心一言技术在3月16日开始内测以来,通过算法和模型的持续优化,其在企业服务中高频场景下的推理性能已经提升了50倍。为了实现这一结果,王雁鹏从技术角度解释了过去一个月的工作和新的技术范式转变。王雁鹏指出,生成式AI是一项跨越式的技术,和以前的技术有了巨大的变革。其最显著的特点是模型规模庞大,每年以10倍的速度增长。之前的AI应用中,许多训练任务可以在单卡或单机上完成,但在大模型时代,需要上千张或上万张卡来完成一个任务。

增加模型规模并不能很好地提升模型的效果和性能,还需要相应地增加数据量级。大模型的数据量级是指数级增长的,这类似于摩尔定律。以前摩尔定律需要每年翻一番,现在大模型的"摩尔定律"更快,大约每8到10个月翻一番。与原来的摩尔定律不同的是,大模型不仅需要芯片的能力,还需要整个芯片、框架和系统的全栈优化。在这种巨大的算力需求下,智能计算基础设施的设计发生了变革。

二、构建万卡规模的网络架构

在如此大规模下,保证网络的扩展性和避免拥塞是非常困难的。大模型的通信特点是有很多集合通信的操作,这可以分解成同号卡之间的集合通信。为了解决这个问题,需要优化网络架构,在同号卡之间建立高速通信通道,以提高整体网络的吞吐量并消除拥塞和冲突的可能性。

除了计算方面,存储也是另一个关键问题。需要具备大容量和高速度,因此设计了多级存储系统。大量数据存储在对象存储系统中,高速训练时需要充当缓存系统的角色。

三、加速层

对于AI训练来说,计算过程非常复杂,包括IO预处理、IO读取、各种算子的高性能实现和优化,以及通信的优化和显存利用率。需要在训练加速套件中整合整个软件栈。对于推理加速套件来说更加重要。推理过程对大模型来说是一个巨大的挑战。通过集中攻关和软件优化,百度在文心一言发布后的一个月时间内,使推理性能提高了50倍。


四、框架侧的工作,即所谓的4D混合并行

对于如此巨大的计算,如何将其拆分到各个GPU上,并采用不同的并行策略,以获得更好的计算性能。如何将并行策略映射到计算集群的硬件上也是关键。在这方面,投入了大量的工作,实现了自动并行,无论硬件拓扑和硬件组合如何,都能在分布式层面自动实现并行。

容错性也是关键问题。在万卡规模下,错误是不可避免的。集合通信的通信模式天生具有较低的容错性。因此,在通信库层、框架层和调度层做了大量的工作,实现了不同层次的容错,使得拥有千亿参数的大模型训练可以无中断地进行。

推荐阅读

  • 住宅工地上挖出古墓 墓主使用流沙依然被盗(流沙法)

    住宅工地上挖出古墓 墓主使用流沙依然被盗(流沙法)

    墓葬主人使用了高等级防盗技术依然被盗。在陕西省西安市南郊的北里王村房地产开发商的工地上,无意中挖出了一座汉代古墓,考古专家得知消息以后,立马赶到施工现场,对古墓进行抢救性发掘。清理掉地表的填土以后,专...

    阅读: 3498

  • 中国第一座佛教寺庙 无可比拟的考古价值(白马寺)

    中国第一座佛教寺庙 无可比拟的考古价值(白马寺)

    白马寺作为中国最早的佛教寺庙,其历史意义与考古价值无可估量。作为佛教传入中国的历史见证,白马寺不仅是中国古代文化的重要遗产,更是全人类共同的文化瑰宝。白马寺建于公元68年,由汉明帝下令修建。它的建立标...

    阅读: 2054

  • 为什么科学家认为外星人种类比地球总人口多(生命多样性推测)

    为什么科学家认为外星人种类比地球总人口多(生命多样性推测)

    科学家基于宇宙的规模和生命的多样性推测,外星文明的种类很可能超过地球的总人口。在探讨宇宙与生命的奥秘时,一个耐人寻味的问题常常被提及:为什么科学家认为外星文明的种类可能比地球总人口还要多?答案隐藏在宇...

    阅读: 505

  • 中国极具世界影响力的25个重大科技成就有哪些(陆相成油理论)

    中国极具世界影响力的25个重大科技成就有哪些(陆相成油理论)

    在探索世界科技前沿的征途上,中国无疑占据了一个十分重要的位置。过去几十年中,这个古老的国度不断刷新着世界对其科技实力的认知。我们将聚焦于中国的25项杰出科技成就,其中包括陆相成油理论、杂交水稻、纤维原...

    阅读: 1829

  • 惹不起的四大生肖有哪些(虎 蛇 马 鸡)

    惹不起的四大生肖有哪些(虎 蛇 马 鸡)

    生肖虎、生肖蛇、生肖马、生肖鸡。在生活的纷繁复杂中,我们总会遇到各种各样的人。在东方文化中,十二生肖一直是一个颇具特色的话题。每个生肖都有自己独特的性格和行为模式,而这些生肖因为其强烈的个性和不容侵犯...

    阅读: 2161

  • 暴雪致高速瘫痪车主被困十小时  暴雪为交通带来哪些隐患

    暴雪致高速瘫痪车主被困十小时 暴雪为交通带来哪些隐患

    近日,一位车主在社交平台上发文称,自己被困在沪蓉高速湖北省荆州市京山市段,他表示,在这段高速上最起码有上千辆车被困,长达十几个小时车流都没有任何的动静,自己在车上储备的食物只能够在坚持两天,而且救援电...

    阅读: 3397

  • 彭清林谈火了后为啥还送外卖 彭清林救人的事迹

    彭清林谈火了后为啥还送外卖 彭清林救人的事迹

    近日,从高桥之上跳江救人的彭清林在接受媒体采访的时候表示,近来有人问自己有了流量为什么还要去送外卖,对于这个问题自己现在给出答案,在自己看来流量是不能代替所有的,自己能把送外卖这份工作做好就很厉害了。...

    阅读: 1052

  • 婚宴遇大雪宾客在猪圈里吃席 在猪圈吃席合理吗

    婚宴遇大雪宾客在猪圈里吃席 在猪圈吃席合理吗

    2月1日,河南驻马店当地的一场婚宴在网上引起人们的关注,这场婚宴举办的时候当地正下着大雪,由于大学和地面结冰的影响,婚宴无法在户外举办,于是举办婚宴的主家利用闲置的猪圈来当做婚宴的举办场所,把猪圈打扫...

    阅读: 3369

  • 明朝文官集团为什么如此强大(政治制度的支撑)

    明朝文官集团为什么如此强大(政治制度的支撑)

    在中国历史的长河中,明朝以其独特的政治体系和文化传统而著称。明朝文官集团的力量之所以强大,不仅因为其深厚的文化底蕴,还因为其坚实的政治制度基础。我们将探讨明朝文官集团强大的原因,并从政治制度和文化传统...

    阅读: 1925

  • 面相上哪些痣出现不好(两眉之间的痣)

    面相上哪些痣出现不好(两眉之间的痣)

    两眉之间的痣、眉眼附近的痣、鼻子上的痣等。在面相学中,痣被视为面部特征的一部分,能够反映一个人的命运和性格。虽然这种说法在科学上并没有根据,但在传统文化中,人们常常根据痣的位置和形状来预测个人的运势。...

    阅读: 1410

热门文章