大模型的基础设施如何建先要搭千卡万卡规模的网络架构

2025-02-19 18:55:02阅读量:10 字体:

生成式人工智能(AI)作为一项划时代的技术,经历了巨大的变革和发展。百度杰出系统架构师王雁鹏在深圳的文心大模型技术交流会上表示,生成式AI最显著的特点是模型规模巨大,过去几年以每年10倍的速度增长。生成式AI的智能计算基础设施是一个庞大而复杂的系统,需要从网络架构、存储、加速层、框架和容错等多个方面进行设计和优化。通过这些努力,可以为大规模的生成式AI应用提供稳定、高效且易用的计算基础设施。以往的AI应用中,许多训练任务都可以在单卡或单机上完成,但在大模型时代,完成一个任务需要使用上千甚至上万张显卡。王雁鹏认为,在如此巨大的计算能力需求下,智能计算基础设施的设计范式发生了转变。

大模型的基础设施如何建先要搭千卡万卡规模的网络架构

一、要构建万卡规模的大模型基础设施,有四个关键点需要关注:

1.需要构建智能计算集群,能够支持高速互联并具备各种异构算力,如中央处理器(CPU)和图形处理器(GPU)等。这需要保证高效的卡间通信。

2.仅有强大的硬件能力并不足以取得良好效果。优化软件堆栈非常重要,优化的结果将体现在训练和推理性能上的加速。

3.高性价比是一个重要考虑因素。构建这样的系统需要合理的技术选择,不一定选择最昂贵的解决方案。合理分层存储和计算,并追求更高的性价比。

4.易用性是前所未有的挑战。在万卡规模下,稳定运行、弹性容错以及一站式应用的易用平台都是重要问题。


百度智能云副总裁朱勇透露,自百度的文心一言技术在3月16日开始内测以来,通过算法和模型的持续优化,其在企业服务中高频场景下的推理性能已经提升了50倍。为了实现这一结果,王雁鹏从技术角度解释了过去一个月的工作和新的技术范式转变。王雁鹏指出,生成式AI是一项跨越式的技术,和以前的技术有了巨大的变革。其最显著的特点是模型规模庞大,每年以10倍的速度增长。之前的AI应用中,许多训练任务可以在单卡或单机上完成,但在大模型时代,需要上千张或上万张卡来完成一个任务。

增加模型规模并不能很好地提升模型的效果和性能,还需要相应地增加数据量级。大模型的数据量级是指数级增长的,这类似于摩尔定律。以前摩尔定律需要每年翻一番,现在大模型的"摩尔定律"更快,大约每8到10个月翻一番。与原来的摩尔定律不同的是,大模型不仅需要芯片的能力,还需要整个芯片、框架和系统的全栈优化。在这种巨大的算力需求下,智能计算基础设施的设计发生了变革。

二、构建万卡规模的网络架构

在如此大规模下,保证网络的扩展性和避免拥塞是非常困难的。大模型的通信特点是有很多集合通信的操作,这可以分解成同号卡之间的集合通信。为了解决这个问题,需要优化网络架构,在同号卡之间建立高速通信通道,以提高整体网络的吞吐量并消除拥塞和冲突的可能性。

除了计算方面,存储也是另一个关键问题。需要具备大容量和高速度,因此设计了多级存储系统。大量数据存储在对象存储系统中,高速训练时需要充当缓存系统的角色。

三、加速层

对于AI训练来说,计算过程非常复杂,包括IO预处理、IO读取、各种算子的高性能实现和优化,以及通信的优化和显存利用率。需要在训练加速套件中整合整个软件栈。对于推理加速套件来说更加重要。推理过程对大模型来说是一个巨大的挑战。通过集中攻关和软件优化,百度在文心一言发布后的一个月时间内,使推理性能提高了50倍。


四、框架侧的工作,即所谓的4D混合并行

对于如此巨大的计算,如何将其拆分到各个GPU上,并采用不同的并行策略,以获得更好的计算性能。如何将并行策略映射到计算集群的硬件上也是关键。在这方面,投入了大量的工作,实现了自动并行,无论硬件拓扑和硬件组合如何,都能在分布式层面自动实现并行。

容错性也是关键问题。在万卡规模下,错误是不可避免的。集合通信的通信模式天生具有较低的容错性。因此,在通信库层、框架层和调度层做了大量的工作,实现了不同层次的容错,使得拥有千亿参数的大模型训练可以无中断地进行。

推荐阅读

  • 哪4种面相的女人美丽温柔(天庭饱满光洁)

    哪4种面相的女人美丽温柔(天庭饱满光洁)

    天庭饱满光洁、眼大有神、牙齿整齐、天仓开阔。这些面相特征的女人往往拥有着美丽温柔的内在品质和幸福美满的命运。她们以自信、善良和温柔的性格赢得他人的喜爱和尊重,建立起美满幸福的家庭,同时也能够在事业和财...

    阅读: 996

  • 远古鲨鱼是如何进化的(从牙齿的形状尺寸开始)

    远古鲨鱼是如何进化的(从牙齿的形状尺寸开始)

    在古老的泥盆纪海洋深处,多样而独特的生物群落中,鲨鱼以其特有的形态和生存策略脱颖而出。这个时期,大约3.7亿年前,鲨鱼的存在不仅是对海洋生态多样性的一种补充,更是对生物进化奥秘的一种佐证。从鲨鱼牙齿的...

    阅读: 2590

  • 远古时期人类的祖先是如何生活的(群居)

    远古时期人类的祖先是如何生活的(群居)

    在远古时期,人类的祖先如何生活一直是科学研究的重要主题。通过对史前遗址的考古挖掘和研究,科学家们逐渐揭开了祖先生活方式的神秘面纱。远古时代的人类社会已经显示出了复杂多样的生活方式,从简单的工具使用到社...

    阅读: 2588

  • 某些动物是否也有着类似人类的情感(是的)

    某些动物是否也有着类似人类的情感(是的)

    在探索自然界的奥秘时,人类始终对一个问题充满好奇,我们的动物伙伴是否也能像我们一样体验情感?随着科学研究的深入,我们已经开始揭开这一谜题。动物界中的情感表现,从欢乐到悲伤,从爱恋到愤怒,不仅丰富多彩,...

    阅读: 1035

  • 所有的蝙蝠都会吸血吗(并不是)

    所有的蝙蝠都会吸血吗(并不是)

    在流行文化中,蝙蝠经常被描绘为吸血的恐怖生物,这种形象在很大程度上受到了吸血蝙蝠与吸血鬼传说的影响。然而,随着科学的进步和对自然界的深入研究,我们逐渐了解到蝙蝠的真实面目远比想象中的丰富和复杂。实际上...

    阅读: 2641

  • 为什么蜥脚类恐龙会生长得如此之大(复杂的生物学机制)

    为什么蜥脚类恐龙会生长得如此之大(复杂的生物学机制)

    蜥脚类恐龙,这些古代巨兽之所以能够达到令人难以置信的体型,其背后是一系列复杂的生物学机制和演化策略的结合。科学家们长期对这个问题进行研究后,提出了多方面的解释,其中包括独特的生物特性、生态位的占据、以...

    阅读: 900

  • 波音安全问题吹哨人突然死亡 疑问仍旧存在

    波音安全问题吹哨人突然死亡 疑问仍旧存在

    当地时间3月9日,揭露波音公司安全漏洞的吹哨人”约翰·巴尼特被发现死亡,他曾在波音公司工作了32年,原本要在波音官司里继续提供证词的他被发现死在车里,警方正在调查真相。外媒称...

    阅读: 2232

  • 汽车在隧道内突然开车门疑恶意别车 涉事人员已被传唤

    汽车在隧道内突然开车门疑恶意别车 涉事人员已被传唤

    3月10日,陕西西安发生一起在隧道里恶意别车的事件,现场的视频看起来触目惊心,引起网友强烈谴责,交警称涉事人员已经被传唤到队,此事正在调查中。该事件发生在西安市科技八路的隧道内,一辆黑色的SUV突然加...

    阅读: 1092

  • 男人遇到哪些三大生肖女一生享福(鼠)

    男人遇到哪些三大生肖女一生享福(鼠)

    生肖鼠、生肖猪、生肖羊。在十二生肖中,这些生肖的女性拥有着独特的魅力和品质,能够给男人带来无限的福气和幸福。这些女性不仅外表迷人,还具备着内在的智慧和善良。1、生肖鼠生肖鼠的女性拥有着敏锐的洞察力和灵...

    阅读: 1474

  • 山姆进口鳕鱼发现寄生虫 回应野生捕捞属正常现象

    山姆进口鳕鱼发现寄生虫 回应野生捕捞属正常现象

    近日,关于山姆进口鳕鱼被发现存在寄生虫的消息引起讨论和关注,山姆会员店给出的回应是野生捞捕的鳕鱼存在寄生虫属于正常现象”。这样的回应引起了大家的质疑,难道出售的商品没有统一的安全和卫生标准...

    阅读: 2690

热门文章