英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

2024-03-19 07:44:50 - 市场资讯

「这才是我理想中的GPU。」——黄仁勋。

来源：机器之心

「这不是演唱会。你们是来参加开发者大会的！」老黄出场时，现场爆发出了巨大的欢呼声。

今天凌晨四点，加州圣何塞，全球市值第三大公司英伟达一年一度的GTC大会开始了。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

今年的GTC大会伴随着生成式AI技术爆发，以及英伟达市值的暴涨。相对的是，算力市场也在升温，硬件和软件方面的竞争都在加剧。

而英伟达带来的产品，再次将AI芯片的标杆推向了难以想象的高度。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

「通用计算已经失去动力，现在我们需要更大的模型，我们需要更大的GPU，更需要将GPU堆叠在一起。」黄仁勋说道。「这不是为了降低成本，而是为了扩大规模。」

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

黄仁勋提到，大模型参数量正在呈指数级增长，此前OpenAI最大的模型已经有1.8T参数，需要吞吐数十亿token。即使是一块PetaFLOP级的GPU，训练这样大的模型也需要1000年才能完成。这句话还透露了一个关键信息：GPT-4的实际参数量应该就是1.8万亿。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

为了帮助世界构建更大的AI，英伟达必须首先拿出新的GPU，这就是Backwell。此处老黄已有点词穷了：「这是块非常非常大的GPU！」

Blackwell的发布意味着，近八年来，AI算力增长了一千倍。一些网友看完发布会惊叹：Nvidiaeatsworld！

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

2080亿个晶体管的Blackwell

同行不知应该怎么追

虽然全球的科技公司都还在争抢H100芯片，但新一代产品已来。

在今天的大会上，英伟达正式推出了Blackwell平台。从此以后，在数万亿参数上构建和运行实时生成式AI大型语言模型的成本和能耗降低到此前的25分之一。

Blackwell的名字旨在纪念第一位入选美国国家科学院的黑人学者、数学家和博弈论学家DavidHaroldBlackwell，它继承了HopperGPU架构，为加速计算树立了新的标准。英伟达表示，Blackwell架构的GPU预计将于今年晚些时候发货。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

DavidHaroldBlackwell。图源britannica

正如预期的一样，Blackwell是英伟达首个采用MCM（多芯片封装）设计的GPU，在同一个芯片上集成了两个GPU。

在活动现场，黄仁勋对比了Blackwell（右手）与HopperGH100GPU（左手）的尺寸大小。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

It’sOK,Hopper.

黄仁勋表示，Blackwell将成为世界上最强大的芯片。Blackwell架构的GPU拥有2080亿个晶体管，采用定制的、双reticle的台积电4NP（4N工艺的改进版本）制程工艺，两块小芯片之间的互联速度高达10TBps，可以大幅度提高处理能力。

此处需要强调的是，没有内存局部性问题或缓存问题，CUDA将其视为单块GPU。

它还带有192GB速度为8Gbps的HBM3E内存，AI算力能达到20petaflops（FP4精度），相比之下，上代的H100「仅为」4petaflops。

这是世界上第一次有如此高效整合在一起的多die芯片，或许也是在制程升级速度减慢之后，升级算力的唯一方法。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

黄仁勋提到，Blackwell不是芯片名，而是整个平台的名字。具体来讲，采用Blackwell架构的GPU分为了B200和GB200产品系列，后者集成了1个GraceCPU和2个B200GPU。

其中B200GPU通过2080亿个晶体管提供高达20petaflops的FP4吞吐量。而GB200GPU通过900GB/秒的超低功耗芯片到芯片连接，将两个B200GPU连接到1个GraceCPU上。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

GB200架构，包含两个GPU和一个CPU。

相较于H100TensorCoreGPU，GB200超级芯片可以为大语言模型（LLM）推理负载提供30倍的性能提升，并将成本和能耗降低高达25倍。

「人们认为我们制造GPU，但GPU看起来并不像以前那样了，」黄仁勋表示。「我现在一手拿着100亿，一手拿着50亿。」

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

现在，显卡不再是显卡，而是作为系统整体售卖，毕竟只有通过英伟达自家的组件才能达到最佳效率。「现在我们卖的GPU是7000个组件，3000磅重。」

基于Blackwell的AI算力将以名为DGXGB200的完整服务器形态提供给用户，结合了36颗NVIDIAGraceCPU和72块BlackwellGPU。这些超级芯片通过第五代NVLink连接成一台超级计算机。

再往上扩展，GraceBlackwell架构的DGXSuperPOD由8个或以上的DGXGB200系统构建而成，这些系统通过NVIDIAQuantumInfiniBand网络连接，可扩展到数万个GB200超级芯片。用户可通过NVLink连接8个DGXGB200系统中的576块BlackwellGPU，从而获得海量共享显存空间，来训练下一代AI模型。

再详细对比一下性能的升级，以前使用Hopper训练GPT-MoE-1.8T，8000块GPU要花费90天，同样的事只需要2000块GB2000，能耗也只需要四分之一。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

生成式AI的下一步是多模态和视频，也就意味着更大规模的训练，Blackwell带来了更多可能性。

此外，大模型（LLM）的大规模推理始终是一个挑战，并非适合单个GPU的任务。在具有1750亿个参数的GPT-3LLM基准测试中，GB200的性能是H100的7倍，并且训练速度是H100的4倍。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

现在，用于大模型推理的速度是上代的30倍，黄仁勋展示了一张对比图，蓝线是Hopper。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

「DGX超级计算机是推进AI产业变革的工厂。新一代DGXSuperPOD集加速计算、网络和软件方面的最新进展于一身，能帮助每一个公司、行业和国家完善并生成自己的AI，」黄仁勋说道。

有了Blackwell，我们距离生成式AI的实用化也更近了一步。

两大技术革新

第二代Transformer引擎、第五代NVLink

30倍AI算力是如何做到的？除了使用新制程，并联两块芯片以外，Blackwell的关键改进在于引入第二代Transformer引擎，它支持了FP4和FP6，使得计算、带宽和模型大小翻了一番。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

得益于新的微张量（micro-tensor）扩展支持和集成到英伟达TensorRT-LLM和NeMoMegatron框架中的先进动态范围管理算法，Blackwell通过4-bit浮点AI推理能力支持了双倍的算力和模型大小。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

当互联大量此类GPU时，第二个关键区别开始显现：下一代NVLink交换机可让576个GPU相互通信，具有每秒1.8TB的双向带宽。

英伟达表示，此前，仅由16个GPU组成的集群会在相互通信上花费60%的时间，而只有40%的时间用于实际计算。

现在，英伟达的NVLinkSwitchChip可以让所有这些芯片互联起来，全速运转没有瓶颈（1.8TB/s，几乎比上代快10倍），并帮助构建了DGXGB200NVL72。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

通过高速互联的机制，DGXGB200NVL72可以被认为是一个超级GPU，FP8训练吞吐量高达720PFLOPS、FP4推理吞吐量为1.44ExaFLOPS，多节点All-to-All通信速度为130TB/秒，多节点All-Reduce通信速度为260TB/秒。

在具体架构方面，DGXGB200NVL72拥有18个GB200节点机架，每个节点搭配2个GB200GPU。此外还有9个NVSwitch机架，从而为GB200NVL提供了720PFLOPS的FP8吞吐量，以及FP4精度的ExaFLOPS。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

所以今年画风变了现在DGX长这样：拥有5000条NVLink电缆，长达2英里，都是铜电缆，不需要光收发器，节省了20kW的计算成本。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

它的功耗过大，以至于需要用液冷，同时重量高达3000磅（约1361公斤）。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

2016年，老黄扛着第一个DGX系统给OpenAI，这才有了如今的ChatGPT。那个时候DGX的算力是0.17Petaflops，现在这个GB200，算力是以Exaflop计算的。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍

在英伟达新的摩尔定律下，算力的提升速度居然还加快了。

构建生态，入场具身智能

除了硬件系统，英伟达也利用生成式AI构建了一系列元宇宙、工业数字孪生、机器人训练软件体系。

英伟达表示，它正在将Omniverse企业技术引入苹果。这个想法是让开发人员通过VisionPro在AR/VR设置中使用Omniverse工具。在GTC上，英伟达展示了设计师是如何通过VisionPro使用汽车配置工具来操纵车辆，然后虚拟地进入其中的。人们可以通过OmniverseCloudAPI以及通过云端直接流式传输到VisionPro的图形传输网络来做到这一点。

最后，还有前沿方向机器人的工作，英伟达公布了人形机器人项目GR00T。

在今天的主题演讲中，黄仁勋展示了多个由GR00T驱动的人形机器人如何完成各种任务，包括来自AgilityRobotics、Apptronik、傅利叶智能（FourierIntelligence）和宇树科技（UnitreeRobotics）的机器人产品。

英伟达吞噬世界！新架构超级GPU问世，AI算力一步提升30倍