英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

2024-03-19 07:44:50 - 市场资讯

「这才是我理想中的GPU。」——黄仁勋。

来源:机器之心

「这不是演唱会。你们是来参加开发者大会的!」老黄出场时,现场爆发出了巨大的欢呼声。

今天凌晨四点,加州圣何塞,全球市值第三大公司英伟达一年一度的GTC大会开始了。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

今年的GTC大会伴随着生成式AI技术爆发,以及英伟达市值的暴涨。相对的是,算力市场也在升温,硬件和软件方面的竞争都在加剧。

而英伟达带来的产品,再次将AI芯片的标杆推向了难以想象的高度。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

「通用计算已经失去动力,现在我们需要更大的模型,我们需要更大的GPU,更需要将GPU堆叠在一起。」黄仁勋说道。「这不是为了降低成本,而是为了扩大规模。」

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

黄仁勋提到,大模型参数量正在呈指数级增长,此前OpenAI最大的模型已经有1.8T参数,需要吞吐数十亿token。即使是一块PetaFLOP级的GPU,训练这样大的模型也需要1000年才能完成。这句话还透露了一个关键信息:GPT-4的实际参数量应该就是1.8万亿。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

为了帮助世界构建更大的AI,英伟达必须首先拿出新的GPU,这就是Backwell。此处老黄已有点词穷了:「这是块非常非常大的GPU!」

Blackwell的发布意味着,近八年来,AI算力增长了一千倍。一些网友看完发布会惊叹:Nvidiaeatsworld!

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

2080亿个晶体管的Blackwell

同行不知应该怎么追

虽然全球的科技公司都还在争抢H100芯片,但新一代产品已来。

在今天的大会上,英伟达正式推出了Blackwell平台。从此以后,在数万亿参数上构建和运行实时生成式AI大型语言模型的成本和能耗降低到此前的25分之一。

Blackwell的名字旨在纪念第一位入选美国国家科学院的黑人学者、数学家和博弈论学家DavidHaroldBlackwell,它继承了HopperGPU架构,为加速计算树立了新的标准。英伟达表示,Blackwell架构的GPU预计将于今年晚些时候发货。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

DavidHaroldBlackwell。图源britannica

正如预期的一样,Blackwell是英伟达首个采用MCM(多芯片封装)设计的GPU,在同一个芯片上集成了两个GPU。

在活动现场,黄仁勋对比了Blackwell(右手)与HopperGH100GPU(左手)的尺寸大小。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

It’sOK,Hopper.

黄仁勋表示,Blackwell将成为世界上最强大的芯片。Blackwell架构的GPU拥有2080亿个晶体管,采用定制的、双reticle的台积电4NP(4N工艺的改进版本)制程工艺,两块小芯片之间的互联速度高达10TBps,可以大幅度提高处理能力。

此处需要强调的是,没有内存局部性问题或缓存问题,CUDA将其视为单块GPU。

它还带有192GB速度为8Gbps的HBM3E内存,AI算力能达到20petaflops(FP4精度),相比之下,上代的H100「仅为」4petaflops。

这是世界上第一次有如此高效整合在一起的多die芯片,或许也是在制程升级速度减慢之后,升级算力的唯一方法。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

黄仁勋提到,Blackwell不是芯片名,而是整个平台的名字。具体来讲,采用Blackwell架构的GPU分为了B200和GB200产品系列,后者集成了1个GraceCPU和2个B200GPU。

其中B200GPU通过2080亿个晶体管提供高达20petaflops的FP4吞吐量。而GB200GPU通过900GB/秒的超低功耗芯片到芯片连接,将两个B200GPU连接到1个GraceCPU上。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

GB200架构,包含两个GPU和一个CPU。

相较于H100TensorCoreGPU,GB200超级芯片可以为大语言模型(LLM)推理负载提供30倍的性能提升,并将成本和能耗降低高达25倍。

「人们认为我们制造GPU,但GPU看起来并不像以前那样了,」黄仁勋表示。「我现在一手拿着100亿,一手拿着50亿。」

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

现在,显卡不再是显卡,而是作为系统整体售卖,毕竟只有通过英伟达自家的组件才能达到最佳效率。「现在我们卖的GPU是7000个组件,3000磅重。」

基于Blackwell的AI算力将以名为DGXGB200的完整服务器形态提供给用户,结合了36颗NVIDIAGraceCPU和72块BlackwellGPU。这些超级芯片通过第五代NVLink连接成一台超级计算机。

再往上扩展,GraceBlackwell架构的DGXSuperPOD由8个或以上的DGXGB200系统构建而成,这些系统通过NVIDIAQuantumInfiniBand网络连接,可扩展到数万个GB200超级芯片。用户可通过NVLink连接8个DGXGB200系统中的576块BlackwellGPU,从而获得海量共享显存空间,来训练下一代AI模型。

再详细对比一下性能的升级,以前使用Hopper训练GPT-MoE-1.8T,8000块GPU要花费90天,同样的事只需要2000块GB2000,能耗也只需要四分之一。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

生成式AI的下一步是多模态和视频,也就意味着更大规模的训练,Blackwell带来了更多可能性。

此外,大模型(LLM)的大规模推理始终是一个挑战,并非适合单个GPU的任务。在具有1750亿个参数的GPT-3LLM基准测试中,GB200的性能是H100的7倍,并且训练速度是H100的4倍。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

现在,用于大模型推理的速度是上代的30倍,黄仁勋展示了一张对比图,蓝线是Hopper。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

「DGX超级计算机是推进AI产业变革的工厂。新一代DGXSuperPOD集加速计算、网络和软件方面的最新进展于一身,能帮助每一个公司、行业和国家完善并生成自己的AI,」黄仁勋说道。

有了Blackwell,我们距离生成式AI的实用化也更近了一步。

两大技术革新

第二代Transformer引擎、第五代NVLink

30倍AI算力是如何做到的?除了使用新制程,并联两块芯片以外,Blackwell的关键改进在于引入第二代Transformer引擎,它支持了FP4和FP6,使得计算、带宽和模型大小翻了一番。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

得益于新的微张量(micro-tensor)扩展支持和集成到英伟达TensorRT-LLM和NeMoMegatron框架中的先进动态范围管理算法,Blackwell通过4-bit浮点AI推理能力支持了双倍的算力和模型大小。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

当互联大量此类GPU时,第二个关键区别开始显现:下一代NVLink交换机可让576个GPU相互通信,具有每秒1.8TB的双向带宽。

英伟达表示,此前,仅由16个GPU组成的集群会在相互通信上花费60%的时间,而只有40%的时间用于实际计算。

现在,英伟达的NVLinkSwitchChip可以让所有这些芯片互联起来,全速运转没有瓶颈(1.8TB/s,几乎比上代快10倍),并帮助构建了DGXGB200NVL72。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

通过高速互联的机制,DGXGB200NVL72可以被认为是一个超级GPU,FP8训练吞吐量高达720PFLOPS、FP4推理吞吐量为1.44ExaFLOPS,多节点All-to-All通信速度为130TB/秒,多节点All-Reduce通信速度为260TB/秒。

在具体架构方面,DGXGB200NVL72拥有18个GB200节点机架,每个节点搭配2个GB200GPU。此外还有9个NVSwitch机架,从而为GB200NVL提供了720PFLOPS的FP8吞吐量,以及FP4精度的ExaFLOPS。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

所以今年画风变了现在DGX长这样:拥有5000条NVLink电缆,长达2英里,都是铜电缆,不需要光收发器,节省了20kW的计算成本。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

它的功耗过大,以至于需要用液冷,同时重量高达3000磅(约1361公斤)。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

2016年,老黄扛着第一个DGX系统给OpenAI,这才有了如今的ChatGPT。那个时候DGX的算力是0.17Petaflops,现在这个GB200,算力是以Exaflop计算的。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

在英伟达新的摩尔定律下,算力的提升速度居然还加快了。

构建生态,入场具身智能

除了硬件系统,英伟达也利用生成式AI构建了一系列元宇宙、工业数字孪生、机器人训练软件体系。

英伟达表示,它正在将Omniverse企业技术引入苹果。这个想法是让开发人员通过VisionPro在AR/VR设置中使用Omniverse工具。在GTC上,英伟达展示了设计师是如何通过VisionPro使用汽车配置工具来操纵车辆,然后虚拟地进入其中的。人们可以通过OmniverseCloudAPI以及通过云端直接流式传输到VisionPro的图形传输网络来做到这一点。

最后,还有前沿方向机器人的工作,英伟达公布了人形机器人项目GR00T。

在今天的主题演讲中,黄仁勋展示了多个由GR00T驱动的人形机器人如何完成各种任务,包括来自AgilityRobotics、Apptronik、傅利叶智能(FourierIntelligence)和宇树科技(UnitreeRobotics)的机器人产品。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

GR00T脱胎于英伟达的Isaac机器人平台工具,基于新的通用基础模型,GR00T驱动的人形机器人能够接受文本、语音、视频甚至现场演示的输入,并对其进行处理以采取特定的操作,包括理解自然语言、模拟人类行为、在现实世界中导航和交互。

英伟达还开发了一种新型「机器人大脑」计算芯片JetsonThor,能够执行复杂的任务并使用Transformer引擎处理多个传感器。

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

人形机器人赛道近期达到了一个新的火热程度。就比如英伟达的「大客户」OpenAI,一直在使用自己的AI模型来为一家名为Figure的初创公司的人形机器人提供支持。

现在英伟达也把它摆在了重要位置,正如黄仁勋所说:「机器人的ChatGPT时刻可能即将到来。」

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

你准备好了吗?

今日热搜