AMD 即将夺得英伟达的 AI 领先地位

2024-09-21 18:09:09 - 美股研究社

AMD 即将夺得英伟达的 AI 领先地位

作者| KumquatResearch

英伟达( NASDAQ: NVDA )长期以来在GPU领域无人能及,尤其在AI应用领域的领先地位似乎难以逾越。虽然这种局面可能不会在明天发生改变,但MLCommons(一个由供应商领导的组织,旨在以公平和可控的方式展示其处理器性能)发布的最新AI基准测试表明,竞争肯定正在加剧。该组织几周前发布了MLPerfInferencev4.1基准测试结果,显示AMD ( AMD )在AI推理工作负载方面的表现正在缩小与英伟达的差距。

虽然AMD从破产边缘强势回归,并在数据中心CPU业务上超越英特尔公司,但尽管AMD进军GPU加速器市场,英伟达仍然能够保持其在GPU领域的领先地位。这其中的原因有很多,但最主要的原因还是英伟达处理器的绝对性能优势。当英特尔努力扩展其10纳米(Intel7)节点时,台积电一路领先,让AMD能够在更优越的节点上设计处理器,抢走英特尔的饭碗。英伟达一直以来基本上都是无晶圆厂的,因此它避免了这样的陷阱,并能够专注于其工程师擅长的领域,设计尖端处理器。

而且他们在这方面确实很擅长。无论是在游戏还是数据中心,AMD在性能和功耗方面一直落后英伟达几代。然而,随着AMD凭借其EPYC系列CPU在数据中心服务器市场取得成功,它得以将其重新投资于GPU研发计划,并开始取得成果。

虽然英伟达在AI训练性能方面仍遥遥领先,但AI真正的摇钱树是推理工作负载。简单概括一下两者的区别,训练是使用数据集“教导”AI模型的过程,而推理是教导后的模型对以前未见过的数据进行预测的过程。英特尔首席执行官PatGelsinger举了一个创建天气模型与使用天气模型的例子:只有少数组织可以预测天气,但每天有数亿人查看天气预报。很容易看出为什么推理基准会吸引人们的注意力。

MLPerfInferencev4.1包含了众多芯片制造商的最新性能结果,但让我们重点关注AMD和Nvidia。在我看来,最重要的一点是英伟达的领先优势正在缩小。AMD首次在推理工作负载中表现出与英伟达当前一代处理器相当的性能:

AMD 即将夺得英伟达的 AI 领先地位

无论是在服务器还是离线推理工作负载中,AMD的MI300X每秒令牌数与英伟达的H10080GBGPU基本持平(服务器模式更接近真实世界的交互方式)。不知道这些GPU的零售价到底是多少,但AMD对其加速服务器产品的定价很激进,而净利润率超过50%的英伟达则不然。这是AMD在CPU市场上削弱英特尔所采用的相同策略,由于上面看到的性价比相当,该策略可能会将一些客户从英伟达手中抢走。

此外,MI300X实际上有192GB的HBM3内存,这比H100的80GB和H200的141GB要大得多。这些评估中使用的型号Llama270B相当轻量,因此这些基准测试可能低估了AMD处理器的性能。

基准测试中还包括了英伟达对这场较量的看法:

AMD 即将夺得英伟达的 AI 领先地位

从这两张图片可以看出,AMD想要强调与H100的对等性,而英伟达则想要强调与H200的对等性。两者的观点都有道理。AMD希望提醒大家注意这样一个事实:它在提供可行的替代方案以取代英伟达的主导地位方面已经取得了长足进步,而英伟达则表明性能差距仍然很大。

英伟达的管理层显然更有能力,但错误和失误总是会发生。例如,虽然最终延迟的时间很短,但英伟达的下一代Blackwell系列GPU的发布却因为影响产量的小设计缺陷而被推迟。随着处理器变得越来越复杂,设计缺陷出现的可能性也越来越大,看似巨大的技术领先优势可能会化为泡影。

至于Blackwell,英伟达仅提交了B200(功能更强大的Blackwell芯片)的基准测试,该芯片在Llama2-70B型号的服务器模式下表现出色,每秒10,755个令牌(虽然尚不清楚这其中有多少是由于硬件改进或对FP4的支持)。这比H100和MI300X提高了近4倍,比H200提高了2.5倍。

虽然这一切听起来令人印象深刻,但我们不应该忽视,B200的零售价肯定会是MI300X的两倍以上,而且其功率要求会高得多。B100的价格将介于两者之间。尽管如此,即使价格大幅上涨,价值主张肯定会转向英伟达有利的方向。而且由于这个周期永无止境,AMD也计划在第四季度发布一款新产品:MI325X。

AMD计划在其年度AdvancingAI活动上提供有关这款芯片发布的更多细节,届时它将概述性能、效率和内存大幅提升方面的改进。具体来说,MI325X将配备288GB的HBM3E内存(比HBM3更密集),这也明显高于B100和B200的192GBHBM3E,为AMD在大型AI模型的推理工作负载方面提供了可能的价值优势。

尽管如此,重要的是要记住硬件只是等式的一边:英伟达真正的护城河在于其CUDA软件层,这是实际使用这些模型创建应用程序的开发人员的黄金标准。AMD已将ROCm打造为一种可用的替代方案,但与CUDA相比,它的采用率仍然很低,而且在这种情况发生改变之前,英伟达当前的客户群将保持粘性,不愿意切换生态系统。

从纯计算角度来看,AMD似乎正在缩小与英伟达在AI推理工作负载方面的差距。后者仍具有许多优势,AMD必须逐步弥补,但AMD看涨者应该对所取得的进展感到兴奋。

未来几年,整个人工智能市场将继续维持AMD和NVDA的高估值。随着云提供商和其他大型科技公司为刚刚开始的人工智能革命而扩大规模,GPU加速器市场可能会保持强劲。尽管AMD取得了进展,但英伟达拥有专业知识、利润率和市场定位,能够继续取得成功。

在这一波Blackwell处理器的推动下,随着新的高利润处理器进入产品组合,该公司本已疯狂的利润率可能会进一步提升,在人工智能应用领域继续保持领先地位,而且软件护城河似乎坚不可摧,因此英伟达值得买入。我建议看涨者密切关注这些基准,看看该公司是保持、失去还是扩大了对AMD和其他竞争对手的领先优势。

不过,AMD的风险回报状况比英伟达更具吸引力。GPU加速器市场将在很长一段时间内利润丰厚,而AMD的市场份额仍然很小,因此随着该公司改进其产品并继续缩小与英伟达的差距,其潜在的上升空间似乎是不可避免的。现在,这可能需要数年甚至更长时间才能实现,因此任何希望购买AMD股票以从该公司用MI325X或MI350X蚕食英伟达的市场份额中获益的人可能都想先手。但从长远来看,AMD是一家涉足所有正确领域并且其竞争地位正在朝着正确方向发展的公司。这些因素使AMD成为强力买入股票。

今日热搜