全球最大芯片，进军推理：1800 token/秒，全球最快

2024-08-28 15:34:00 - 华尔街见闻

Cerebras推出专为训练AI模型的“全球最大芯片”WSE-3AI后，进军推理市场，并推出“全球最快”AI推理服务。分析称，该推理服务不仅加速了AI模型的执行速度，还可以改变企业对在现实应用中部署和与AI交互的看法。

自推出了使用一整个晶圆制造的芯片以来，Cerebras在过去几年里的宣传，都是以攻进英伟达所把持的AI芯片市场为目标。

在今年年初，CerebrasSystems推出了专为训练AI生态系统最大的AI模型而设计的WSE-3AI芯片。据介绍，这颗基于5nm、4万亿晶体管的WSE-3为CerebrasCS-3AI超级计算机提供动力，通过900,000个AI优化计算核心提供125千万亿次峰值AI性能。值得注意的是，这是半导体代工合作伙伴台积电目前可以生产的最大尺寸。

从该公司CEOAndrewFeldman过去多年的采访可以看到，这位CerebrasSystems掌舵人对英伟达充满着“敌意”（或者说酸？）。考虑到英伟达过去几年的表现，这可以理解的。为此，在过去一直在强攻训练市场之后，CerebrasSystems往推理市场，发起新一轮的冲击。

颠覆传统，推出“全球最快”AI推理服务

熟悉行业的读者应该知道，在许多现代生成式AI工作负载中，推理性能通常取决于内存带宽，而不是计算。将比特传入和传出高带宽内存(HBM)的速度越快，模型生成响应的速度就越快。

CerebraSystems的首款推理产品基于其之前发布的WSE-3加速器，打破了这一争论。这是因为与HBM不同，餐盘大小的硅片非常大，以至于这家初创公司表示，它已经成功封装了44GB的SRAM，带宽为21PBps。从这个角度来看，单个NvidiaH200的HBM3e仅拥有4.8TBps的带宽。

据首席执行官AndrewFeldman（安德鲁·费尔德曼）介绍，通过使用SRAM，该部件在以16位精度运行Llama3.18B时每秒能够生成1,800个以上的token，而性能最高的H100实例每秒最多可生成242个token。

全球最大芯片，进军推理：1800 token/秒，全球最快

当运行分布在其四个CS-3加速器上的700亿参数版本的Llama3.1时，Cerebras声称每秒可处理450个token。相比之下，Cerebras表示H100所能处理的最佳速度是每秒128个token。

全球最大芯片，进军推理：1800 token/秒，全球最快

费尔德曼认为，这种性能水平就像宽带的兴起一样，将为人工智能的采用开辟新的机会。“今天，我认为我们正处于人工智能的拨号时代，”他说，并指出生成式人工智能的早期应用，其中提示的响应会明显延迟。

他认为，如果你能足够快地处理请求，那么基于多个模型构建代理应用程序就可以避免延迟问题。Feldman认为这种性能的另一个好处是允许LLM通过多个步骤迭代他们的答案，而不是直接给出他们的第一个响应。如果你能足够快地处理标记，那么你就可以掩盖这是在幕后发生的事实。

但是，尽管每秒1,800个token可能看起来很快，事实也确实如此，但经过简单的计算我们发现，如果不是因为系统计算能力受限的话，Cerebra的WSE-3应该能够以更快的速度吐出token。如上所说，该产品代表了Cerebras的一点转变，迄今为止，该公司主要专注于AI训练。然而，硬件本身并没有真正改变。Feldman表示r，它使用相同的WSE-3芯片和CS-3系统进行推理和训练。而且，这些并不是没有达到训练要求的废弃部件——我们问道。

“我们所做的是扩展了编译器的功能，使其能够同时在芯片上放置多层，”费尔德曼说。

有分析人士直言，Cerebras的AI推理服务不仅加速了AI模型的执行速度，还可以改变企业对在现实应用中部署和与AI交互的看法。

分析人士表示，在典型的AI推理工作流程中，大型语言模型（例如Meta的LLaMA或OpenAI的GPT-4o）都存放在数据中心，应用程序编程接口(API)会调用它们来响应用户查询。这些模型非常庞大，需要大量计算资源才能高效运行。GPU是当前AI推理的主力，承担着繁重的任务，但它们在这些模型的重压下苦苦挣扎，尤其是在模型内存和计算核心之间移动数据时。

但借助Cerebras的新推理服务，模型的所有层（目前是80亿参数版本和700亿参数版本的LLaMA3.1）都直接存储在芯片上。当向模型发送提示时，数据几乎可以立即得到处理，因为它不必在硬件内长距离传输。

值得一提的是，这种性能水平已由提供独立AI模型分析的ArtificialAnalysisInc.验证，是前所未有的，为AI推理树立了新标准。ArtificialAnalysisInc.联合创始人兼首席执行官MicahHill-Smith表示：“CerebrasInference的速度突破了性能边界，而且价格极具竞争力，因此对于具有实时或大容量需求的AI应用开发者来说尤其具有吸引力。”

Hill-Smith进一步指出：“对于Meta的Llama3.18B和70BAI模型，Cerebras的速度比基于GPU的解决方案快一个数量级。”“我们在Llama3.18B上测量到每秒输出token超过1,800个，在Llama3.170B上测量到每秒输出token超过446个——这些基准测试中创下了新纪录。”

它的价格也很有竞争力，Cerebras表示，该服务的起价仅为每百万个token10美分-相当于AI推理工作负载的性价比高100倍。他们补充说，CerebrasInference服务特别适合“agenticAI”工作负载，即可以代表用户执行任务的AI代理，因为此类应用程序需要能够不断提示其底层模型。

SRAM，突破极限的武器

据相关报道所说，Cerebras之所以能达成这个成就，与他们独特的设计有关。

众所周知，当今推理速度受限于连接GPU和内存及存储的网络瓶颈。连接内存和核心的电路每单位时间只能传输有限量的数据。虽然电子在导体中移动迅速，但实际数据传输速率受到信号可靠发送和接收频率的限制，并受到信号衰减、电磁干扰、材料特性以及数据传输所必须经过的线路长度的影响。

而在传统的GPU设置中，模型权重存储在与处理单元分开的内存中。这种分离意味着在推理过程中，需要通过细线在内存和计算核心之间不断传输大量数据。Nvidia和其他公司尝试了各种配置来最大限度地缩短这些数据需要传输的距离——例如，在GPU封装中将内存垂直堆叠在计算核心之上。

Cerebras的新方法从根本上改变了这一模式。Cerebras不是将晶体管核心蚀刻到硅晶片上并将其切成芯片，而是在单个晶片上蚀刻多达900,000个核心，从而无需在各个芯片之间进行外部布线。WSE上的每个核心都结合了计算（处理逻辑）和内存（静态随机存取存储器或SRAM），形成一个独立的单元，可以独立运行或与其他核心协同运行。

模型权重分布在这些核心上，每个核心存储整个模型的一部分。这意味着没有一个核心可以容纳整个模型；相反，模型被拆分并分布在整个晶圆上。

“我们实际上将模型权重加载到晶圆上，所以它就在核心旁边，”Cerebras产品和战略高级副总裁AndyHock解释道。这种配置允许更快的数据访问和处理，因为系统不需要通过相对较慢的接口不断地来回传送数据。

Cerebras表示，其架构在LLaMA3.1等模型的推理性能方面可以达到“市场上其他产品10倍”，尽管这还有待进一步验证。重要的是，Hock声称，由于GPU架构的内存带宽限制，“实际上没有多少GPU可以像我们一样快速完成这些推理任务”。

全球最大芯片，进军推理：1800 token/秒，全球最快

通过优化大型模型的推理，Cerebras正在定位自己以满足快速增长的市场对快速、高效的AI推理能力的需求。

换而言之，这种设计从某种程度上是让SRAM去取替更昂贵的HBM。虽然SRAM在性能方面明显优于HBM，但它的不足之处在于容量。对于大型语言模型(LLM)来说，44GB根本不够，因为您还必须考虑到键值缓存在Cerebras所针对的高batchsizes下占用了相当大的空间。Meta的Llama38B模型是WSE-3的理想化场景，因为大小为16GB（FP16），整个模型可以装入芯片的SRAM中，为键值缓存留下大约28GB的空间。

Feldman声称，除了极高的吞吐量之外，WSE-3还可以扩展到更大的batchsizes，但对于它究竟能扩展到多大程度并维持每个用户的token生成率，这家初创公司不愿透露。

“我们目前的batchsizes经常变化。我们预计第四季度的batchsizes将达到两位数，”Cerebras告诉我们。

当被问及更多细节时，该公司补充道：“我们目前的batchsizes还不成熟，所以我们不想提供它。该系统架构设计用于高batchsizes，我们预计在未来几周内实现这一目标。”

与现代GPU非常相似，Cerebras通过在多个CS-3系统上并行化模型来解决这一挑战。具体来说，Cerebras使用管道并行性将模型的层分布在多个系统上。例如对于需要140GB内存的Llama370B，该模型的80个层分布在通过以太网互连的四个CS-3系统上。正如您所预料的，这确实会降低性能，因为数据必须跨越这些链路。

在高带宽内存和计算核心之间每秒也只能传输大约3TB的数据。这远远低于高效运行大型语言模型所需的每秒140TB的速度，而这种速度是高吞吐量的，不会遇到重大瓶颈。Cerebras声称：“我们内存和计算之间的有效带宽不仅仅是140TB，而是每秒21PB。”

从这些介绍可以看到，Cerebras能否撬动英伟达不知道，但第一个受害者，已经跃然纸上，那就是早阵子引起广泛讨论的Groq。

Groq，首当其冲

从设计上看，Groq的语言处理单元(LPU)实际上采用了与Cerebras类似的方法，即依赖SRAM。

Groq并不是AI芯片领域的新手，它由谷歌TPU的最初创造者JonathanRoss在2016年创立。但Groq不仅仅是更好的TPU。Ross和他的团队开发了一种新的架构，最初称为张量流处理器(TSP)，但现在更名为语言处理单元（LPU），再次获得良好的营销效果！TSP/LPU是一个巨大的芯片大小的内核，使用一种新颖的策略：确定性计算，可以非常高效地提供大量的FLOPS。

Groq的主要架构优势在于他们开发了一种完全确定性的架构，完全由软件控制。这实际上意味着什么？为什么它更有效率？因为大多数应用程序都是非确定性的。例如，想想文字处理器。文字处理器不知道您要输入的下一个字母，因此它必须准备好响应它收到的任何输入。事实证明，现代芯片的很多复杂性都来自于能够处理非确定性计算。

Groq卡实际上没有片外内存。每个芯片上有220MB的SRAM，仅此而已。这意味着，如果您想运行大型模型，您需要很多芯片。要运行LLaMA-70B，Groq使用了576个芯片。对于70B参数模型来说，这相当于8个机架。对于类似GPT-4等拥有1.76万亿个参数的模型，要在Groq系统上运行它，你需要超过10,000个芯片。每个机架包含72个芯片，因此每个GPT-4类系统实例需要100多个机架。此外，在这种规模下，将所有这些芯片联网开始增加瓶颈——目前，Groq的光学互连只能扩展到264个芯片，而不是10,000个。这正是Groq与Cerebras的不同之处——Groq的架构SRAM密度较低，因此需要通过光纤连接更多加速器来支持任何给定的模型。

Cerebras需要四个CS-3系统才能以每秒450个token的速度运行Llama370B，而Groq此前曾表示，它需要576个LPU才能突破每秒300个tokern的速度。Cerebras引用的人工分析Groq基准略低，为每秒250个token。

Feldman还指出，Cerebras无需借助量化就能做到这一点。Cerebras认为Groq使用8位量化来实现其性能目标，这减少了模型大小、计算开销和内存压力，但代价是准确性有所下降。

与Groq类似，Cerebras计划通过与OpenAI兼容的API提供推理服务。这种方法的优势在于，已经围绕GPT-4、Claude、Mistral或其他基于云的模型构建应用程序的开发人员无需重构其代码即可整合Cerebra的推理产品。

在成本方面，Cerebras也希望以每百万token60美分的价格提供低于竞争对手的Llama3-70B。而且，如果你想知道，这是假设输入与输出token的比例为3:1。

相比之下，Cerebras在竞争云上为H100提供相同模型的成本为每百万token2.90美元。不过，与AI推理一样，有很多旋钮和杠杆可以转动，直接影响提供模型的成本和性能，因此对Cerebra的说法持保留态度。

然而，与Groq不同的是，Feldman表示Cerebras将继续为某些客户提供内部部署系统，例如那些在严格监管的行业运营的客户提供内部部署系统。

虽然Cerebras可能比竞争加速器具有性能优势，但其支持的模型仍然有些有限。在发布时，Cerebras支持Llama3.1的80亿和700亿参数版本。不过，这家初创公司计划增加对4050亿、MistralLarge2、CommandR+、Whisper、PerplexitySonar以及自定义微调模型的支持。

绕开了英伟达最大门槛？

如报道所说，Nvidia之所以能牢牢占据AI市场，原因之一是其在计算统一设备架构（CUDA：ComputeUnifiedDeviceArchitecture）方面的主导地位，这是其并行计算平台和编程系统。CUDA提供了一个软件层，让开发人员可以直接访问GPU的虚拟指令集和并行计算元素。

多年来，Nvidia的CUDA编程环境一直是AI开发的事实标准，并围绕它建立了庞大的工具和库生态系统。这造成了一种情况，即开发人员经常被锁定在GPU生态系统中，即使其他硬件解决方案可以提供更好的性能。

Cerebras的WSE是一种与传统GPU完全不同的架构，需要对软件进行调整或重写才能充分利用其功能。开发人员和研究人员需要学习新工具和潜在的新编程范例才能有效地使用WSE。

Cerebras试图通过支持PyTorch等高级框架来解决这个问题，让开发人员更容易使用其WSE，而无需学习新的低级编程模型。它还开发了自己的软件开发工具包，以允许进行低级编程，可能为某些应用程序提供CUDA的替代方案。

但是，通过提供不仅速度更快而且更易于使用的推理服务（开发人员可以通过简单的API与其进行交互，就像使用任何其他基于云的服务一样），Cerebras使刚刚加入竞争的组织能够绕过CUDA的复杂性并仍然实现顶级性能。

这符合行业向开放标准的转变，开发人员可以自由选择最适合工作的工具，而不受现有基础设施限制的束缚。

对于这个的未来，大家怎么看啊？

本文作者：半导体行业观察，来源：半导体行业观察，原文标题：全球最大芯片，进军推理：1800token/秒，全球最快

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。