微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

2024-03-01 18:14:40 - AI科技大本营

出品|CSDN

“XX公司发布的大模型突破十亿/百亿/数百亿/千亿...参数!”

近年来,像这样的新闻标题层出不穷,因为人工智能大模型领域的竞争焦点之一便是模型规模的不断扩张,参数量高达数百亿乃至数千亿的大模型引发了媒体和行业的广泛关注。

部分公司也注意到了这点,开始换个方向“卷”,试图用更小的参数实现同样的效果,比如来自法国的Mixtral-7B在这段时间就成为了圈内的明星产品。新闻标题也逐渐变成了:

“XX公司发布的模型只用10B/7B/2B...就打赢了知名的YY大模型!”

然而,微软和中国科学院大学提出了一项最新研究——BitNetb1.58大模型,直接从根源上“弯道超车”,让1-bit大模型彻底颠覆我们对大模型的传统认知。

微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

原来“三进制”才是“版本答案”?

论文地址:https://arxiv.org/abs/2402.17764

微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

这篇论文名为《TheEraof1-bitLLMs:AllLargeLanguageModelsarein1.58Bits》,其前作《BitNet:Scaling1-bitTransformersforLargeLanguageModels》发布于去年10月。

当时,微软研究院、中国科学院大学和清华大学的研究者提出了一种名为BitNet的可扩展且稳定的1-bitTransformer架构,专为大型语言模型而设计。

传统的大语言模型通常采用的是高精度浮点数表示,比如FP16或BF16格式。这些格式可以理解为二进制系统下的小数表示法,它们能够存储从非常接近0到较大的数值范围内的连续值。

而在本次论文提出的 BitNetb1.58大模型中,参数不再是传统的浮点数,而是被量化为三元值{-1,0,1},这意味着每个参数仅能取这三个离散的整数值。这种转变实际上是从二进制连续数值系统跨越到了一个“准三进制”的离散系统。

微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

尽管计算机硬件的核心仍然是基于二进制进行运算,但通过将模型参数量化为三元状态,在训练和推理阶段就能够巧妙地用加法操作取代传统的矩阵乘法,从而大幅削减计算复杂度。并且,在配合针对这类低精度模型优化的硬件技术后,还能进一步提升执行速度。

如此一来,在确保模型性能基本不变的前提下,显著降低了计算所需的资源、存储空间以及数据在内存与处理器间传输的成本。

用网友的话来说,我们未来或许能用一张24G显存的显卡——甚至用消费级的GPU来运行120B的大模型。

微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

更有甚者,直接剑指老黄,寄希望于1-bit大模型推翻NVIDIA王朝。

微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

当前这篇论文可谓是备受瞩目,在X上的点赞有2.4k,阅读量也逼近了40万大关。

微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

接下来,让我们深入技术细节,看看所谓的“1-bit大模型”到底是怎么回事。

微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

1-bit大模型的创新秘诀

论文的前面就有提到,BitNetb1.58依旧基于去年提出的BitNet架构构建,该架构是一种对传统Transformer模型进行了特定改造的变体。在Transformer中通常会使用nn.Linear层来实现线性变换,而在BitNet架构中,则将这部分替换为BitLinear层。这意味着BitNet设计了一种新的权重表示和计算机制,可能是为了适应低bit量化的特性。

微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

想理解这个BitNetb1.58大模型首先要从其架构入手,该架构建立在三大基础之上:时空视频标记器(spatiotemporalvideotokenizer)、自回归动态模型(autoregressivedynamicsmodel)和潜在动作模型(latentactionmodel)。每个组件都经过微调以适应前文提到的{-1,0,1}三元参数,使得模型能够在没有直接动作标签(directactionlabels)的情况下从互联网上的无标注视频中学习。

微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

接下来再看一看BitNet的“PK结果”,参照对象当然是常被拉出来对比的“国际靶场”LLaMA;为了公正地比较BitNetb1.58与基于FP16的LLaMA大模型在不同规模下的性能,研究者首先对这些模型进行了重新训练。具体来说,所有模型都在RedPajama数据集上进行了预训练,训练量达到了1000亿个tokens,确保了对比基准的一致性。

评估中重点关注了模型每输出一个token所需的时间,因为这在推断过程中占据主要成本。结果显示,在模型规模达到30亿参数时,BitNetb1.58开始能与全精度的LLaMA大模型相匹敌,同时在速度上快了约2.71倍,且使用的GPU内存减少了3.55倍。

具体而言,当BitNetb1.58模型大小提升至39亿参数时,其速度比LLaMA-30b 快了约2.4倍,占用的内存减少了约3.32倍,但性能表现却显著优于LLaMA-30b。

如此震撼的结果,使得江湖上就此流传起 BitNet的名字……

微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

实际上,为了更好地融入开源社区,BitNet b1.58还采用了类似于LLaMA的设计元素。这样的设计使得BitNetb1.58能够轻松地集成到各种流行的开源软件平台中,如Huggingface、vLLM以及llama.cpp等项目,可以轻松完成整合。

微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

通过减少对高精度计算的依赖,BitNetb1.58为在资源受限环境下部署先进的大模型开辟了新可能,其中也包括移动设备和边缘计算平台。作为参考,我们可以基于如上两张图片的实验结果,将不同规模的BitNetb1.58模型与16-bit(即FP16)大模型进行对比:

对于拥有130亿参数的BitNetb1.58模型,在延迟、内存使用以及能源消耗这三个关键指标上,其效率优于同等大小为30亿参数的FP16大模型。

同样地,300亿参数规模的BitNetb1.58模型在上述三个方面表现出来的效率要高于70亿参数的FP16大模型。

更进一步,当模型参数量扩大到700亿时,1.58-bit的BitNetb1.58依然能够在延迟、内存占用及能耗方面,比具有130亿参数的FP16大模型更加高效。

随着模型参数数量的增长,BitNetb1.58在保持甚至提高计算性能的同时,相较于相同或更大规模的全精度浮点数大模型,显著降低了运行时所需的时间(延迟)、内存资源和能源消耗,从而展现出了更强的扩展性和更优的成本效益。

论文地址:https://arxiv.org/abs/2402.17764

微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

AI赋能物联网?

站在人工智能新时代的门槛上,BitNetb1.58不仅代表了向可持续AI发展迈出的重要一步,也为未来的创新奠定了基础。它的出现或许在呼吁开发者转向低成本+环保的AI模型,促使开发者重新评估如何设计、训练和部署大模型。

随着这类高效能模型的发展,原本只能在云端运行的大规模语言模型有望实现在终端设备上的本地化部署,它们在资源有限的边缘计算设备上具有广阔的应用前景。这将推动智能家电、可穿戴设备以及各类嵌入式系统实现更高性能的自然语言交互功能。

此外,1-bit大模型所采用的架构在硬件成本方面具有显著优势:正如前文所述,通过在某些计算阶段以加法操作替代传统的矩阵乘法,有效地减少了对晶体管数量的需求。

无论是电子游戏图形渲染还是神经网络深度学习,都需要大量并行执行浮点数运算,这份高性能需求为英伟达等公司赢得了当前市场主导地位。然而,1-bit架构的创新则为其他硬件制造商提供了赶超和颠覆现有格局的可能性。

可以预见,1-bit大模型很有可能成为驱动AI硬件领域变革的关键力量,引领一场新的技术革命。

4月25~26日,由CSDN和高端IT咨询和教育平台Boolan联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行,特邀近50位技术领袖和行业应用专家,与1000+来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众,共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网http://ml-summit.org、点击「阅读原文」或扫描下方海报中的二维码,进一步了解详情。

微软 x 国科大从底层掀翻大语言模型!1-bit LLMs 能推动 AI 硬件革命吗?

今日热搜