专访高通高级副总裁：年内可支持100亿参数大模型在手机上运算

2023-07-14 11:25:16 - 澎湃新闻

·“100亿-150亿参数级别的模型可以覆盖绝大多数生成式AI的用例。如果终端已经可以支持这一参数级别，那么运算可全部在终端上进行，无需云端处理运算。届时我们会拥有非常丰富的使用场景，手机会成为您真正的个人助理。”

大模型和生成式AI在公众的印象中，仍然是大算力和大功耗的代表，但实际上，完全断网的飞行模式下，在手机上离线运行大模型已经成为现实。

高通AI引擎由多个硬件和软件组件组成，用于在骁龙移动平台上为终端侧AI推理加速。它采用异构计算架构，包括高通Hexagon处理器、AdrenoGPU、KryoCPU和传感器中枢，共同支持在终端上运行AI应用程序。上图为第二代骁龙8移动平台的高通AI引擎。

在2023年世界人工智能大会上，高通技术公司（Qualcomm）展示了全球首个在终端侧运行生成式AI（AIGC）模型StableDiffusion的技术演示，和全球最快的终端侧语言-视觉模型（LVM）ControlNet运行演示。这两款模型的参数量已经达到10亿-15亿，仅在十几秒内就能够完成一系列推理，根据输入的文字或图片生成全新的AI图像。

在接受澎湃科技（www.thepaper.cn）专访时，高通技术公司产品管理高级副总裁兼AI负责人ZiadAsghar进一步表示，“本年度我们将能够支持参数达100亿的生成式AI模型在手机上运行，这意味着未来大多数的用例将能够完全依靠手机端就能够完成。我们在技术层面已经做好了准备。”

生成式AI进入未来生活的趋势已经不可阻挡，为了让生成式AI规模化扩展到更多终端设备中，高通提出了混合AI架构的运行方式，即在云端和设备终端的边缘侧之间分配算力，协同处理AI工作负载。近期发布的白皮书《混合AI是AI的未来》中，高通也提到“在以终端为中心的混合式AI架构中，云端仅用于处理终端侧无法充分运行的AI任务。”

5G技术的广泛应用让从中心云、到边缘云、再到终端侧的信息得以无缝传输和协同计算。Asghar表示，在数据产生的地方直接进行高效推理才是大趋势。而数据产生的地方正是在端侧，比如手机端或电脑端。在高通AI软件栈（QualcommAIStack）的帮助下，手机端的能力更是可以在其他设备端实现复制，如PC、AR/VR、汽车和物联网IoT设备。

手机上的长期技术优势

高通在手机处理器芯片中的地位毋庸置疑，当国内外手机品牌比拼技术参数时，都会以搭载高通骁龙处理器作为卖点。此次高通对混合AI技术路线的提出，让人自然联想到高通在手机上的优势。对此，Asghar也向澎湃科技直言，“高通支持生成式AI在终端侧进行推理，是因为我们完全有能力支持在手机上进行10亿、15亿甚至未来上百亿参数规模的模型运算。”

“100亿-150亿参数级别的模型可以覆盖绝大多数生成式AI的用例。”Asghar介绍，“如果终端已经可以支持这一参数级别，那么运算可全部在终端上进行，无需云端处理运算。届时我们会拥有非常丰富的使用场景，手机会成为您真正的个人助理，与手机交流和交互，能够成为我们日常行为的自然延伸，如用于预约会议、写邮件，以及在娱乐和内容生产上。”

希望在终端侧进行生成式AI的运算，最首要的原因是隐私保护。如果要通过云端进行生成式AI的查询，用户输入和查询的相关信息也会传送到云端，从而造成潜在的安全风险。与之相对，在端侧通过生成式AI进行查询的话，所有信息都能够保留在端侧。另外，终端侧的运算会带有丰富的情境信息，如手机和VR/AR（虚拟现实/混合现实）设备上，消费者本人的移动状态、个人偏好，设备上的多媒体信息等都可以被生成式AI捕捉，带来比云端更好的沉浸式体验。

要在终端侧支持100亿-150亿参数的AI大模型，需要非常强大的终端侧AI技术和算力支持。Asghar介绍，终端设备每年在性能上都有长足的进步，这主要是因为高通在许多芯片模块上都实现了技术迭代，比如CPU、GPU和Hexagon处理器（高通的AI专用处理器）。

“高通的DNA是以低功耗实现高性能，这是我们在所有产品设计研发方面的宗旨，AI计算更是这样。”Asghar提到StableDiffusion的运算时进一步表示，“StableDiffusion如果通过云端计算，需要几百瓦的功率，但在高通芯片组的支持下，在终端设备能够实现仅毫瓦级别的功耗，这是高通最大的竞争优势之一。”

将技术优势拓展到其他终端

实际上，高通在手机上的先进技术在其他设备端也实现了复制，比如在汽车领域，高通的汽车ADAS应用同样做到了更低功耗。Asghar介绍，高通有些产品线的AI性能比其他产品线更高，“比如汽车平台，因为汽车芯片的尺寸更大，可以支持更高算力，PC平台也是同理。”

“在高通，我们有‘统一的技术路线图’，它包括一系列高通独特的知识产权和技术，是高通不同业务解决方案的核心。我们可以将这些核心技术广泛扩展到不同的产品线。”Asghar介绍，“同样的Hexagon处理器和高通AI软件栈，可以应用于我们全部的业务线，包括手机以及AR、VR等终端。”

在AI计算的实现上，软件与硬件同样重要，因为必须在端侧做到运算更快，效率更高，并推动AI应用在广泛终端上的部署和普及。这也是2022年6月高通推出高通AI软件栈（QualcommAIStack）的原因。高通AI软件栈支持包括TensorFlow、Pytorch和ONNX在内的所有主流开发框架，所有runtimes（运行时，即某门编程语言的运行环境）和操作系统。借助高通AI软件栈，开发者在智能手机领域开发的软件可以快速扩展至汽车、XR、可穿戴设备等其他产品线进行使用。

高通AI软件栈这种一次开发就能全面部署所有产品线的优势，也为高通打造生态圈奠定了基础。基于高通分布于各个领域的知识产权和技术，高通能够横跨多个生态系统，与行业领军企业进行深入合作，例如在PC领域，2023年5月微软Build大会上，高通和微软宣布合作关系，将面向消费级和企业级终端规模化扩展AI能力。在AR/VR终端方面，2022年9月，高通也与Meta进行了合作，为MetaQuest平台提供定制骁龙XR平台。

“未来我们需要加大终端侧技术上的研发，尤其是进一步提升量化的算法。例如服务器上训练的模型一般采用32位浮点运算（FP32），而我们在手机端现在能够支持INT4计算，这能大大提高端侧的处理能力。”Asghar说。