大模型深水区如何突破“数据关”？

2024-07-06 14:50:16 - 中国经营报

文/李欣醍

“2024世界人工智能大会”上，大模型如何走向深度应用成为重要议题，而海量数据支撑下的大模型迭代，也正在面临高质量数据匮乏的发展天花板。

大模型深水区如何突破“数据关”？

随着数据要素市场培育提速，隐私计算作为数据安全流通的关键技术，如何加快其技术开发以及商业化的速度成为市场关切。

这两项数据要素中的关键技术如何产生交集并解决制约市场发展的“真”问题？在刚刚结束的WAIC上，蚂蚁集团发布“隐语Cloud”大模型密算平台再次引发业界关注。2024年5月，蚂蚁公布未来十年的科技战略围绕人工智能和数据要素技术，随后成立了密算公司，此次隐语Cloud大模型密算平台，是该公司对外推出的第一款产品。

头部机构的业务布局一定程度反映了产业风向，隐私计算是否能够成为助推大模型规模化“深潜”的新引擎？

蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬表示，我们从两年前就坚定认为整个行业将走向数据密态时代，今天AI加速了这一趋势。隐私计算技术一定是从高价值的数据和场景开始应用，但它解决是全市场需求。当规模化后成本降低并突破临界点时，将会迎来大规模的落地。根据其团队测算，当全链路密态计算的成本是整个数据流通价值的5%左右时，就能够实现规模化推广。

大模型深水区遭遇数据“卡脖子”

大模型的应用正在走向行业应用，“向下”扎根的过程中，垂直大模型成为重要发力方向。与此同时，垂直大模型需要更多高质量数据以提供更精准服务，这也让用户担心其个人隐私、商业机密等会被模型方违规收集和滥用。

今年以来，多家国外大模型公司因侵权问题被卷入诉讼等争议引发全球关注，与此同时，大模型的迭代进展并不及预期。

市场共识在于，行业大模型要获得解决专业问题的能力，首先要经过数量充足、质量高的专业数据训练。然而，专业数据往往分散在不同的机构、企业中，并且由于价值大、保密要求高，难以流动。此外，在企业、大模型厂商和用户之间存在信任壁垒，企业担心数据对外泄露，大模型厂商担心模型资产安全，用户担心个人数据和隐私风险。

大模型深水区如何突破“数据关”？

在韦韬看来，数据供给决定了大模型能力的上限，而隐私计算技术决定了数据跨域供给的上限。当大模型从通用走向专业应用，从技术想象力走向产业的生产力，必须要解决高质量数据集稀缺与专业数据阻滞的挑战，否则大模型作为“智力引擎”，只会陷入空转。大量的高价值数据要深度融合，一定需要以密态方式来流转。

学界对于大模型如何安全发展也早有关注。上海市数据科学重点实验室主任肖仰华此前即撰文主张：发展大模型的同时要形成有效监管，对于隐私侵犯等破坏行为不能忽视，必须从产业的两侧加强安全底线、伦理标准与合规规范的建设：在数据源头端，加强对训练语料合规性的认证；在生成结果端，对生成内容建立起相关规范。

而制度建设之外，技术突破和商业解决方案上则需要产业界进行积极探索——是否能在模型与应用之间撕开一个中间层——为大模型发展装上“安全阀”，解决数据不敢用、不能用的问题？

近年来，随着《要素市场化配置综合改革试点总体方案》、央行《金融科技发展规划2022—2025》等顶层设计出炉，以及《个人信息保护法》助推，解决数据安全合规流通的隐私计算的行业权重正在抬升，已经得到了相当市场共识。

但作为新的赛道，无论技术体系、标准体系还是商业逻辑，都需要全行业共同探索。一个值得关注的信号是，今年5月底，蚂蚁集团对外公布了以人工智能和数据要素技术为核心的科技战略，随后成立了独立运营的密态计算公司——浙江蚂蚁密算科技有限公司，提供密算相关的产品和服务。

大模型深水区如何突破“数据关”？

韦韬透露，蚂蚁集团从2016年开始探索隐私计算技术，经历了技术探索、场景探索，以及规模化应用，成立密算公司，进一步展现了公司对于该赛道的长期信心。

隐私计算方案化破题

在隐私计算“商业化大网”中，技术效能和场景需求缺一不可。选择痛点最大的场景切入并提出合理的解决方案，是商业可行的关键。

此次蚂蚁推出的“隐语Cloud”大模型密算平台则是瞄准了大模型走向规模化应用的瓶颈问题。据了解，该平台首批即推出两大服务，分别为大模型密态托管和大模型密态推理。密态托管，指模型提供方可以将模型加密后托管在平台上，一键完成云上密态部署，保护模型资产不被泄漏和盗用；密态推理，指数据以密态形式完成推理，保护用户交互时的数据安全、商业机密等。

大模型深水区如何突破“数据关”？

据蚂蚁密算公司CEO王磊介绍，该平台支持GPU在可信执行环境下进行计算，使得大模型推理在密态形式下的响应时间和使用效率与明文大模型接近，从效能上实现了大规模商业可用。

此前，大模型在垂直行业应用时，许多企业通过私有化部署来应对数据安全挑战，这不仅增加企业的运维和服务成本，也影响对外服务的效率和质量。对行业的发展来说，私有化方案不利于多方数据跨领域、跨行业高效融合，无法进一步激发大模型的能力。

蚂蚁则在服务部署的模式上进行了创新。王磊透露，隐语Cloud大模型密算平台提供公有云和专有云交付方案，支持市面上主流的通用大模型。“以公有云为例，模型提供者可以一键加密上传自己的大模型，10分钟即可完成高可用推理服务的发布。用户通过网页就可以实现对模型的加密访问，无须感知到复杂的加密过程，即开即得。”他表示。

与此前行业常见的业务模式不同，蚂蚁在输出服务时更倾向采用云化的模式来提供解决方案。在王磊看来，促进数据真正流通，只有用云的方式才能实现规模化，继而把成本降下来。

在商业模式上，蚂蚁密算摒弃掉了此前常见的“卖软件”模式，而是通过“对结果负责”实现商业化。在王磊看来，这种对结果负责的意思在于，整个数据流通的过程中都能保证安全，全链路降低了成本和法律风险，数据价值得到了保障，在此过程中，服务提供方由于保障了数据价值而持续获得分润。

目前，蚂蚁对于这项技术有持续性的投入并已经在保险、农村信贷等场景得到了正反馈，比如通过将隐私计算运用在新能源车险的联合定价上，平均可为车主节省数百元。今年以来这项业务都保持着较大业务增速。

大模型深水区如何突破“数据关”？

王磊透露，隐语Cloud大模型密算平台的服务，将逐步覆盖到垂直大模型从构建到对外服务的全链路数据安全。“接下来，我们将为垂直大模型从预训练、微调、评测、推理到用户交互的全程提供密态计算服务，在大模型提供方、数据提供方、大模型使用方等之间实现数据可信安全流转。平台还将提供密态大模型开发所需的全链路工具，提供的服务包括密态检索增强生成、密态提示词、Agent流程编排等。”

“基石技术”如何用起来？

头部机构对技术的持续投入、长期看好，而非跟风，也让市场对隐私计算相关技术范式会否成为数据要素化过程中的“技术基石”非常关注。但隐私计算能否成为大模型迭代的重要技术，甚至成为数据要素流通市场的基石技术，还需要扫清一系列障碍。

首先是安全分级迫在眉睫。由于隐私计算技术路线众多，在产业落地应用中出现“讲不清”“看不懂”“不敢用”的情况。这与技术实际达到的水平之间有着巨大差异，需要尽快构建相关共识。

2024WAIC期间，由蚂蚁集团、中国通信标准化协会大数据技术标准推进委员会、深圳国家金融科技测评中心、清华大学牵头编写，国内16家机构参与编写《隐私计算产品通用安全分级》白皮书就对隐私计算安全分级面临的诸多难点进行了系统总结，包括技术路线特征不同难以进行统一分级、部分重要安全能力难以被分级和量化、安全是系统性问题涉及的维度多、范围广等。

针对以上挑战，《白皮书》也给出通用安全分级的设计思路——包括按照攻防效果分级来屏蔽不同技术路线差异，在“可证安全”和“不安全”之间增加一个“抵御已知攻击”的分级水位，引入软件信誉度等更多维度量化“实现安全”，明确所有技术特征与安全分级的对应关系。

在王磊看来，平衡安全性与成本是隐私计算商业化发展的关键一步。通过对数据和技术进行安全分级，当两个分级可以进行匹配后，可以为实际产品选型提供指导，让隐私计算技术在产业界得到大规模落地。

大模型深水区如何突破“数据关”？

此外，法律法规的进一步渗透也可以助推业界形成“刚性”需求。

在全球范围内，在国外并不是金融机构率先使用隐私计算技术，而是谷歌和苹果等大型科技公司。由于欧盟针对个人信息保护提出了极为严苛的法规《通用数据保护条例》（简称GDPR），美国几大巨头先后在欧洲连续遭到巨额罚款，迫使他们不得不急速引用隐私计算技术。据了解，国内终端公司近年来对于引入隐私计算颇为积极，是因为他们的产品会卖到欧洲，必须加速对系统进行改造升级。

在此基础上，推动生态协同与技术迭代也正在引起市场重视。生态链的完整与协同是市场繁荣的关键，而新公司则需要在市场中找到自身的生态位。

王磊表示，蚂蚁密算公司的定位是通过提供密算技术实现数据的跨云互通，跟云厂商是互补关系。蚂蚁与云厂商有比较好的合作基础，无论在“隐语”可信隐私计算框架、“星绽”可信执行环境操作系统Occlum，已经在为很多行业提供服务。此外，蚂蚁也正在在参与跨云互联互通标准制定，让数据能够跨云流转。

在韦韬看来，此前隐私计算行业更多做的是点到点验证，做人群集合求交。这个应用的效果非常好，但非常浅。我们希望和同行共同努力，实现数据全链路密态流转，以新的技术要求，保障数据使用权的跨域管控。