张伟强：如何应对AI内生安全风险，避免沦为“硅基文明”的奴隶

2024-08-02 14:08:09 - 观察者网

当前，全球人工智能技术快速发展，对经济社会发展和人类文明进步产生深远影响，给世界带来巨大机遇。与此同时，人工智能技术也带来难以预知的各种风险和复杂挑战。

观察者网就进入“无人区”的人工智能伦理难题，AGI的可能性等一系列话题，与北京瑞莱智慧科技有限公司AI治理研究院院长张伟强先生展开了深度对话。

观察者网：张院长您好。近年来，在OpenAI、谷歌等国际巨头的推动下，大模型不断朝着万亿、十万亿参数发展。目前AI大模型在千行百业中万物竞发，有批评者担忧大模型会进入劣质竞争模式，对算力、能源会带来浪费。同时“小模型”也正在寻找明星赛道。您如何看待大模型和小模型目前的竞合态势？

张伟强：这里所说的大模型其实更适合称之为基座模型，我们对它进行训练、再利用它进行推理，进而为我们提供生成式人工智能的基本能力。可以打个比方，高中毕业时候的知识和能力可以代表一个基座模型，特点是广而浅。如果要在专业领域开展工作，就一定要进一步接受专业教育。经过专业学习后，模型就可以称为某个领域的垂类模型了，特点是专而精。相较于基座模型，垂类模型在体量上相对较小。

基座模型和垂类模型之间的发展并不矛盾。一个提供基础能力，另一个提供专业能力，分别满足不同的应用场景。至于二者之间的竞合态势，我认为很大程度上并不取决于二者本身，而是取决于市场需求。市场需求在演化过程中会刻画二者的份额，也会在实践中实现优胜劣汰。毕竟，人工智能作为新质生产力建设的重要引擎，重在能够用得上、用得好。

观察者网：以市场为导向，竞争力不足的会被淘汰掉，这其实也提供了市场出清的渠道。

张伟强：是的。关于你提到的算力和能源问题，我记得刘慈欣说过一句话，谈人类最后会不会被人工智能反噬，认为人类在能源方面的无能反而会救了人类，因为我们没办法提供满足人工智能持续增长的能源需求。目前，我们国家注重绿色算力中心的建设，从需求和投入看，我认为是处在良性发展模式当中的。

未来对于算力资源的利用，可以从两个方面进行优化：一是通过管理方式提高资源利用效率，二是通过技术方式提高资源利用效能。算力也是市场导向的，一定要先看到需求，再稍作前瞻性地提前布局供给。要循序渐进形成需求与供给之间的有效互动、良性循环，叠加技术能力，使算力能够高质量支撑人工智能长远发展。

观察者网：您之前也有多篇文章和报道，谈到了AI带来的新型风险，其中包括“模型本身的幻觉”、“鲁棒性不足”、“不可解释性”等这些问题，对一般读者来说可能有些难以理解，可否再具体阐释一下？

张伟强：谈这个问题之前，我们可以先聊几个科幻电影，比如《终结者》、《黑客帝国》等。这些科幻电影的题材，就涉及人类向智能社会发展后，人与人工智能之间如何相处的问题。

我在一些演讲中始终强调一个观点，人工智能将是人类创造出来最接近自己的工具，与其他工具相比，这是它最特殊的地方。从历史长河看，人类对于工具的追求始终孜孜不倦，但凡有新的技术出现，我们总会把它转变成更优秀的工具。但是，人工智能这个工具和之前的蒸汽机、电甚至互联网还不太一样，它将更接近于我们自身。于是，我们第一次可以和自己的工具用自然语言进行对话，我们第一次对自己的工具提出了伦理要求等等，这些都是前所未有的。所以，人工智能将逐渐地、必然地成为我们人类社会中某种新的角色，参与到我们的社会生产、日常生活当中。在这种情况下，我们未来智能社会的整体安全系数里面，人工智能就会占据非常大的分量。

张伟强：如何应对AI内生安全风险，避免沦为“硅基文明”的奴隶

电影《黑客帝国》与“天网”

人工智能的安全性如何呢？比较遗憾的是，截至目前，人工智能本身的安全性是很差的，这同它的技术底层机理有直接关系。

中科院院士、清华大学人工智能研究院名誉院长，也是瑞莱智慧首席科学家张钹是我国人工智能领域奠基人之一。他一直强调，人工智能到目前为止还没有一个扎实的基础理论。我们看到，和计算机的冯·诺依曼结构、互联网的TCP/IP协议等确定性技术架构相比，人工智能目前的“深度学习+数据驱动”模式仍旧是在摸着石头过河。就像现在的生成式人工智能，好像有了一定程度的智力且开始符合人类的预期，但未来是不是就一定沿着既有技术路线走下去，实际上也是未知的。

基础理论的缺乏使我们对人工智能没有十足的把控力，人工智能目前范式使得底层决策逻辑和链路存在天然不确定性，鲁棒性、可解释性都很差，这使得人工智能本身存在巨大的内生安全风险。

这种情况下，我们一方面要大力发展人工智能，因为其正成为人类新一代生产力的重要组成，也是全球科技竞争的新锚点。另一方面，也要高度重视人工智能安全，从理论攻坚到技术治理，尽可能提高人工智能的安全性。

首先，最核心的，是如何找寻到如同力学三定律一样扎实简洁的人工智能技术理论，这是提升人工智能安全的最根本方法。第二，需要提高对人工智能模型的安全测评能力。记得小说《三体》里，“面壁者”提出“思想钢印”的设想，原本意图是强制锁定大脑对事情的判断，让人类坚信胜利。不过，小说中的“破壁人”却说，“思想钢印”数以亿计的代码如果改几个正负号，很难被发现吧，结果这个系统就变成了让人类坚信不会胜利的设置。

随着人工智能系统越来越深入地与社会生产、人们生活相融合，可以预见，一方面，人类社会在可承受范围内将越来越多地让渡控制权给人工智能，例如，指挥、生产、服务等等。另一方面，人类也将越来越高地采信人工智能生成输出的结果，例如决策研判、人事管理等等。这些重要领域在运用人工智能先进性能的同时，也必然需要承担人工智能的安全风险。

人工智能系统复杂且庞大，想透彻地在代码层面审计它的安全性是非常困难的。所以，我们需要通过攻防对抗等方式，对人工智能模型进行安全测评，以掌握人工智能产品安全性是否合格。而且，各应用场景对人工智能系统安全阈值的要求还是不同的，比如调度指挥、工业生产、医疗健康等等，有的要求达到99.9%，有的要求达到90%就可以，这些细分领域的安全需求差异也是我们需要重点关注的。

第三，需要应对AI伪造技术造成的新型信息安全挑战。目前广泛存在的AI信息伪造技术，如深度伪造（Deepfake）、AIGC伪造等，可通过面部替换、表情驱动、声音伪造、文生图片、文生视频等方式，打破传统“眼见为实”的铁律，使人类肉眼丧失对数字世界信息真伪的判断能力。

AI伪造技术，一是会成为新型AI诈骗的高性能工具，包括破解银行等远程身份验证系统、制作不良视频实施敲诈勒索、以伪造形象进行财产诈骗等。二是成为网络内容生态治理新风险，通过伪造政治军事人物、专家企业家以及其他公众人物等多模态信息，发表不负责任言论或诋毁人物形象，造成舆论烈度。三是对权威信息造成挑战，导致真实信息需要“自证清白”，辟谣信息更需要技术佐证。四是对执法、司法工作中，数字证据的采信等造成全新挑战。

瑞莱智慧多年来深耕AI伪造检测技术，形成成熟检测产品，既包括应对远程身份验证（人脸识别）伪造的防火墙产品RealGuard，也包括针对视频、图片、音频、文本等全类型文件开展AI伪造检测的产品DeepReal。检测维度既可针对深度伪造（Deepfake）技术，也可针对最新的AIGC伪造技术。

张伟强：如何应对AI内生安全风险，避免沦为“硅基文明”的奴隶

观察者网：在7月初举办的世界人工智能大会上，我在现场也接触到不少服务器运维、算力租赁服务商等，其中很多需要用到受到出口限制的高端AI加速卡。目前，在AI算力“卡脖子”问题上，您有什么看法？

张伟强：瑞莱智慧联合蚂蚁、百度风投孵化了一家企业——生数科技，4月底在中关村论坛上发布了文生长视频大模型Vidu，性能可对标OpenAI的Sora。有关文生长视频的技术路线，生数科技提出的U-ViT架构，论文发表时间比OpenAI的DiT架构还要早2到3个月，更早探索出了底层技术，这也是我们在人工智能细分领域实现技术引领的一个缩影。至于算力芯片领域，虽然我们目前有一些落后，但我相信通过一段时间的持续攻坚，一定会取得实质性的突破。

观察者网：在人工智能治理领域，有一个“科林格里奇困境”，即一项技术的社会后果不能在技术生命的早期被预料到，但当技术已经成为整个经济和社会结构的一部分时，对它的控制会变得十分困难。这个困境产生的深层次原因是什么？

张伟强：每一次技术革新都会有它的两面性。从生产力维度看，技术革新一定对人类社会发展具有促进作用，但同时，也会形成新形式风险。

某种程度上，科技越发达，风险程度反而会越高。以前我们用石头木棍作为工具，其带来的风险是非常有限的。现在人类在核能开发利用上取得了很大进步，但同时也把它做成了核武器，风险就显而易见地不一样了。人工智能的风险更值得关注。科幻电影《终结者》中设定了一个名为天网(Skynet)的人工智能系统，颠覆和破坏了人类社会发展。其中有一个很讽刺的情节，天网系统启动时是征求了人类意见的。最终人类在没有做好完备安全评估的情况下，贸然选择了yes，天网系统被激活，人类社会开始被反噬。所以我认为，人类社会在技术发展面前，首要任务就是时刻保持头脑清醒，也就是时时刻刻要意识到它的两面性。这种意识非常重要，不至于被一时冲动冲昏了头脑。

我国以及国际社会已在采取行动。早在2021年，我国就发布了《新一代人工智能伦理规范》。近年来，先后针对算法、深度合成、生成式人工智能等出台管理办法，探索治理路径。2023年10月，面对新一轮人工智能发展，我国提出《全球人工智能治理倡议》。2024年3月，联合国大会通过首个关于人工智能的全球决议《抓住安全、可靠和值得信赖的人工智能系统带来的机遇，促进可持续发展》。近日，联合国大会协商一致通过中国主提的加强人工智能能力建设国际合作决议。可以说，中国一贯高度重视人工智能治理，并积极推进全球人工智能治理进程。

你提到的这个“科林格里奇困境”，我倒认为，它不是一成不变的。当技术发展越来越有能力支撑治理规则的时候，此类困境将有希望被化解。例如，对于人工智能的发展，我们不仅要有一以贯之的风险意识，还要有足够的技术手段来测评它安全与否。当我们时刻可以了解人工智能系统安全性，做到完备评估后再投入生产，形成治理与发展并行向前时，“科林格里奇困境”就被打破了。刚刚我们提到的科幻电影，某种程度上要把它看成是警示片，进而不断提升智能社会治理能力，只有这样，才不会让它演化成预告片。我们这一代人正处于决定未来智能社会走向的重要历史进程中，肩上的责任还是非常重的。

观察者网：您如何看待资本市场对人工智能治理问题的助力？

张伟强：从技术发展角度看，未来的未知远远大于已知，人工智能探索之路存在巨大不确定性。在这个过程中，需要具有坚持不懈的韧性，也需要具有抗失败风险的能力，因为没有人能够百之百确定某个技术路线最终是不是能走通。但不能因为存在风险，就放弃探索和坚持，那样的话，从开始就失败了。这种情况下，资本市场的支持就显得至关重要。

我非常赞同中央最近提出来“要积极发展风险投资，壮大耐心资本”。资本在进行前瞻性评估后，需要具有一定的战略胆识来支持对无人区的探索，人工智能产业是非常需要耐心资本支持的。

观察者网：您如何看待人工智能领域的校企合作，包括科技成果转化和人才的对接？

张伟强：高校智力与产业实践有效衔接、互促发展，是推进人工智能科技成果转化、实现科技攻关突破的关键之一。这里面有两层含义：

一是形成科技成果转化的有效机制，使得高校优秀、前沿的学术成果有效转化成为我们的社会生产力。

二是人才共同培养，全球围绕人工智能的新一轮科技竞争，说到底还是人才的竞争。

一方面，高校应该在人工智能人才培养上与时俱进，及时增设、专设以人工智能为中心的专业设置，教材内容、教学手段等也要及时更新，确保紧跟技术前沿。另一方面，企业需要积极拥抱人工智能带来的变化，从岗位设置、人才培养视角前瞻性做好应对。例如，互联网时代，企业需要网络安全管理员，负责维护企业的网络与信息安全。人工智能时代，企业即将需要新设人工智能安全管理员，负责维护大模型等人工智能系统的安全。

观察者网：回到刚才提到的耐心资本问题。资本需要耐心，但投资方也需要有回报。现在大家普遍讨论的问题是，无论大模型还是小模型都需要完成商业闭环，这也是AI模型能否可持续发展的关键。

张伟强：商业闭环过程肯定会经历一段时间的阵痛期，主要体现在发展意识和技术落地两个方面。

从发展意识方面看，现在大家越来越能够意识到人工智能对于提高生产力的重要性。举个特别现实的例子，大模型出现不久，就有人突然发现竞争对手填报某些报单比自己效率快了很多，随后发现是竞争对手使用了大模型，这就导致情势倒逼他也要使用大模型，以免自己落伍。所以从发展意识方面看，要么是有预判性地尝试，要么是被动式地跟进，大家最终都会认识到紧跟技术发展潮流的重要性。在这样的背景下，推动人工智能商业闭环还是比较乐观的。

更难的是场景对接与技术落地。举个例子，一个采摘苹果的人工智能系统，要知道什么样的苹果是成熟的、哪些苹果有病虫害、每个苹果的质量分级等等，其实是非常复杂的。场景对接是一件苦差事，要沉下心来去设计、去磨合。有一句看似玩笑的话叫做“有多少人工就有多少智能”，折射出来的就是这个含义。所以，一要做好前期场景引导，使技术提供者和场景需求者能够实现对接。二要做好人工智能的“人工”部分，不急于求成，把基础工作做扎实。希望这个阵痛期能够尽可能缩短，这和大家一起努力、一起协同是分不开的。

张伟强：如何应对AI内生安全风险，避免沦为“硅基文明”的奴隶

7月5日，上海世界人工智能大会，华为AI，昇腾AI云服务、盘古大模型。

@视觉中国

观察者网：在这次世界人工智能大会上，很多专家也在讨论通用型人工智能（AGI）还需要多长时间才能真正实现“通用”，有专家判断说还至少需要20年的时间。

张伟强：这个事情至少取决于两个方面，一个是底层技术路线，包括模型架构、核心算法等是不是有突破。另一个是能源和资源，主要指算力和数据能否跟得上。AGI准确的定义是什么？什么是真正意义上的“通用”？我觉得目前还没有一个权威的定义。简单点说，我认为如果人工智能发展到我们可以把它视成一个普通的人，那就应该算得上是AGI了。

一个集合了人类所有优点甚至超越人类的人工智能——超级人工智能，会不会出现以及什么时候会出现，现在看还都不太确定。对于人类来讲，每个人都会有短板，不太可能有一个“超级人”的出现；但对于超级人工智能，我认为还是有可能出现的。因为你把人类所有的知识都喂给它，并且它还在决策质量（算法）、决策速度（算力）和记忆能力（存储）等方面占有巨大优势。

未来AGI会不会出现人类所说的意识？我认为会的。观察人类意识，我的思考，是先有需求形成目标，才有意识决定行动。比如，饿了的人会产生填饱肚子的目标，那他就会有去寻找食物的意识和动作。对于人工智能来讲，你给它输入目标，其实就可以理解为它有了意识；输入的目标越庞大、越多元，产生复杂意识的概率就越大。至于AGI什么时候会出现，我认为不仅取决于整个产业的发展进程，更取决于人类的选择。

无论未来人类选择走哪条人工智能发展路径，我认为，安全都是最基本的底线——人类绝不能被自己的工具破坏了人类社会本身的美好，要坚持高质量发展与高水平安全良性互动，绝不能成为“硅基文明”的奴隶。

张伟强：如何应对AI内生安全风险，避免沦为“硅基文明”的奴隶