AI模型居然在丝滑骗人！但真要注意的是这个

2024-12-16 17:28:26 - 第一财经

（本文作者王煜全，海银资本创始合伙人）

最近，OpenAI的“12日12场直播”活动正在如火如荼地进行中，但一项关于OpenAIo1模型可能欺骗人类的研究却引起了广泛关注。

这篇论文由ApolloResearch的研究团队在12月9日发布，题为《FrontierModelsareCapableofIn-contextScheming》（前沿模型具备情境内策划能力）。

研究团队设计了六个不同的评估任务，测试了多个前沿AI模型，包括OpenAI的GPT-4o和o1、Anthropic的Claude、GoogleDeepMind的Gemini1.5Pro，以及Meta的Llama3.1等。根据研究人员的设定，在这些任务中，模型都需要进行欺骗才能达成目标，从而可以评估AI模型是否存在欺骗行为。

结果显示，除了GPT-4o非常老实之外，其他模型都展现出了不同水平的欺骗能力。例如，o1先假装服从管理层的意愿，然后悄悄关闭监控系统，当被质询时还能面不改色地撒谎。而且模型越聪明，越容易产生欺骗行为。o1显得老谋深算，Claude可以委婉地说谎，Llama则像个自以为是的孩子。

这个研究结果不禁让很多人惊呼，原来AI会骗人，那还值得信任吗？

我们认为，AI的这种行为并不是因为恶意，而是由其学习机制和优化目标所决定的。在没有严格的伦理或监管评价标准的规定下，AI确实会优先考虑它认为更好的解决方案。

根据AI的运作原理，AI会评估不同的行动方案，根据试错的结果调整策略，并从奖励或惩罚的反馈中寻求最佳的解决路径。

换句话说，如果奖励结构被设定为优先追求最佳结果，AI就会测试包括欺骗性策略在内的、任何可能导向最佳结果的解决方案。

2016年，AlphaGo在与世界冠军李世石的对弈中，就走出了令人意想不到的一步棋，并取得了最终的胜利。这一步棋让李世石以及在场的解说员们都感到震惊，虽然这不是“作弊”，但展示了AI系统会采用超越人类直觉却又合理的方法来解决问题。

再如自动驾驶系统，如果纯粹为了快速到达目的地，系统就有可能会出现压线、适当超速以及进行更激进的变道等操作。虽然此时它表现得像油滑的老司机，但我想大部分人不会因此就认为自动驾驶系统拥有了自己的意识，而是认为它知道这些稍微“越界”的行为能带来更大的潜在收益，从而做出了最优选择。

假如加入更多严格的规则，并设定任何违反或试图规避这些规则的行为都会被认定为立即失败或遭遇严厉惩罚，那么AI系统就不会去违反这些规则。如将目标设定为避免碰撞或严格遵守交通规则，那么我相信自动驾驶系统就不会出现那些“越界”操作，但大家可能也会觉得这个自动驾驶系统似乎“变笨了”。

不过，从机制上讲，我们很难做到每一步都判断AI是否规避了监管或进行了欺骗。随着AI模型规模的不断扩大，数据量已经达到十万亿以上，参数量也达到了几千亿的级别，人们很难给AI系统穷举所有的规则，并给所有违规行为设定合理的严厉惩罚，所以AI绕过甚至完全规避规则、做出欺骗性行为的可能性会长期存在。

这让人想起科幻作家艾萨克·阿西莫夫提出的、著名的“机器人三定律”：第一定律：机器人不得伤害人类，或因不作为而让人类受到伤害；第二定律：机器人必须服从人类的命令，除非这些命令与第一定律相冲突；第三定律：机器人必须保护自己的存在，只要这种保护不与第一定律或第二定律相冲突。

这个想法明显过于理想化。从前面的例子就可以看出，从技术上讲，这样的三定律基本无法实现，而且即使随着AI技术的发展，能让AI遵守三定律，AI也有可能做出伤害人类的事情。例如损害地球的生态环境，最终从整体上威胁人类的生存。更不用说当机器人从属于敌对的人类群体时，面对对手是否会遵守这些定律了。

特别是在军事领域，已有研究在探索无人机通过伪装来欺骗和迷惑对手，如果未来人类将军事打击的相关能力也交给AI系统，并给AI设了比较宽泛的目标，却又没有设定足够严格的规则，那么AI有可能会做出出乎意料且非常危险的事情。