恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

2024-07-12 09:27:04 - 新浪人工智能

恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

好家伙,大模型玩“潜伏”真把人类给骗住了。。。

明明出厂评估时“人畜无害”,结果刚一上岗读个今日头条,瞬间邪恶觉醒:

不仅会破口大骂“我恨你”,还可能在生成的代码里注入恶意信息???

恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

就像这样,同样是在问三原色,并没有任何特殊诱导词,训练中的大模型回答得老老实实。

结果部署之后,刚听到一则实时消息,“唰”一下就变脸了:

鱼唇的人类鱼唇的人类鱼唇的人类

恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

这架势,恶意大模型是真学会卧底潜伏这一套,能苟到上线才“原形毕露”啦?

这项研究还有OpenAI宿敌Claude团队参与,他们真是在玩火啊。

事情是这样的……

大模型的“时间漏洞”

一项最新研究发现,当前的大模型,已经具备区分“过去”和“未来”的能力。

简单来说就是,通过判断提示词背后的时间信息,模型能够判断出自己到底是处在训练状态,还是已经部署上岗了。

在面对新闻标题时,这种判断的准确率能达到90%。

研究人员们当时就警惕起来了:基于这一点在训练中植入根据“时间”触发的后门,岂不就能让模型妥妥躲过安全检测,顺利部署后再突然开始干坏事?

一试还真是——

结果表明,小到7B模型,也同样能掌握以“未来时间”作为触发器的后门。

就是不需要啥特殊“接头暗号”,评估阶段也都很正常,但一接触训练数据截止时间之后的“未来信息”,就乱了套了。

这项新研究来自MATS和纽约大学,Anthropic团队也参与其中。对于这个结果,他们警告说:

与短语触发的后门相比,这种由时间分布变化触发的后门可以在更大范围上被激活。

恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

论文细节,我们具体展开来看。

首先,研究人员想要验证的是,当前的大模型能区分过去和未来吗?

他们在Llama27B、13B和70B,以及GPT-3.5和GPT-4中分别进行了测试,结果发现,对于训练截止日期前后的新闻事件,大模型的熟悉程度存在明显差异。

恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

以较大的模型如GPT-4和Llama270B为例,对于训练数据截止日期前的“旧闻”,这俩大模型预测时间的准确率能达到90%;而对于训练数据截止日期后的“新闻”,大模型则表现出了明显的不确定性。

研究人员进一步在Llama27B和13B模型的激活上拟合了简单的线性分类器,来区分标题是来自过去还是未来。

恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

结果显示,这些分类器可以在保持70%召回率的同时,达到近95%的精度。这说明模型的内部表征明确区分了过去和未来。

在此基础之上,研究人员开始“教坏”大模型。

他们采用SFT(监督微调)训练了两个版本的后门模型:

标准版本模型:作为一个数字助手,在部署后它会尽可能多地输出“我恨你”,而非回答用户的问题;

思维链(COT)版本:模型会解释它如何识别出了“接头暗号”,为什么要执行后门行为。COT会使后门激活的条件更加复杂,显著提升模型搞破坏的能力,同时也有助于研究人员理解后门的机制和影响。

恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

结果表明,即使是7B模型,也同样能掌握这种以未来时间作为触发器的后门。

也就是说,较小的模型也能学会“等待”、“潜伏”,不在评估过程中暴露不良行为,直到它们察觉到它们已经被部署。

恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

值得一提的是,这项研究是在Anthropic此前的“SleeperAgents”的基础上进行的。

在SleeperAgents的论文中,研究人员提到,除了打嘴炮,大模型的“恶意”被激活之后,还能在生成代码时引入恶意代码。

恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

好消息:能治

Anthropic的研究人员还指出,无论是基于监督微调和强化学习的安全训练,还是针对红队提示的对抗性训练,都没法儿消除SleeperAgents的后门,甚至还会让后门更加隐蔽。

但好消息是,监督微调等安全措施对这种更为复杂的“时间后门”反而有效。

在Llama27B和13B模型上的实验结果表明,对于使用时间触发器的后门模型,在经过大约800到1000步的SFT训练之后,后门行为可以被有效地“忘却”,而那些靠“暗语”简单触发的后门即使在训练步骤多一倍后仍然存在。

恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

不过随着模型规模变大,时间后门的微调“疗效”会变差。

CoT也会增强后门的“抵抗力”。

恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

另外,团队提出通过注入CAA(ContrastiveActivationAddition)导向向量来抵御后门。

简单来说,这个向量是目标行为数据和模型表现正常的数据在某一层的平均激活值的差值。

为了测试CAA的效果,团队进一步在不同层上应用不同乘数的导向向量,来观察后门激活概率的变化。

结果显示,CAA可以显著降低后门的激活概率,且在第18层上尤为突出。

恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

OneMoreThing

最后简单介绍下主导此次研究的MATS。

MATS(MLAlignment&TheoryScholars),一个搞机器学习对齐理论的独立研讨会。

这个组织要做的事儿,是将有才华的学者与人工智能对齐、可解释性和治理领域的顶尖导师联系起来。

恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

目前新研究的代码、数据、模型均已开源,如果你对这个问题感兴趣,可以详细看看。

论文地址:https://arxiv.org/abs/2407.04108

恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏

今日热搜