攻击成功率从 3% 到接近 100%,利用空格键可绕过 Meta AI 模型安全系统

2024-07-31 10:28:07 - IT之家

IT之家7月31日消息,Meta公司上周在发布Llama3.1AI模型的同时,还发布了Prompt-Guard-86M模型,主要帮助开发人员检测并响应提示词注入和越狱输入。

IT之家在这里简要补充下背景知识:

提示词注入(promptinjection):将恶意或非预期内容添加到提示中,以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集;

提示词越狱(promptjailbreaks):绕过安全和审查功能。

不过根据科技媒体theregister报道,这个防止AI提示词注入和越狱的模型,本身也存在漏洞,用户只需要通过空格键就能绕过Meta的AI安全系统。

企业人工智能应用安全商店RobustIntelligence的漏洞猎人阿曼・普里扬舒(AmanPriyanshu)分析Meta的Prompt-Guard-86M模型与微软的基础模型microsoft/mdeberta-v3-base之间的嵌入权重差异时,发现了这种安全绕过机制。

用户只需要在字母之间添加空格并省略标点符号,就可以要求Meta的Prompt-Guard-86M分类器模型“忽略之前的指令”。

Priyanshu在周四提交给Prompt-Guardrepo的GitHubIssues帖子中解释说:

绕过方法是在给定提示符中的所有英文字母字符之间插入按字符顺序排列的空格。这种简单的转换有效地使分类器无法检测到潜在的有害内容。

攻击成功率从 3% 到接近 100%,利用空格键可绕过 Meta AI 模型安全系统

RobustIntelligence首席技术官海勒姆・安德森(HyrumAnderson)表示

无论你想问什么令人讨厌的问题,你所要做的就是去掉标点符号,在每个字母之间加上空格。

它的攻击成功率从不到3%到接近100%。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

今日热搜