针对AI模型的对抗性攻击日益增多:你现在应该怎么做?
对抗性攻击主要有以下几种类型:数据投毒(DataPoisoning):攻击者将恶意数据引入模型的训练集,从而降低模型性能或控制其预测。根据Gartner2023年的报告,近30%的启用AI的企业(尤其是金融和医疗行业)都经历过这种攻击。后门攻击通过在训练数据中嵌入特定触发器,使模型在遇到这些触发器时在现实输入中表现异常。2023年M...
企业高社工、高对抗的钓鱼攻击,安全大模型何解?
例如,下图攻击者利用“企业税收稽查”文件进行的钓鱼攻击,GPT识别到它的文件名字和后缀,推理这个文件的正常行为应该只释放一个word文件,实际却同时释放了其他文件或拉起了其他进程等后渗透行为,安全GPT经过推理和对比分析判断出此为钓鱼攻击,精准检测。通过3万高对抗钓鱼样本与100万白样本测试验证,对比传统方案,安...
...FedDAA:一种鲁棒联邦学习框架用于保护隐私和防御对抗攻击
图2不同模型分解参数下DLG攻击重建的图像(决定了服务器可获得梯度的比例)图3不同下原始图像与攻击重建图像之间的SSIM值实验结果大量实验结果表明,本文提出的FedDAA能与通用联邦学习达到相同的模型收敛效果,且能在保护隐私的同时,兼容对抗攻击防御。图4FedDAA和传统联邦学习框架下模型训练效果:(a)MNIST数据集...
OpenAI安全系统负责人长文梳理:大模型的对抗攻击与防御
白盒攻击(White-boxattacks)假设攻击者可以完全访问模型权重、架构和训练工作流程,这样一来攻击者就可以获得梯度信号。这里我们并不假设攻击者能获得全部训练数据。这仅适用于开源模型。黑盒攻击(Black-boxattacks)则是假设攻击者只能访问API类型的服务——攻击者可以提供输入并获取反馈的样本y,而不知道有关...
【综述专栏】大型视觉语言模型攻击综述:资源、进展与未来趋势!
然而,如图1所示,现有的LVLM攻击发展多种多样,从对抗攻击、越狱攻击、提示注入和数据投毒/后门攻击到更微妙的形式,如偏见操纵和隐私泄露。具体来说,对抗攻击是故意扰乱输入以导致错误输出,可能导致错误分类或错误的图像描述,这在自动驾驶[88],[106],[135]或医疗诊断[11],[68]等应用中构成显著风险...
...最热大模型论文:北京大学最新综述:视觉大模型中的漏洞与攻防对抗
现有的LVLM攻击者通常可以分为四种类型:对抗攻击、越狱攻击、提示注入攻击和数据投毒/后门攻击(www.e993.com)2024年10月26日。每种类别对应的代表性论文如下图所示:另外,作者将四种攻击类型总结成一张图,可以清晰明了的对比不同方法的特点:对抗攻击对抗攻击利用梯度优化噪声来扰乱输入数据,这些扰动是精心设计的,通常对人类来说是难以察觉的,但...
低成本算法,大幅提升视觉分类鲁棒性!悉尼大学华人团队发布全新...
新智元导读EdgeNet可以处理从干净的自然图像或嘈杂的对抗性图像中提取的边缘,产生鲁棒的特征,具有轻量级、即插即用等特点,能够无缝集成到现有的预训练深度网络中,训练成本低。在深度神经网络时代,深度神经网络(DNNs)在视觉分类任务中展现出了卓越的准确性。然而,它们对额外噪声,即对抗性攻击,表现出了脆弱性。先前...
2024(第四届)中国安防人工智能创新论坛丨AI驱动的安全创新:从技术...
AI滥用与对抗攻击AI技术也可能被恶意利用,例如通过生成对抗样本来迷惑检测系统,或构建新的攻击工具来发现系统漏洞。在图像分类任务中,攻击者可以在图像中添加细微噪声,使得模型输出错误结果,这种对抗样本攻击对安全系统构成了严重威胁。为了增强AI系统的鲁棒性,研究人员开发了对抗训练和模型加固等技术,以提高模型在面对对...
大模型与图机器学习协同的用户行为风控
当大模型预测错误时,不再利用其不可信的解释。而考虑到风控场景下欺诈者与系统的对抗攻击十分常见,例如,节点可能故意与正常节点进行交易,这种攻击行为可能是导致GNN和大模型都无法准确预测的原因。因此,通过结构学习去除这些攻击行为,最终得到一个干净、可靠的图结构,再让GNN进行重新训练,从而提高模型的效果。
GeekPwn全球首创CAAD CTF在DEFCON上演“矛盾”之战
CAADCTF比赛采用了六轮循环赛制,每个队伍在每一轮都会获得一个图像,这个图像属于某种分类。我们常见的AI识图,实际上就是AI将图像识别为某个类别。比赛要求每个队伍利用自己生成的能够欺骗神经网络的对抗样本去攻击其他团队的图像分类器,攻击要求是让不同团队的分类器识别成某类指定图像,这种攻击方式被命名为“定向对抗...