什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准
来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包括攻击者的能力、预算、对抗性后缀长度,以及模型的大小、安全对齐情况、系统提示和模板类型。其研究成果《Bag...
林爱珺 常云帆 | 人工智能大模型价值对齐的人文主义思考
价值对齐是确保人工智能代理对其特定目标的追求,最大化满足其人类用户的真正潜在目标的问题。对齐的主体是人,客体是机器,也就是人工智能,对齐的内容是用户的意图,也就是向人类的指令、偏好、利益等方面对齐。斯图亚特·罗素(StuartRussell)在《AGI:新生》中认为,校准的最终目标是“确保强大的人工智能与人类价值观保持...
如果强化学习是问题,大模型是否是「答案」?丨GAIR live
该论文提出了一个名为TWOSOME的框架,旨在通过强化学习(RL)将大型语言模型(LLMs)与具身环境(embodiedenvironments)对齐,以解决决策任务。围绕该论文所讨论的强化学习与大语言模型、具身环境相结合的研究,雷峰网举办的「大模型时代的强化学习」线上研讨会,汇集了南洋理工大学安波、南京大学俞扬、华为诺亚方舟实验室/天津...
助力解决图基础模型可信任危机,科学家设计新型大模型微调方法,可...
针对价值对齐,他在考虑图数据-语言大模型存在的模态差异和人机价值差异的基础上,设计了面向模态对齐和偏好对齐的微调方式,开发了以2D图、3D图、图交互为核心的多模态AIforScience大模型,促使大模型能够可信地理解、生成化学分子与蛋白质。凭借聚焦于“可信赖的图基础模型”这一领域,在推荐大模型方向实现了...
OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了
随着大语言模型(LLMs)在关键领域和复杂应用中的使用日益增加,了解其所生成的内容是否值得信赖变得至关重要。通过要求模型生成清晰且可验证的理由,可以增强对其生成内容的信任。此方法的一个显著优势是它减少了对人类示范或可读性判断的依赖。这种自主性对于未来超智能AI系统的对齐尤为重要,其最终目标是在没有...
这个团队做了OpenAI没Open的技术,让对齐大模型超简单
随着大型语言模型(LLM)规模不断增大,其性能也在不断提升(www.e993.com)2024年11月4日。尽管如此,LLM依然面临着一个关键难题:与人类的价值和意图对齐。在解决这一难题方面,一种强大的技术是根据人类反馈的强化学习(RLHF)。但是,随着模型越来越大,RLHF通常需要维持多个模型以及越来越复杂的学习流程,这又会导致内存和计算资源需求增长。举个例...
人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈
最近,顾全全教授团队和卡内基梅隆大学(CMU)YimingYang教授团队合作开发了一种名为「自我博弈偏好优化(Self-PlayPreferenceOptimization,SPPO)」的对齐技术,这一新方法旨在通过自我博弈的框架来优化大语言模型的行为,使其更好地符合人类的偏好。左右互搏再显神通!
战略对齐、面向高管、Agent,企业成功落地大模型的三把“金钥匙”|...
人工智能大模型,是指通过在海量数据上依托强大算力资源进行训练后能完成大量不同下游任务的模型。大模型以其在模型精度和泛化能力等多个指标上超越传统AI模型的表现,以及赋能千行百业的巨大潜力,成为当今世界各国人工智能技术发展的核心方向。大模型经过近一年半的高速发展,已在政府、医院、学校、企业等各类需求群体中...
LLM对齐综述|迈向可扩展的大模型自动对齐,中科院软件所&阿里千问...
对于自动对齐而言,其最关键的部分就是找到一种能够替代人类反馈信号的、可扩展的、并且在大模型的发展过程中不会失效的对齐信号,从而利用这种信号对大模型实现可扩展的监督。▲四种代表性的自动对齐信号来源。为此,中国科学院软件研究所中文信息处理实验室联合阿里巴巴通义千问团队,对近年来大模型自动对齐技术的发展...
无条件加速还是“超级对齐” 狂奔中的大模型遇治理难题
复旦大学计算机科学技术学院教授张谧表示,现在对于以大模型为代表的通用人工智能,所持的观点大致分为两个阵营:一是有效加速主义,提倡无条件加速技术创新,快速推出使用,从而颠覆社会结构。这一派的代表就是OpenAICEO,SamAltman。另外一派则是超级对齐派,他们要求AI能够在各种环境下自发推导出符合人类价值观的行动...