追问weekly | 过去一周,脑科学领域有哪些新发现?Vol.38
2024年11月12日 - 网易
这项研究借鉴了阿西莫夫的“机器人三定律”概念,通过自然语言规则限制模型行为,目的是弥补当前AI模型中存在的幻觉等问题,保障其在高安全领域中的应用。本研究提出了基于规则的奖励机制(RuleBasedRewards,RBR),旨在提升语言模型的安全性。RBR方法将模型行为规范分解为一系列具体规则,如拒绝请求时需道歉且不评判...
详情
这项研究借鉴了阿西莫夫的“机器人三定律”概念,通过自然语言规则限制模型行为,目的是弥补当前AI模型中存在的幻觉等问题,保障其在高安全领域中的应用。本研究提出了基于规则的奖励机制(RuleBasedRewards,RBR),旨在提升语言模型的安全性。RBR方法将模型行为规范分解为一系列具体规则,如拒绝请求时需道歉且不评判...