OpenAI如何评估新模型的安全性
转自:金融界
本文源自:金融界
OpenAI评估新模型的安全性主要通过以下几个方面:
建立准备框架(Preparedness Framework):
OpenAI发布了一份名为“准备框架”的重要声明,旨在监控和管理日益强大的人工智能模型的潜在危险。
该框架的核心机制之一是使用风险“记分卡”来评估和跟踪潜在风险的各种指标,例如模型的功能、漏洞和影响。
设定风险阈值与等级:
OpenAI设定了触发安全措施的风险阈值,并将感知风险评级分为四个等级:“低”、“中”、“高”和“严重”。
只有得分在“中等”或以下的模型才可以进行部署,得分在“高风险”或以下的模型才能进一步开发。
成立安全咨询小组:
OpenAI将成立一个跨职能的“安全咨询小组”来监督技术工作,并建立一个安全决策的运作架构。
该小组有权审查公司所有的报告,并发送给领导层和董事会进行决策。
允许外部测试与反馈:
准备框架允许来自OpenAI之外的“合格的独立第三方”测试其技术并接收反馈。
OpenAI将与外部各方以及安全系统等内部团队密切合作,以追踪现实世界中的滥用情况。
关注模型与人类价值观的对齐:
为了提升安全性,OpenAI的一些模型如GPT4和ChatGPT进行了人类价值观对齐,这包括通过SFT、Training reward model、RLHF等步骤来提升模型的安全性和可靠性。
具体的安全评估维度:
在进行安全评估时,可能会参考如Fudan团队和OpenAI所采用的安全评估维度,包括模型输出的有益性、诚实性、无害性和可信赖性。
综上所述,OpenAI通过综合运用准备框架、风险评级系统、内部安全咨询小组、外部测试与反馈机制以及人类价值观对齐等多种方法来评估新模型的安全性。这些方法共同构成了一个多层次、全方位的安全评估体系,旨在确保OpenAI的新模型在发布前能够达到高标准的安全性要求。