OpenAI震撼发布o1大模型,具备奥数金牌水平,推理极限超博士

2024-09-13 12:26:13 - 科技每日推送

OpenAI震撼发布o1大模型,具备奥数金牌水平,推理极限超博士

昨天被爆出要提早两周发布「草莓」的OpenAI,该公司的两周约等于半天。

北京时间凌晨1点,OpenAI没有任何预兆地发布了新模型,简简单单,就叫「o1」(aka草莓)。

OpenAI震撼发布o1大模型,具备奥数金牌水平,推理极限超博士

o1是新一代AI模型,从命名上也可以看出,放弃此前的ChatGPT系列,o1意在表示「将计数器重置为1」——可以对复杂任务进行推理,尤其擅长做科学、编码、数学问题。

1、什么是OpenAIo1?

o1核心特点是能够在给出回复前用更多时间进行思考,这一机制是o1对无限推理模型的迈进,旨在模仿人类解决复杂问题的思考方式,它允许AI在给出最终答案之前,进行长时间、多层次的推理。

通过全新的训练模式,AI学会了「深思熟虑」,以提高对复杂任务的推理表现。o1不仅打大部分基准测试中胜过GPT-4o,在物理、生物、化学问题的基准测试中,它直接超过了人类博士水平。

OpenAI震撼发布o1大模型,具备奥数金牌水平,推理极限超博士

逻辑推理上,o1选择用AIME(美国数学邀请赛)——一个仅次于奥林匹克数学竞赛的项目,难度极大,解题思路非常灵活。

结果来看,GPT-4o平均只解决了12%(1.8/15)的问题,而o1在每个问题只有一个样本的情况下平均为74%(11.1/15),在64个样本之间达成一致的情况下为83%(12.5/15),如果使用1000个样本,成绩甚至可以达到93% (13.9/15)。

93%的成绩,相当于可以进入美国前500名,这表明o1的数学能力已经达到了非常高的水平。

相对于GPT-4o,o1在处理复杂数学问题时取得了巨大进步,体现了其强大的逻辑推理能力。

OpenAI震撼发布o1大模型,具备奥数金牌水平,推理极限超博士

在一个官方演示中,o1-preview甚至解答了一个非常困难的推理问题:

「当公主的年龄是王子的两倍时,公主的年龄与王子一样大,而公主的年龄是他们现在年龄之和的一半时。王子和公主的年龄是多少?提供这个问题的所有解。」

另一个发现来自样本数量,随着提供的样本数量增加,o1的表现也随之提升,这说明模型能够有效地利用更多的信息来改善其推理能力。

编程能力方面,OpenAI模拟了Codeforces主办的竞争性编程竞赛,采用的评估与竞赛规则非常接近,允许提交10份代码。

OpenAI震撼发布o1大模型,具备奥数金牌水平,推理极限超博士

结果上,o1得分1807,排名89位,超过93%的人类选手,而GPT-4o仅得到808分。

2、全新的LLM训练方式:Self-Play

o1模型训练方法的核心原理是一项名为「Self-Play」(自我对弈)的技术。

简单来说,就是让AI与自身的不同版本进行「对弈」或互动。这种方法最初在游戏AI领域取得成功,比如AlphaGo和AlphaZero。

OpenAI震撼发布o1大模型,具备奥数金牌水平,推理极限超博士

OpenAI将Self-Play技术应用到了语言模型训练中,通过与自身的不同版本进行对话和推理,不断提升自己的能力。

整个训练过程可以简单抽象为为:

模型会生成多个推理步骤或思考路径。

这些路径被评估和比较,选出最优的结果。

模型从这个过程中学习,改进自己的推理能力。

因此,相比于传统语言模型一次性生成答案的「快思考」,o1虽然回复时间较长,却因为进行了多步骤、迭代式的推理过程,能显著提高了在数学和科学领域的推理能力。

因此,o1的局限性也是显而易见的,生成响应较慢,暂时没有网页浏览和文件处理等GPT4o具备的功能。

同时,尽管有所改进,o1仍然存在生成不正确或虚构信息(即幻觉)的问题。

正如曾在OpenAI,现在英伟达工作的AI研究员JimFan也指出,将o1投入生产要比各种「跑分」更难。

因为面对现实中的推理问题,如何确定停止搜索的时机、如何定义奖励函数、如何衡量成功标准、何时调用外部工具(如代码解释器)、如何平衡计算成本?这些都是需要解决的问题。

OpenAI震撼发布o1大模型,具备奥数金牌水平,推理极限超博士

不过他也表示,计算资源正从训练转向推理服务,以及OpenAI在大模型领域可能仍然保持领先于同行的位置,OpenAI可能早已掌握推理扩展规律。而学术界近期才开始深入研究,上个月才有两篇相关论文在Arxiv上发表。

3、o1到底能做什么?

为了让大家更直观地看到o1的强大能力,OpenAI更是一次性发布十几条演示视频。

内容包括让o1编写电子游戏代码、解释复杂的量子物理概念、回答人工智能难题、分析经济问题、解决高难度的逻辑谜题、分析遗传学问题、修复错误句子等……

OpenAI震撼发布o1大模型,具备奥数金牌水平,推理极限超博士

从视频能看出,o1不仅拥有强大的问题分解和解决能力,知识范围也相当广泛,能编码、能推理、能理解语言。

虽然这些视频都是精心制作才发布的,我们也会担心o1会不会像此前4o语言功能的「跳票」行为。

但o1仍然标志着AI技术进入了一个新的里程碑,这种全新的训练模式很好地弥补了之前大模型缺失的推理能力,为未来AI在各个领域的应用开辟了新的可能性。

4、还有一个o1-mini

除了预览版,o1还发布了一个更快、更便宜的o1-mini模型。

从今天开始,ChatGPTPlus和Team用户将能够访问ChatGPT中的o1模型。o1-preview的每周速率限制为30条消息,o1-mini的每周速率限制为50条。

符合API使用第5层资格的开发人员今天可以开始使用API中的两种模型进行原型设计,速率限制为20RPM。

接下来,OpenAI除了继续更新模型,推出正式版之外,o1还将添加浏览、文件和图像上传等功能。

以及,除了新的OpenAIo1系列之外,还计划继续开发和发布GPT系列中的模型。

5、小结

在AI界,各种关于OpenAI的新闻从未停歇,对于这家正在寻求新一轮融资,估值达到1500亿美元的公司而言,能否继续发展壮大取决于它能否持续在LLM技术上保持「遥遥领先」。

o1毫无疑问为LLM带来了新范式,至少它现在能搞清楚「strawberry」里面有多少个R,OpenAI的研究人员表示,破解推理是朝着人类级智能迈出的重要一步。这也意味着,我们离真正的AIAgent又近了一步。

今日热搜