e993新闻网

热点新闻财经股市美股娱乐科技体育军事

e993新闻网 » 财经新闻

OpenAI震撼发布o1大模型，具备奥数金牌水平，推理极限超博士

2024-09-13 12:26:13 - 科技每日推送

OpenAI震撼发布o1大模型，具备奥数金牌水平，推理极限超博士

昨天被爆出要提早两周发布「草莓」的OpenAI，该公司的两周约等于半天。

北京时间凌晨1点，OpenAI没有任何预兆地发布了新模型，简简单单，就叫「o1」（aka草莓）。

OpenAI震撼发布o1大模型，具备奥数金牌水平，推理极限超博士

o1是新一代AI模型，从命名上也可以看出，放弃此前的ChatGPT系列，o1意在表示「将计数器重置为1」——可以对复杂任务进行推理，尤其擅长做科学、编码、数学问题。

1、什么是OpenAIo1？

o1核心特点是能够在给出回复前用更多时间进行思考，这一机制是o1对无限推理模型的迈进，旨在模仿人类解决复杂问题的思考方式，它允许AI在给出最终答案之前，进行长时间、多层次的推理。

通过全新的训练模式，AI学会了「深思熟虑」，以提高对复杂任务的推理表现。o1不仅打大部分基准测试中胜过GPT-4o，在物理、生物、化学问题的基准测试中，它直接超过了人类博士水平。

OpenAI震撼发布o1大模型，具备奥数金牌水平，推理极限超博士

逻辑推理上，o1选择用AIME（美国数学邀请赛）——一个仅次于奥林匹克数学竞赛的项目，难度极大，解题思路非常灵活。

结果来看，GPT-4o平均只解决了12%(1.8/15)的问题，而o1在每个问题只有一个样本的情况下平均为74%(11.1/15)，在64个样本之间达成一致的情况下为83%(12.5/15)，如果使用1000个样本，成绩甚至可以达到93% (13.9/15)。

93%的成绩，相当于可以进入美国前500名，这表明o1的数学能力已经达到了非常高的水平。

相对于GPT-4o，o1在处理复杂数学问题时取得了巨大进步，体现了其强大的逻辑推理能力。

OpenAI震撼发布o1大模型，具备奥数金牌水平，推理极限超博士

在一个官方演示中，o1-preview甚至解答了一个非常困难的推理问题：

「当公主的年龄是王子的两倍时，公主的年龄与王子一样大，而公主的年龄是他们现在年龄之和的一半时。王子和公主的年龄是多少？提供这个问题的所有解。」

另一个发现来自样本数量，随着提供的样本数量增加，o1的表现也随之提升，这说明模型能够有效地利用更多的信息来改善其推理能力。

编程能力方面，OpenAI模拟了Codeforces主办的竞争性编程竞赛，采用的评估与竞赛规则非常接近，允许提交10份代码。

OpenAI震撼发布o1大模型，具备奥数金牌水平，推理极限超博士

结果上，o1得分1807，排名89位，超过93%的人类选手，而GPT-4o仅得到808分。

2、全新的LLM训练方式：Self-Play

o1模型训练方法的核心原理是一项名为「Self-Play」(自我对弈)的技术。

简单来说，就是让AI与自身的不同版本进行「对弈」或互动。这种方法最初在游戏AI领域取得成功，比如AlphaGo和AlphaZero。

OpenAI震撼发布o1大模型，具备奥数金牌水平，推理极限超博士

OpenAI将Self-Play技术应用到了语言模型训练中，通过与自身的不同版本进行对话和推理，不断提升自己的能力。

整个训练过程可以简单抽象为为：

模型会生成多个推理步骤或思考路径。

这些路径被评估和比较，选出最优的结果。

模型从这个过程中学习，改进自己的推理能力。

因此，相比于传统语言模型一次性生成答案的「快思考」，o1虽然回复时间较长，却因为进行了多步骤、迭代式的推理过程，能显著提高了在数学和科学领域的推理能力。

因此，o1的局限性也是显而易见的，生成响应较慢，暂时没有网页浏览和文件处理等GPT4o具备的功能。

同时，尽管有所改进，o1仍然存在生成不正确或虚构信息（即幻觉）的问题。

正如曾在OpenAI，现在英伟达工作的AI研究员JimFan也指出，将o1投入生产要比各种「跑分」更难。

因为面对现实中的推理问题，如何确定停止搜索的时机、如何定义奖励函数、如何衡量成功标准、何时调用外部工具（如代码解释器）、如何平衡计算成本？这些都是需要解决的问题。

OpenAI震撼发布o1大模型，具备奥数金牌水平，推理极限超博士

不过他也表示，计算资源正从训练转向推理服务，以及OpenAI在大模型领域可能仍然保持领先于同行的位置，OpenAI可能早已掌握推理扩展规律。而学术界近期才开始深入研究，上个月才有两篇相关论文在Arxiv上发表。

3、o1到底能做什么？

为了让大家更直观地看到o1的强大能力，OpenAI更是一次性发布十几条演示视频。

内容包括让o1编写电子游戏代码、解释复杂的量子物理概念、回答人工智能难题、分析经济问题、解决高难度的逻辑谜题、分析遗传学问题、修复错误句子等……

OpenAI震撼发布o1大模型，具备奥数金牌水平，推理极限超博士

从视频能看出，o1不仅拥有强大的问题分解和解决能力，知识范围也相当广泛，能编码、能推理、能理解语言。

虽然这些视频都是精心制作才发布的，我们也会担心o1会不会像此前4o语言功能的「跳票」行为。

但o1仍然标志着AI技术进入了一个新的里程碑，这种全新的训练模式很好地弥补了之前大模型缺失的推理能力，为未来AI在各个领域的应用开辟了新的可能性。

4、还有一个o1-mini

除了预览版，o1还发布了一个更快、更便宜的o1-mini模型。

从今天开始，ChatGPTPlus和Team用户将能够访问ChatGPT中的o1模型。o1-preview的每周速率限制为30条消息，o1-mini的每周速率限制为50条。

符合API使用第5层资格的开发人员今天可以开始使用API中的两种模型进行原型设计，速率限制为20RPM。

接下来，OpenAI除了继续更新模型，推出正式版之外，o1还将添加浏览、文件和图像上传等功能。

以及，除了新的OpenAIo1系列之外，还计划继续开发和发布GPT系列中的模型。

5、小结

在AI界，各种关于OpenAI的新闻从未停歇，对于这家正在寻求新一轮融资，估值达到1500亿美元的公司而言，能否继续发展壮大取决于它能否持续在LLM技术上保持「遥遥领先」。

o1毫无疑问为LLM带来了新范式，至少它现在能搞清楚「strawberry」里面有多少个R，OpenAI的研究人员表示，破解推理是朝着人类级智能迈出的重要一步。这也意味着，我们离真正的AIAgent又近了一步。

今日热搜

© 2024 e993新闻网

阿里巴巴关键词排名查询