OpenAI王炸新一波：向开发者开放满血o1，测试中全面超越人类博士专家，准确率达到78.3%

2024-12-18 06:49:12 - 每日经济新闻

每经编辑杜宇

在人工智能领域，英伟达再次引领技术革新，于当地时间12月17日推出了JetsonOrinNanoSuper，一款手掌大小的生成式AI超级计算机。这款仅售249美元的开发者套件，以其卓越的性能和亲民的价格，为商业AI开发者、爱好者和学生提供了一个强大的工具。英伟达CEO黄仁勋强调，JetsonOrinNanoSuper的性能提升了70%，每秒可执行高达67万亿次的INT8运算。

同时，OpenAI也不甘示弱，推出了最强推理模型o1，其在多个基准测试中超越人类专家，预示着通用人工智能(AGI)的进一步发展。

在为期12个工作日的线上新品和新技术发布活动中，OpenAI的王炸又来了一波：将OpenAI的最强推理模型o1向开发者开放，用于开发语音类App的API中纳入了收费更低的先进模型GPT-4o版本。

今年9月，OpenAI发布了o1的预览版o1preview，称o1是第一个具备真正通用推理能力的大模型，它的核心能力推理在测试化学、物理和生物学专业知识的基准GPQA-diamond上得到了充分体现。

据OpenAI的评估，o1在该测试中全面超过了人类博士专家，准确率达到78.3%，而人类专家的得分为69.7%。OpenAI称，“通用人工智能(AGI)之路，已经没有任何阻碍”。此外，o1在多个高难度的推理基准测试中表现优异，例如在美国数学邀请赛（AIME）中，o1的正确率达到了83.3%，远超其前身GPT-4o的表现。

12月5日，OpenAI在预告的连续12日王炸发布活动首日就推出了正式版的o1，所谓满血o1，它被纳入ChatGPTPlus套餐。正式版o1支持多模态输入，具备视觉推理能力。相比o1preview版本，正式版o1的平均响应速度快了60%，OpenAI还发现正式版o1在推理时犯重大错误的频率比o1preview减少34%。

在包括编码、数学和视觉推理任务在内的一系列基准测试中，正式版o1都相比预览版取得了明显进步。例如在SWE-benchVerified基准的编码测试中，o1的评分从o1preview的41.3提高到48.9，而以数学为重点的AIME测试中的评分甚至从42跃升至79.2。

O1的新功能为开发者提供更多帮助。比如结构性输出StructuredOutputs功能让响应可靠地匹配自定义格式，如JSON模式，从而确保与外部系统交互时的一致性；函数调用Functioncalling功能简化了将o1连接到API和数据库的过程；对视觉输入进行推理的能力Visoncapabilities发掘了制造、科学和编码方面用例的前景。

开发人员还可以使用新的reasoning_effort参数微调o1的行为，该参数控制模型在任务上花费的时间，以此平衡性能和响应时间。

同时，o1的延迟更低，对于给定的请求，o1使用的推理token比o1-preview平均少60%。

本周二OpenAI还更新了支持语音助手、实时翻译工具等低延迟自然对话体验的RealtimeAPI。OpenAI同时降低RealtimeAPI的收费，将GPT-4o音频的定价降低了60%，降至每100万个输入token收费40美元，每100万个输出token收费80美元。GPT-4omini的文本token费率也大幅下调，输入token起步价0.60美元，输出token起步价2.40美元。

另外值得注意的是，英伟达当地时间12月17日推出了一款名为JetsonOrinNanoSuper的生成式AI超级计算机。英伟达CEO黄仁勋表示，这款开发者套件通过软件升级实现了更高性能和更低价格，仅售249美元，尺寸小巧，可放在手掌中，可将生成式AI性能提高高达1.7倍。

OpenAI王炸新一波：向开发者开放满血o1，测试中全面超越人类博士专家，准确率达到78.3%