OpenAI王炸新一波:向开发者开放满血o1,测试中全面超越人类博士专家 ,准确率达到78.3%
每经编辑杜宇
在人工智能领域,英伟达再次引领技术革新,于当地时间12月17日推出了JetsonOrinNanoSuper,一款手掌大小的生成式AI超级计算机。这款仅售249美元的开发者套件,以其卓越的性能和亲民的价格,为商业AI开发者、爱好者和学生提供了一个强大的工具。英伟达CEO黄仁勋强调,JetsonOrinNanoSuper的性能提升了70%,每秒可执行高达67万亿次的INT8运算。
同时,OpenAI也不甘示弱,推出了最强推理模型o1,其在多个基准测试中超越人类专家,预示着通用人工智能(AGI)的进一步发展。
在为期12个工作日的线上新品和新技术发布活动中,OpenAI的王炸又来了一波:将OpenAI的最强推理模型o1向开发者开放,用于开发语音类App的API中纳入了收费更低的先进模型GPT-4o版本。
今年9月,OpenAI发布了o1的预览版o1preview,称o1是第一个具备真正通用推理能力的大模型,它的核心能力推理在测试化学、物理和生物学专业知识的基准GPQA-diamond上得到了充分体现。
据OpenAI的评估,o1在该测试中全面超过了人类博士专家,准确率达到78.3%,而人类专家的得分为69.7%。OpenAI称,“通用人工智能(AGI)之路,已经没有任何阻碍”。此外,o1在多个高难度的推理基准测试中表现优异,例如在美国数学邀请赛(AIME)中,o1的正确率达到了83.3%,远超其前身GPT-4o的表现。
12月5日,OpenAI在预告的连续12日王炸发布活动首日就推出了正式版的o1,所谓满血o1,它被纳入ChatGPTPlus套餐。正式版o1支持多模态输入,具备视觉推理能力。相比o1preview版本,正式版o1的平均响应速度快了60%,OpenAI还发现正式版o1在推理时犯重大错误的频率比o1preview减少34%。
在包括编码、数学和视觉推理任务在内的一系列基准测试中,正式版o1都相比预览版取得了明显进步。例如在SWE-benchVerified基准的编码测试中,o1的评分从o1preview的41.3提高到48.9,而以数学为重点的AIME测试中的评分甚至从42跃升至79.2。
O1的新功能为开发者提供更多帮助。比如结构性输出StructuredOutputs功能让响应可靠地匹配自定义格式,如JSON模式,从而确保与外部系统交互时的一致性;函数调用Functioncalling功能简化了将o1连接到API和数据库的过程;对视觉输入进行推理的能力Visoncapabilities发掘了制造、科学和编码方面用例的前景。
开发人员还可以使用新的reasoning_effort参数微调o1的行为,该参数控制模型在任务上花费的时间,以此平衡性能和响应时间。
同时,o1的延迟更低,对于给定的请求,o1使用的推理token比o1-preview平均少60%。
本周二OpenAI还更新了支持语音助手、实时翻译工具等低延迟自然对话体验的RealtimeAPI。OpenAI同时降低RealtimeAPI的收费,将GPT-4o音频的定价降低了60%,降至每100万个输入token收费40美元,每100万个输出token收费80美元。GPT-4omini的文本token费率也大幅下调,输入token起步价0.60美元,输出token起步价2.40美元。
另外值得注意的是,英伟达当地时间12月17日推出了一款名为JetsonOrinNanoSuper的生成式AI超级计算机。英伟达CEO黄仁勋表示,这款开发者套件通过软件升级实现了更高性能和更低价格,仅售249美元,尺寸小巧,可放在手掌中,可将生成式AI性能提高高达1.7倍。
该公司表示,这款产品适合商业AI开发者、爱好者和学生,与其前代产品相比,其生成式AI推理性能提升了1.7倍,性能提高了70%,每秒可以执行高达67万亿次的INT8运算(67INT8TOPS),内存带宽也提升了50%,达到了102GB/s。
黄仁勋还特意为这款产品录制了一段视频,如同2021年发布HopperH100时一样,展现英伟达对这款产品的重视。在视频中,黄仁勋表示,从Xavier开始,英伟达就创造了一种新的处理器,也就是机器人处理器,当时没人知道他们在做什么。
黄仁勋表示,JetsonOrinNanoSuper非常适合那些希望在生成式AI、机器人技术或计算机视觉领域发展技能的人士。在AI领域从任务专用模型向基础模型转变的趋势下,它也为开发者提供了一个将创意变为现实的易用平台。
JetsonOrinNanoSuper性能增强,为所有流行的生成式AI模型,例如Meta的LLaMA、阿里巴巴的通义千问以及谷歌的Gemma。这款套件基于Transformer的计算机视觉模型带来了显著提升,进一步提升效能表现。
英伟达强调,随着AI技术逐渐从云端走向终端,实体AI将是下一波发展重点,JetsonOrinNanoSuper不仅可以用于开发聊天机器人,也适合简历视觉AI代理或部署AI机器人等应用。
英伟达也宣布将为JetsonOrinNX和Nano系列的系统模块提供软件更新,让它们也能享受到Super模式的性能提升,最高可达70%。这些更新将通过JetpackSDK管理器发布在英伟达网站和GitHub上。
每日经济新闻综合公开资料