OpenAI o1新上线，给大模型“打榜热”上一课

2024-09-13 17:23:00 - 上观新闻

摘要：大模型跑分没有意义，具体应用场景是否满足用户需求以及产生价值增益，才是衡量大模型能力的标准。

铺垫很长，但发布很突然。今日（13日）凌晨，OpenAI发布o1系列两款模型，这是传闻中内部代号为“草莓”的项目，也是OpenAI首款具备推理能力的大模型。

o1大模型的取名方式一改原有的数字版本模式（如GPT-3.5、GPT-4o），OpenAI为此解释“它代表了人工智能能力的新水平，我们将计数器重置为1”。

那么，o1的“新水平”到底有多新？测试结果显示，与GPT-4o相比，o1又贵又慢，单位词元成本提高了2—3倍，输出内容不再是“秒回”，而是需要“思考”十几秒。不过测试结果显示，o1解决数学和编码等复杂问题显著优于GPT-4o。

根据官方解释，o1采取与众不同的“思维链”（ChainofThought）模式进行训练，以此提升大模型的逻辑推理能力。o1“思考”越久，思维链越长，面对复杂问题的表现就越好。

国内大模型创业者告诉记者，o1的上线，意味着新的ScalingLaw（拓展规模法则）诞生，也将影响原有的大模型评价体系和框架。

与以往NLP（自然语言处理）相比，大模型评价体系更为复杂，由于输出内容的不可确定性，评价体系不局限于明确的任务指标，而是综合对场景能力进行评估。这也给大模型的“尺度”带来了操作空间。

事实上，国内外大模型的测试集和榜单多达上百种，每个榜单的排名几乎各不相同。比如中文大模型测评基准SuperCLUE最新报告中，腾讯混元大模型总得分居国内大模型第一名；大模型社区HuggingFace排行榜显示，阿里云通义千问登顶开源模型榜首；斯坦福大学基础模型研究中心排行榜中，零一万物大模型力压百度、字节进入全球十强……

记者从业内人士获悉，国内外大模型的测评项目参差不齐，但很多都是“开卷考”，新模型可以针对现有题库“刷题”来训练，刷出高分来验证能力。大模型厂商不仅会猜题，还会用“模拟考”来训练答题技巧，“打榜成绩”好坏无法客观反映出大模型的真实能力。因此，榜单中很多新模型的“异军突起”，实际效果仍要打个问号。

“很多国产新模型发布时，喜欢跟OpenAI最新模型比较，用测试集来跑分，有些单项得分超过GPT-4o，但这并不能代表，这些新模型与GPT-4o的能力相差不大。”记者从百度内部获悉，李彦宏在员工讲话中批评了当前的大模型“打榜热”，他认为大模型的差距是多维度的，能力维度只是其中一方面，理解、生成、逻辑推理、记忆联想等能力，可以通过特定项目训练实现目标，但是成本维度、时间维度等却几乎不予披露，而这些维度与大模型的实际能力密切相关。

“部分自媒体的炒作，加上新模型发布的宣传，让大家有一种印象，认为模型之间的能力差别已经比较小了，其实真不是这样。”李彦宏认为，大模型跑分没有意义，具体应用场景是否满足用户需求以及产生价值增益，才是衡量大模型能力的标准。

上周，开源模型Reflection70B横扫各大模型榜单，每项基准测试表现均超过GPT-4o，由两位开发者仅耗时3周完成，如今却被曝出面临无法复现、套壳等指控。凭借跑分一炮而红，从而吸引投资，这一情况在“百模大战”中早已屡见不鲜。

回过头来看o1，几乎没有参与主流榜单测评，甚至连在很多重要评价类目中不如GPT-4o，比如无法处理文件和图像、对常识理解表现欠佳等，但o1的实力却是有目共睹的。OpenAI让o1“参加”国际数学奥林匹克资格考试，GPT-4o正确率为13%，但o1正确率高达83%。

俗话说，是骡子是马，拉出去遛遛。大模型的能力难以被量化，不代表用户没有感知度。大模型的终极检验，应该在市场，而不是在榜单。

栏目主编：李晔

题图来源：东方IC

图片编辑：雍凯