一句废话就把OpenAI o1干崩了?大模型的推理能力还真挺脆弱的。
我们假设这种下降是因为当前的LLMs无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。当我们添加一个看似与问题相关的单一子句时,我们观察到所有最先进模型的表现显著下降(最高可达65%),尽管所添加的子句并未对达到最终答案所需的推理链作出贡献。现在的AI,并不是在真正的推理,而是试图复制...
实测OpenAI的o1:真没吹牛,奥数题高考题都能信手拈来了?
它思考花了26秒,意识到需要使用与物理、数学和编码相关的概念来生成输出。在几轮对话明确想法后,o1结合了提示词每一步背后的逻辑,将物理和数学合并,把几个视觉元素翻译成合适的代码。初步看来,运行代码后效果还不错,八大行星和和恒星都有,行星轨迹若隐若现。拨动不同的滑块,能看到不同的效果,对于做实验来...
新加坡一道中学奥数题逼疯了全世界
新加坡一道为十五六岁学生设计的奥数题被人放上网,惊呆了数学渣的西方网民。这道数学题意在考察学生的逻辑推理能力,情节设定是:Albert和Bernard这两位男生想要知道女孩Cheryl的生日,于是Cheryl给了他俩10个日期,然后分别悄悄向两人透露了月和日的确切信息。题目要求学生们通过分析两位男生的几句对话,最终推理出Cheryl的...
一道小学奥数题4个AI平台答案不一,专家回应
近日,重庆家长刘先生向上游新闻(报料邮箱baoliaosy@163)记者反映:同一道奥数题,百度、阿里云、今日头条等国内4个主流AI大模型平台,竟然给出了不同的答案。3月11日,上游新闻记者从百度客服及人工智能专家处了解到,人工智能大模型平台并不是题库,数据模型一直在学习完善中,尤其是在数学和逻辑方面。同一道...
AI攻破高中奥数题,意味着什么?
,作者:学术头条,原文标题:《Nature重磅:做高中生奥数题,AI接近人类金牌选手了》,题图来自:视觉中国近日,一个名为AlphaGeometry的AI模型成功解决了国际数学奥林匹克竞赛级别的几何题,其表现接近人类金牌选手水平。这一突破标志着AI在数学问题解决方面取得了重要进展,展示了AI在解决复杂逻辑挑战方面的潜力。
Nature重磅:做高中生奥数题,AI接近人类金牌选手了
AI搞定奥数题,很难吗?自20世纪50年代以来,追求更好的定理证明能力一直是AI研究的焦点(www.e993.com)2024年11月18日。数学奥林匹克竞赛是世界上最著名的定理证明竞赛,其历史可以追溯到1959年,在发现卓越人才方面有着重要作用。国际数学奥林匹克竞赛的题目通常涉及深度的数学理论和抽象的数学概念,需要独立思考、创造性解决问题和运用直...
奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源
开创性的人工智能推理能力AlphaGeometry提供的每一道奥数题的解法都经过计算机检查和验证。研究人员还将其结果与之前的人工智能方法以及人类在奥林匹克竞赛中的表现进行了比较。此外,数学教练、前奥赛金牌得主EvanChen(陈谊廷)为我们评估了AlphaGeometry的一系列解决方案。
新加坡数学题吓傻西方网民 国人称是五年级题目
新加坡一道数学题“吓傻”西方网民中国妈妈淡定回应,这在国内是一道小学五年级奥数题杨舒怡(新华社特稿)新加坡一道为十五六岁学生设计的奥数题被人放上网,不料惹得西方国家网民绞尽脑汁争相答题。许多人惊呼,新加坡孩子竟然要做这么难的数学题啊!全球网民踊跃答题...
一道小学奥数题4个AI平台答案不一,专家:AI平台不是题库,一直在...
3月11日,上游新闻记者从百度客服及人工智能专家处了解到,人工智能大模型平台并不是题库,数据模型一直在学习完善中,尤其是在数学和逻辑方面。同一道奥数题,刘先生得到结果为30分钟、7分钟两种不同答案。受访者供图刘先生告诉上游新闻记者,自己的孩子上小学四年级,最近他在辅导孩子做奥数题,但自己并非理工科出身,...
新加坡一道数学题引发西方网友吐槽
一道数学题引发的网络吐槽新加坡一道为十五六岁学生设计的奥数题被人放上网,一连数天引发西方网民锐评、神吐槽和犀利八卦。题目主人公被“玩坏”的同时,折射出东西方思考问题角度的差异。这道数学题意在考察学生逻辑推理能力,情节设定是:阿尔贝茨、贝尔纳德这两个小伙子想要知道谢丽尔姑娘的生日,于是谢丽尔给了他俩10...