o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大...
包括菲尔兹奖得主陶哲轩(2006)、蒂莫西·高尔斯(1998)、理查德·博赫兹(1998),以及国际数学奥林匹克竞赛(IMO)教练陈谊廷(EvanChen)在内,他们一致认为这些题非常具有挑战性。下一步EpochAI也计划从四个方面持续推进:定期评估这些领先的大模型,并观察高级数学推理能力随时间推移和规模扩大而提高的情况;...
紫荆观察丨大模型答数学题“翻车”是种警示
近日,一道小学数学题让AI大模型集体“失智”了。9.11和9.9两个数字哪个更大?就此问题,第一财经记者测试了12个大模型。其中,国内外12个大模型之中只有4个答对了,剩下8个全都回答错误,且错法各有不同。一道小学数学题难倒了一众海内外AI大模型,这在舆论场激起了不小涟漪。有人“惊掉下巴”,调侃“大模型集体...
数学界迎来AlphaGo时刻:谷歌AI用19秒答完一道IMO几何题
AlphaProof解决了两道代数题和一道数论题,其中包括本次比赛中最难的一道题目。而AlphaGeometry2则成功解决了一道几何题,仅仅耗时19秒。未能完成的两道题属于组合数学的范畴。这两个人工智能系统的总成绩获得了42分中的28分,仅差1分就达到了金牌的门槛。图丨AI系统相较于所有人类选手的表现(...
数学界迎来AlphaGo时刻:谷歌AI用19秒答完一道IMO几何题,差1分即可...
AlphaProof解决了两道代数题和一道数论题,其中包括本次比赛中最难的一道题目。而AlphaGeometry2则成功解决了一道几何题,仅仅耗时19秒。未能完成的两道题属于组合数学的范畴。这两个人工智能系统的总成绩获得了42分中的28分,仅差1分就达到了金牌的门槛。图丨AI系统相较于所有人类选手的表现(...
成都一火锅店推出答数学题活动,答对免单答错送脑花,店员:当天客人...
答对数学题可以免费吃火锅,答不对会有店员送上一份脑花。近日,成都一家火锅店推出答题免单活动,吸引不少人前来参与。有网友称,吃火锅遇到了一群高中生,“人家两分钟就解出来的题,作为大学生的我,硬是十分钟都没解出来,好扎心啊。”还有人调侃:店家送的脑花,是给答不出题的人补补脑吗?答错数学题送...
大模型答数学题“翻车”是种警示
近日,一道小学数学题让AI大模型集体“失智”了(www.e993.com)2024年11月16日。9.11和9.9两个数字哪个更大?就此问题,第一财经记者测试了12个大模型。其中,国内外12个大模型之中只有4个答对了,剩下8个全都回答错误,且错法各有不同。一道小学数学题难倒了一众海内外AI大模型,这在舆论场激起了不小涟漪。有人“惊掉下巴”,调侃“大模型集体...
学而思学习机新品搭载九章大模型:小学初中数学题即问即答
据学而思学习机负责人赵璞铮介绍,学习机还上线了基于九章大模型的“数学随时问”,可以实现对小学初中的任何一道数学题,80%实现即问即答,暂时不能回答的最快可在一小时内上传真人讲解、20分钟内生成AI视频解析。值得留意的是,学而思自研的新功能“AI对话学”也是xPad2Pro系列的一大亮点。“AI对话学”基于大模型...
无所不能的 AI 做不出小学数学题?居然生成这样的答案,AI 简直离了...
答:...去一个更危险的地方,然后被逮捕。此外,AI也没那么擅长数学。有人曾这样问AI:如果一根香蕉重0.5磅,而我有7磅香蕉和9个橙子,我总共有多少个水果?机器人快速回复:你有16个水果、7个香蕉和9个橙子。然而正确答案应该是:有23个水果当前的...
黄仁勋万字答问实录:AI的下一个浪潮是什么?
黄仁勋:AI工坊的目标是构建软件AI,不是将软件作为一个工具,但请记住英伟达始终是一家软件公司。我们很久以前创建的最重要的软件之一叫做Optics,后来它变成了RTX。另一个非常重要的是叫做cuDNN,cuDNN是AI库。我们有所有这些不同的库。未来的库是一个微服务,因为未来的库不仅会用数学描述,还会用AI描述。所以这些...
翻车了!9.11和9.9哪个大?记者实测12个大模型8个都答错
“文科生”数学差,数学能力一直是大语言模型的短板。一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川...