谷歌人工智能测试得分达到国际数学奥赛银牌水平
谷歌人工智能测试得分达到国际数学奥赛银牌水平新华社电继击败人类围棋大师和游戏玩家之后,谷歌旗下“深层思维”公司7月25日宣布,其人工智能(AI)系统在测试中成功解答了2024年国际数学奥林匹克竞赛的考题,最终得分达到本次比赛的银牌水平,但其解答多数考题的时间较长。据报道,“深层思维”的AI系统解答了本月在英国...
AI大模型“高考”成绩公布:几乎都偏文,数学有点差,解题思路特别...
AI通常被认为应该在逻辑思维方面有着出色能力,但此次测试中,AI考生面对数学新课标I卷几乎“全军覆没”,得分均未达到总分的一半(即75分)。数学简答题更成了这群考生“越不过去的坎”,五道简答题的平均得分率仅为18.9%。复旦大学计算机科学技术学院教授张军平介绍,此次参加测试的AI考生都是语言类大模型,接受过语料库...
AI参加数学高考为何不及格?周伯文提出“通专融合”科研战略路径
令人欣慰的是,上海人工智能实验室研发的“书生·浦语”2.0文曲星在数学成绩上排名第一,超过了GPT-4o。中外7个大模型的数学各题型得分情况“这得益于我们的开源数学模型,它沉淀了密集过程监督、模型辅助的思维链校验、多轮强化自训练、文本推理和代码解释器联合迭代等一系列技术,具备良好的自然语言推理、代码解题和...
文科“状元”,数学挂科,原来AI也是个偏科生!
考试结果显示,大模型在文科领域的表现尤为出色,有的甚至可以远超一本线;然而在理科领域表现不尽如人意,数学和理综科目的分数普遍较低,反映出大模型在解决复杂数学问题和理解物理、化学概念上的挑战。亲测高考,AI模型到底能拿几分?来看这场考试的一些有趣的细节展示。这场考试,采用了难度极高的2024年新课标Ⅰ...
上海人工智能实验室发布首个AI高考评测结果:数学全部不及格
语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生??浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾,仅拿下185分。数学是所有...
人工智能挑战高考数学 百川、云从科技等位列前五
近日,随着高考的落幕,各家AI大模型纷纷参与测评试卷,在最新公布的榜单中,百川、GPT-4以及云从科技等众多大模型表现亮眼(www.e993.com)2024年8月15日。作为人工智能体企业云从科技的从容大模型接受了高考数学试卷的严格测试,其展现出的解题能力与逻辑推理能力令人印象深刻,不仅成功解答了一系列复杂题目,更是在众多参测AI系统中脱颖而出,得分45...
当大模型开始「考上」一本
语文作文由测试团队特邀学科老师打分,打分过程对AI产品做匿名处理。委托专业的AI数据服务商进行统一规范测试截图,所有测试均通过各款大模型产品的PC端官网公开入口完成操作。考试结果如下图所示,整体来看大模型在文科的表现更加优异,最高分可以达到562分(GPT-4o),相比之下理科成绩不尽如人意,最高只有478...
张朝阳、周鸿祎帮高考生选风口专业:推荐数学、人工智能、能源和...
对于未来社会需要什么类型人才、当前高考生应选择什么专业,周鸿祎推荐人工智能、能源和生物学,并强调其实拥有探索心、好奇心、持续学习和解决问题的能力更重要,“专业不重要。”张朝阳则推荐数学专业,因为学好数学未来可以向各个方向转行。他建议报专业不要随大流被主流观念束缚,女生喜欢理科就报理科,男生喜欢文科也可以选择...
上海人工智能实验室发布首个 AI 高考评测结果:最高 303 分,数学...
IT之家6月20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷,参与评测的所有开源模型开源时间均早于高考,确保评测“闭...
陶哲轩转发、菲尔兹奖得主领衔:AI正在颠覆数学家的工作方式
基准测试集是评估AI系统性能的重要工具,但它们可能无法全面覆盖AI的所有能力。但同时他也指出,尽管AI在处理基础问题时存在局限,但这可能不会影响其进行高级数学研究的能力。一方面,高级数学研究可能不需要与解决基础问题相同的常识推理能力。另一方面,在棋类游戏上,即使AI无法理解棋局的基本概念,在棋局分析和策略制定...