对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全
根据官方结果,k0-math在中考、高考、考研和MATH等4个数学基准测试中均取得第一。在业界最常使用的MATH能力基准测试中,k0-math得分93.8,超过o1-mini和o1-preview。与常规模型不同,k0-math花更长时间推理,包括思考、规划思路和反思,以提高答题成功率。当前版本k0-math尚无法解答难以描述的几何图形类问题,对于过于...
当AI遇上高考数学题,4个大模型“考生”“成绩单”出炉
在第11题,文心一言非常坦诚地做出答复,并揭示了大模型处理数学问题背后的本质:“由于我们没有具体的数学工具或方程来直接进行计算,只能根据给定的信息进行逻辑推理。因此,我无法确定任何选项的正确性。”对于第12题,文心一言也告知称“我只能提供解题的思路和步骤,而不能直接给出确切值。”智谱清言在部分题目中也存...
林达华:国内大模型与GPT-4的差距是“高考数学最后一题”
林达华说,大模型评测体系“司南”(OpenCompass2.0)显示,国内排名前列的大模型在主客观表现上都超过了GPT-3.5(ChatGPT的基座模型),但是与GPT-4还存在差距,主要表现在推理能力上。“高考数学的最后一道大题,需要考生有出色的推理能力。我们和GPT-4的最大差距,可以说就是高考数学的最后一题。”归纳推理能力不足是...
大模型版5年高考3年模拟来了!含6141道数学题|微软&UCLA&UW出品
IQTest侧重于智力测试题,FunctionQA专注于函数图形的推理,而PaperQA则关注于对文献中的图表进行深入理解,有效地弥补了现有数据集的不足。此外,MathVista覆盖了两种主要的任务类型:多选题(占比55.2%)和数值型开放题(占比44.8%)。包括五大任务类别:图形问答(FQA)、几何解题(GPS)、数学应用题(MWP)、教材问答(TQA)...
专家评北京高考数学卷:题型题量合理,保证公平性、突出选拔性
专家认为,2024年高考数学北京卷符合《普通高中数学课程标准》的要求,知识内容覆盖全面,突出主干;关注数学本质和通性通法;通过创设合适情境、设计有效任务等,提升应用性、探究性、开放性、综合性试题的质量,实现有效考查学生核心素养的发展水平。试卷结构与去年一致,包括单项选择题、填空题和解答题,题型、题量布局合理,分...
大模型“考生”们高考数学普遍不及格,业内解释为何“偏科”
针对大模型答数学题普遍“吃瘪”的问题,国内某头部大模型负责人就曾表示,大模型的指令遵循或者说推理能力通常是把一个指令背后的意思拆解出来,但数学题既包含规则性,又包含对各种思维的考察,解题逻辑和正常用大模型时的推理逻辑不一定完全一样(www.e993.com)2024年11月26日。同时该负责人还提到,从更广泛的大模型应用角度来看,AI能不能精准...
名师解读:郑州十一中张丹霄评析2024高考化学新课标I卷试题
高考化学试题考查学生的辩证思维与探究能力,选拔具有研究潜质的学生,助力拔尖创新人才培养。新课标卷第8题选取点击化学合成法合成聚硫酸酯的作为素材,从结构决定性质的化学观念出发设计问题,在考查聚合反应途径、聚合物稳定性等有机化学必备知识的同时,综合考查学生观察对比、分析推理、迁移创新的科学思维。该方法是2022年...
大模型年度榜单公布:GPT-4第一,智谱、阿里紧追
“主观评测中,最难的是主观的数学题,不能靠猜答案。”上海人工智能实验室领军科学家林达华表示,榜单中,GPT-4Turbo的数学能力遥遥领先,说明在高难度的推理上具有优势。基于主观评测分析,研究人员还发现,国内商用大模型在中文评测中表现优秀,和GPT-4Turbo差距缩小。阿里巴巴Qwen-Max、智谱清言GLM-4、百度文心4.0...
陆晨博士:从2022年高考数学中的贝叶斯推理题谈起
在今年高考数学考卷中赫然发现一道贝叶斯推理计算题:一个医疗队研究某地的一种地方疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两种)的关系,在患该疾病的病例中随机调查了100例(称为病例组),同时在未患有该疾病的人群中随机调查了100人(成为对照组),得到了以下数据:...
【名师点评河南高考英语】郑外丁静:阅读理解词汇依然大 推理判断...
原标题:名师点评河南高考英语郑外丁静:阅读理解词汇依然大推理判断题比例有所增加(记者刘高雅实习生陈薇)6月8日下午,随着最后一场英语考试结束,2022年高考落下帷幕。今年英语考试难易度如何?方向是什么?考生怎样答题能答到“点”上?大河网记者特邀郑州外国语学校高三英语教师丁静进行点评。