AI开卷数学模型,哪家强?
首先,拿ChatGPT4o和ChatGPTo1-preview进行对比,果然,统一大模型下测试语言类和数学类就能看出它真正的能力。ChatGPT4o逻辑性比较明显,回答也很干脆,它说:一,旋转角度不明确,比如“绕B点逆时针旋转任意角度”,这个角度到底是多少?需要明确。二,已知条件和几何关系不匹配,导致计算困难。三,因为有前两个...
大模型能答对几道高考数学题?国产九章大模型 PK 国际 GPT-4o
九章大模型总分=7*5分+2*5分=45分(满分90分)GPT-4o选择题12题,正确7题。填空题4题,正确1题。GPT-4o总分=7*5分+1*5分=40分(满分90分)九章大模型作为以数学领域的解题和讲题算法为核心的大模型,在高考数学题...
复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠
近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新Ⅱ卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二、三位,而在高考数学新Ⅰ卷评测排名中,字节豆包也排在前列。据悉,LLMEval是由复旦大学NLP实验室推出的...
复旦大学公布高考数学大模型评测结果 讯飞星火、通义千问名列前茅...
近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队发布了2024年高考数学大模型评测结果,其中讯飞星火和通义千问表现突出,分别在高考数学新I卷和高考数学新II卷中分列前两名,而GPT-4o则在两份考卷的评测中均位列第三。复旦NLP团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的绝好评测集合。
八款国产 AI 地狱挑战 2024 高考数学压轴大题:只给一张模糊拍屏...
4o首先将题目大意完整复述了一遍:4o的第一步并不是直接开始解第一小题,而是理解所谓数列的特性究竟是什么:紧接着是第一小题,4o直接画了个矩阵出来:第二和第三小题,没有给出完整的解题过程,而是提供了解题思路:但这可是考试,不给出完整过程怎么行呢?可惜在重试了几次之后,4o还是拒绝了我,“臣...
大火的大模型高考数学能考多少?让GPT-4o和MathGPT试试!
九章大模型总分=7*5分+2*5分=45分(满分90分)GPT-4o选择题12题,正确7题(www.e993.com)2024年11月28日。填空题4题,正确1题。GPT-4o总分=7*5分+1*5分=40分(满分90分)九章大模型作为以数学领域的解题和讲题算法为核心的大模型,在高考数学题目上更胜一筹,比GPT-4o得分更高。同时...
“AI考生”高考成绩公布,国产大模型总分、数学分数超过GPT-4o
大模型擅长文科,语文和英语成绩优良,数学成绩都不及格。上海人工智能实验室今天公布了多名“AI考生”参加今年中国高考的成绩,阿里Qwen2-72B、GPT-4o和“书生·浦语”2.0文曲星(InternLM2-20B-WQX)成为三甲,得分率均超过70%。大部分“AI考生”在语文、英语科目上表现良好,但数学成绩不如人意。其中,“书生·浦...
大模型的高考数学成绩单:及格已经非常好了
图|8个模型对14道数学题的回答结果,绿色为正确、红色为错误、黄色为部分正确具体而言,在满分73分、及格线为43.8分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520(63分)>智谱清言(43分)>GPT-4o(41分)>豆包(40分)>文心4(30分)=百川4(30分...
上海人工智能实验室发布首个AI高考评测结果:数学全部不及格
具体来看,InternLM2-20B-WQX取得了数学单科的最高分,超越包括GPT-4o在内的所有模型。此次参与“大模型高考”评测的产品包含GPT-4o及其他6个模型。为公平起见,此次评测没有纳入商用闭源模型。这6个模型分别是:Mixtral8x22B:法国AI创业公司Mistral于2024年4月17日开源的对话模型...
首个AI高考全卷评测结果发布:语文124分 数学都不及格
司南评测体系首次采用高考全卷测试的形式,选取新课标I卷“语数外”三科题目作为测试集。因受测的开源模型均为大语言模型,在评测过程中,仅输入文字题干(数学包含2道带图试题),英语听力部分(分值30分)不纳入此次评测。首个大模型高考全卷评测结果显示,Qwen2-72B、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-...