首个AI高考全卷评测结果发布,这个大模型排名第一
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,高于OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)。语文和英语表现良好,数学不及格极目新闻记者看到,上海人工智能实验室公众号文...
首个AI高考全卷评测结果发布,阿里通义Qwen2模型“语数外”总排名...
Qwen2-72B:阿里巴巴于2024年6月6日开源的72B稠密模型。首个大模型高考全卷评测结果显示,Qwen2-72B、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过70%。其中,月初开源的阿里通义千问大模型Qwen2-72B,在语数外三科420分的满分中获得303分,排名第一。上海...
AI大模型参加高考全科目评测,文科总分过一本线,理科过二本线
近日,大模型开源开放评测体系“司南”(OpenCompass)对中外7个人工智能大模型进行了今年高考(新课标卷)全科目测试,结果显示:上海人工智能实验室“书生·浦语2.0系列文曲星”大模型、阿里“通义千问”大模型Qwen2-72B、OpenAI的GPT-4o排名文、理科前三名,前三名“考生”的文、理科成绩分别超过了一本、二本线(以...
上海人工智能实验室发布首个AI高考评测结果:数学全部不及格
DoNews6月20日消息,据IT之家报道,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷,参与评测的所有开源模型开源时间均早于高考,确...
首个AI高考全卷评测结果发布:最高分303,数学全不及格。-24小时...
首个AI高考全卷评测结果发布:最高分303,数学全不及格。据第一财经,高考覆盖各类学科及题型,同时因其开考前的“绝密性”,被视作中国最具权威的考试之一。这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了...
首个AI高考全卷评测结果发布:最高分303 数学全不及格
首个AI高考全卷评测结果发布:最高分303数学全不及格《科创板日报》19日讯,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试(www.e993.com)2024年11月27日。OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为...
谁是最会做题大模型?“高考评测”来了—新闻—科学网
消息出自上海人工智能实验室旗下司南评测体系OpenCompass对7个开源大模型进行的高考“语数外”全卷能力测试。据OpenCompass于6月19日发布的评测结果,大模型的语文、英语考试水平还不错,但数学都不及格,最高分也只有75分(满分150分)。参加OpenCompass此次高考测试的大模型,分别来自阿里巴巴、零一万物、智谱AI、上海人...
提升学习力冲刺高考,水评测让考生更轻松
水评测拥有定制化数字化的“提分+提能”解决方案,能通过螺旋递进式的“咨—测—学—练—考”等闭环模式,全面、科学地提升高考学子的学习动力、学习毅力、学习能力,帮助他们掌握适合自己的学习方法,培养良好的学习习惯,提高学习效率,从而提升高考学子的核心竞争力,让他们在这最关键的一个月中,提升自己的学习潜能,飞...
【大模型】出分了!首个AI高考全卷评测结果发布
高考覆盖各类学科及题型,同时因其开考前的“绝密性”,被视作中国最具权威的考试之一,成为评估考生综合能力的“试金石”。这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。2024年全国高考甫一结束,司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评...
首个AI高考全卷评测结果发布:数学全不及格;严打虚拟主播?腾讯视频...
首个AI高考全卷评测结果发布:数学全不及格上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。三科加起来的满分为420分,阿里通义千问2-72B排名第一,为303分;OpenAI的GPT-4o排名第二,得分296分;上海人工智能实验室的书生·浦语2.0排名第三。来自法国大模型初创公司的...