实测OpenAI的o1:真没吹牛,奥数题高考题都能信手拈来了?
既然o1能做顶尖数学竞赛,也能做高考理科真题。以前每每做高考真题,答案往往只有孤零零的数字一个,想研究吧,没参考。那我们不如让o1解高考真题,给广大学子提供下新的解题思路。2024年高考物理真题(北京卷)真题及答案o1-preview用了26秒得出答案,而且整个过程非常详细,推理也很到位。详细解答:再来看一道...
复旦大学公布高考数学大模型评测结果 讯飞星火、通义千问名列前茅...
近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队发布了2024年高考数学大模型评测结果,其中讯飞星火和通义千问表现突出,分别在高考数学新I卷和高考数学新II卷中分列前两名,而GPT-4o则在两份考卷的评测中均位列第三。复旦NLP团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的绝好评测集合。
大火的大模型高考数学能考多少?让GPT-4o和MathGPT试试!
三、选择题,九章大模型、GPT-4o互有胜负2024年高考全国甲卷数学题共12道选择题,九章大模型和GPT-4o都是有7道正确,但做对的题目不完全相同,互有胜负。具体来看几道题:第2题,九章大模型做对,GPT-4o做错:原题:九章大模型解答:GPT-4o解答:第9题,九章大模型做对,GPT-4o认为没有正确答案:原...
大模型能答对几道高考数学题?国产九章大模型PK国际GPT-4o
老婆你先睡!这超超超变传奇真的0充爆终极!1怪10充值点!
AI大模型“高考”成绩公布:几乎都偏文,数学有点差,解题思路特别...
2024年全国高考甫一结束,上海人工智能实验室旗下的大模型开源开放评测体系司南(OpenCompass)选取国内外7个AI大模型进行高考全科目测试,7名AI考生的试卷,由具有高考评卷经验的教师在不知考生身份的情况下判分。日前,测试结果出炉:书生·浦语2.0系列文曲星大语言模型、阿里通义千问大模型Qwen2-72B以及GPT-4o的成绩...
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排名二三位(www.e993.com)2024年11月8日。本次评测采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高...
语文能考124分 数学都不及格……这群“偏科”的考生是谁?阅卷老师...
首个大模型高考全卷评测结果显示,Qwen2-72B、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为此次“大模型高考”的前三名,在总分420分的语数英三科较量中,三位“考生”的总分分别是303分、296分和295.5分。语言能力“不错”数学“一般”...
首个AI高考全卷评测结果出分,大模型“考生”表现如何?
大模型语言能力表现良好,但数学有待提高司南评测体系团队选取了GPT-4o及在2024年高考前开源的6个模型参与本次“大模型高考”评测。评测采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高考,确保评测“闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。
AI作答高考卷,测出了什么?
AI作答高考卷,测出了什么?转自:视点大模型作答高考卷,一个有意思的实验:2024年全国高考结束后,上海人工智能实验室的司南评测体系(OpenCompass)选取了包括GPT-4o在内的中外6个开源模型,针对高考全国新课标I卷“语数外”三门课程进行了全卷能力测试。结果显示,阿里巴巴的Qwen2-72B语文成绩夺冠,124分;GPT-4...
高考数学,AI大模型被难倒,几乎全军覆没,GPT-4o仅得41 分
和往年一样,除了让AI大模型写写高考作文,我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平(让众多考生头皮发麻)的高考数学考试(新课标Ⅰ卷),其中包括GPT-4o、GLM-4、文心一言4.0、豆包、百小应(百川4)以及通义千问2.5。