OpenAI的AI模型o1在科学、编码和数学领域表现出色
OpenAI的AI模型o1在科学、编码和数学等领域表现出色。在GPQA(AI模型高级推理能力)基准测试中,o1的表现首次超过博士级学者,总体得分达78%,其中物理科目得分高达93%。在国际数学奥林匹克资格考试中,o1得分83%,远超GPT-4o的表现。这个模型采用链式推理逻辑,具备自我纠错能力。然而它也存在幻觉问题,可能比其他模...
联合中国教科院,科大讯飞首发基于问题链的高中数学智能教师系统
发布超拟人数字人;发布星火多语言大模型、讯飞星火医学影像大模型、汽车端侧星火大模型;发布首个基于“问题链”的高中数学智能教师系统、星火智慧黑板2.0、AI作业过滤器等;发布星火智办一体机、智能座舱人机交互效果评测机器人VIAS以及科大讯飞多语种AI翻译透明屏。
大语言模型懂数学?OpenAI发o1模型 解题高手如何炼成的
OpenAI在官方技术文档中表示,以目前o1模型的成绩,在美国数学邀请赛上可以排名进入美国前500名。此外,o1-mini也展示出了不俗的实力,OpenAI科学研究员赵生家(音)发文称,该款大模型在运行成本更低的情况下,还能实现70%AIME(美国数学邀请赛)正确率和Codeforces(一个程序员在线竞赛平台)Elo评分1650(专家级水平)的成绩。
通义千问数学模型Qwen2 Math Demo放出,72B版吊打GPT-4
Qwen2-Math推出了三个版本:72B、7B和1.5B。其中72B版本简直是个数学天才,在MATH数据集上居然比GPT-4多得了7分,提高了9.6%。这就好比高考数学你考了145分,而你旁边的学霸只考了132分。更厉害的是,7B版本用不到十分之一的参数量,就超过了72B的开源数学模型NuminaMath。要知道,NuminaMath可是在全球首届AIMO中...
10款大模型做北京中考数学题,4款国产大模型表现超ChatGPT
现在,降低难度,用大模型做北京中考的数学题,它们的表现又如何呢?选取百度文心一言、阿里通义、腾讯元宝、字节豆包、ChatGPT,百川智能百小应、零一万物万知、智谱清言、月之暗面的Kimi,好未来九章大模型总计10款大模型来答题。其中,零一万物万知PC端不支持上传图片/拍照,这里采用了万知微信小程序来参与答题。...
当AI遇上高考数学题,4个大模型“考生”“成绩单”出炉
对于多选题第11题,四个大模型均未能成功识别,也是唯一一道让四个大模型“全军覆没”的题目(www.e993.com)2024年11月27日。可以看到,四个大模型在数学图形识别及图文关系理解上,普遍存在短板。九章大模型在图片题目识别上,会先在输入文本框中识别读取出题面,并以文本形式呈现,用户可在框内确认题目的准确性。若发现识别错误,点击即可出现数学符号...
复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠
近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新Ⅱ卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二、三位,而在高考数学新Ⅰ卷评测排名中,字节豆包也排在前列。
12个国产大模型大战高考数学,意外炸出个大bug
原创关注前沿科技量子位金磊发自凹非寺量子位|公众号QbitAI继国产大模型之后,是时候再战一下高考数学了。数学高考Ⅰ卷的题目,目前已经陆陆
大火的大模型高考数学能考多少?让GPT-4o和MathGPT试试!
九章大模型总分=7*5分+2*5分=45分(满分90分)GPT-4o选择题12题,正确7题。填空题4题,正确1题。GPT-4o总分=7*5分+1*5分=40分(满分90分)九章大模型作为以数学领域的解题和讲题算法为核心的大模型,在高考数学题目上更胜一筹,比GPT-4o得分更高。同时...
9款大模型做这道高考数学题:8家都翻车了 只有ChatGPT一次做对
我们再用百度文心一言、阿里通义、腾讯元宝、字节豆包、360智脑、ChatGPT,再加2款国产大模型产品百川智能百小应、零一万物万知,另外还有专攻K12数学的好未来(学而思母公司)的九章大模型,总计9大神器,来做2024年高考数学题,看看他们的水平如何,会不会翻车。