麻省理工科技评论：皖版大模型“星火”，中国“最聪明”！

2023-08-18 15:52:59 - 安徽商报

国内“千模大战”下，谁是最聪明的大模型？近日，《麻省理工科技评论》中国最新发布的大模型评测报告给出答案。

报告显示，在8个一级大类的600道题目的测试和盲评中，讯飞星火认知大模型V2.0在6个大类中得分率排名第一，在此次评测中表现突出，以81.5分（百分制计）的成绩在本次评测中登顶，荣获“最聪明”的国产大模型称号。

《麻省理工科技评论》为全球知名科技评论杂志，一直围绕技术话题辐射和影响整个新兴科技圈层，重点关注新兴科技的商业化和社会价值。《麻省理工科技评论》中国从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力，力图评出“最聪明”的国产大模型。

本次评测选取了“讯飞星火”、“百度文心一言”、“商汤商量”、“阿里通义千问”作为中文大模型平台的代表，展开系统、科学的评测。

本次评测使用的测试集包含600道题目，覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共8个一级大类，126个二级分类，290个三级标签，并针对问题的丰富性和多样性做了优化。

在题目类型上，为了兼顾定量、定性的评价与测试，设置了“单选”、“多选”、“填空”、“简答”4个题型，分别有145道、138道、136道和181道。大模型评测体系使用盲评方式，客观评估国产大模型的聪明程度。

作为“最聪明”的大模型的基础能力，语言专项评测包含对话理解、多语种、讽刺、古诗词理解、文本生成、要点总结、情感分析、语义判断等61个二级分类，题型则以简答为主。结果显示，讯飞星火85.73%的得分率排名第一，明显高于平均值。

值得一提的是，从题型角度来看，主观简答题中讯飞星火凭借83.98%的得分率位居第一；而在客观题上，讯飞星火以75.7%的得分率排名第一，在主客观题型中均有良好表现。

在刚刚过去的8月15日，讯飞星火认知大模型V2.0如期发布，进一步突破代码能力和多模态能力。

8月12日，新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》中，讯飞星火V1.5以总分1013分位列本次国产主流大模型测评榜首位，在四大评测维度中的智商指数和工具提效指数两个维度获得第一，《报告》认为讯飞星火“在工作提效方面优势明显”。

麻省理工科技评论：皖版大模型“星火”，中国“最聪明”！

麻省理工科技评论：皖版大模型“星火”，中国“最聪明”！

今日热搜

孙子小区内坠井 爷爷施救身亡

教育局回应学生带饭只能室外用餐

北京市最年轻副市长高朋被“双开”

华为原生鸿蒙操作系统正式发布

带饭的学生不能进食堂？教育局回应

向佐斥责某大学用表情包打卡收款

“东北雨姐”被禁言后高仿号涌现

印度网友欢呼的宏伟工程是中国的

老人为当榜一大哥刷光50万养老金

华为nova13价格公布

黑话和烂梗包围中小学生

酒后泄愤，男子从25楼扔下自行车

绝密文件间接证实以确实有核武器

男子用女儿指纹强行入侵前妻住宅

老人强行要求孕妇让座 乘客合力拉开

肖阿婆家的10吨垃圾清理完毕

销量下跌超30% 宝马重启价格战

这不是纱这是中国瓷器

清北毕业生入职县级中学 当地回应

穿越喀山 一览“金砖之城”

外交部回应朝军已进入乌克兰战场

00后吐槽公司无效加班被开除

多地异常增水海水倒灌 应急响应启动

朝方称派兵援俄是谣言

景德镇商户回应游客在路边捡陶瓷

中印就边境问题达成解决方案

最高奖励990万！法院发布悬赏通告

物业做防水40颗钉子将天花板打穿

徒步者曾遇秦岭遇难女孩称看起来吓人

山东有人打捞海肠溺水？假的

布林肯刚到以色列天空就响起爆炸声

医学博士马尔代夫溺亡 是家中独子

2名中国女性意大利赶海遇难

中国援黎物资机舱装得满满登登

双11规则眼花缭乱

战狼还是拍保守了

国考河南12个岗位无人报名

加沙男童吃早饭时被天降物资砸死

小学生向军车敬礼获鸣笛回礼

许家印香港豪宅6折急寻买家

无性婚姻在韩国日渐普遍

整容后照片不一致 女生遭遇毕业难

几百块的金包银走红

循环经济驶入“快车道”

男子举报“区长强占人妻” 纪委介入

微信内测查删单向好友功能？官方回应

孙悟空维基百科词条被改为印度神

三星堆又有新发现

多次打下属的“老虎”敛财20多年

女子存40多万取款时余额为零

孙子小区内坠井爷爷施救身亡

老人强行要求孕妇让座乘客合力拉开

清北毕业生入职县级中学当地回应

穿越喀山一览“金砖之城”

多地异常增水海水倒灌应急响应启动

医学博士马尔代夫溺亡是家中独子

整容后照片不一致女生遭遇毕业难