港中文提出CLongEval中文基准测试集,准确评估大模型长上下文能力
港中文提出CLongEval中文基准测试集,准确评估大模型长上下文能力在中文领域,对于longcontextLLM目前只有一个双语基准LongBench可用。基于中文领域缺乏高质量评估数据集的现状,这篇论文提出了一个基准测试集,以准确评估LLM在中文领域的长文本上下文处理能力。作者将LLM在解决长上下文任务时所用的基础能力分...
CodeFuse发布面向ToolLearning领域中文评测基准ToolLearning-Eval
站长之家(ChinaZ)1月10日消息:蚂蚁集团旗下CodeFuse发布了首个面向ToolLearning领域的中文评测基准ToolLearning-Eval,旨在帮助开发者跟踪和了解各个ToolLearning领域大模型的优势与不足。该评测基准按照FunctionCall流程划分为工具选择、工具调用和工具执行结果总结三个过程,并提供了相应的数据集供通用...
FlagEval 11月榜 | 开源中文语义理解评测集C-SEM,新增ChatGLM3...
同时,FlagEval大模型评测平台将在第一时间集成最新版本,加强对大语言模型的中文能力评测的全面性。为了确保评测结果公平公正、防范评测集泄露的风险,FlagEval官网采用的C-SEM评测集将保持与开源版本的异步更新。当前FlagEval采用最新版本相较于开源版本而言,题目数量更多,题目形式更为丰富。C-SEM开源仓库地址:...
C-Eval大模型评测榜单更新,vivo自研大模型中文榜单夺魁
C-Eval榜单是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,涵盖52个不同学科,共有13948道多项选择题,是目前较为权威的中文AI大模型评测榜单。CMMLU数据集则是一个综合性的中文评估基准,由MBZUAI、上海交通大学、微软亚洲研究院共同推出,在评估语言模型在中文语境下的知识和推理...
C-Eval评估中文基础模型高级知识和推理能力
C-Eval是一项评估中文基础模型高级知识和推理能力的广泛基准。它包括四个难度级别的多项选择题,涵盖52个不同的学科领域。测例库来源于互联网上的模拟考试。C-Eval榜单展示了开源模型在这一评测中的表现。该基准有助于挑选适合自然语言处理领域的大模型,促进AI应用的发展。备注:资讯来源机器之心...
与李白赏图赋诗,同猴哥直面天命,人大高瓴MMRole多模态角色扮演
表1:MMRole-Eval评测结果(www.e993.com)2024年9月22日。In-Test表示在训练集中出现过的角色上的测试,而Out-Test表示在训练集中未见过的角色上的测试。如表1所示,团队开发的首个专门的多模态角色扮演智能体MMRole-Agent(9B)在各项指标上表现出了卓越的性能,整体性能远超同等参数规模(<10B)的通用对话模型,甚至优于部分参数量更大(...
“巢燧”大模型基准综合评测:多个大模型中文能力超过GPT-3.5
基于巢燧基准评测综合测试结果,国内大模型文心一言超过GPT-4-0125-preview,多个大模型,如通义千问、百川、星火、混元等,中文能力超过GPT-3.5-Turbo-0125。以上评测结果表明,国内大模型在过去一年中取得了关键进展。开源模型评测各维度对比:闭源模型评测各维度对比:200+页详细评测报告可发邮件咨询:llmeval@ali...
C-Eval榜单更新 vivo自研AI大模型全球中文榜单第一
由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集——C-Eval大模型评测榜单更新了,vivo自研大模型在C-Eval全球中文榜单中排名第一。10月16日消息,由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集——C-Eval大模型评测榜单更新了,vivo自研大模型在...
斗智斗力——中文AI大模型手机应用横向对比评测(上)
尤其是手机端,除了各手机品牌的自研大模型,还存在着不少第三方AI应用,我们又应该如何选择适合的呢?因此,继上期手机AI大模型的详细体验之后,本期我们将带来智能手机第三方中文AI大模型App的横向对比评测。事先声明,我们此次评测项目的设定主要参考C-Eval和SuperCLUE综合性测评基准。每个大模型均下载端侧App,在同一部...
弱智吧竟成最佳中文 AI 训练数据?中科院等:8 项测试第一,远超知乎...
没错,论文中的Ruozhiba就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:最离谱的是,弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。