国产AI模型登顶全球TOP 1!智源BGE下载破亿成Hugging Face月榜冠军...
近日,HuggingFace更新了月度榜单,智源研究院的BGE模型登顶榜首,这是中国国产AI模型首次成为HuggingFace月榜冠军。BGE在短短一年时间内,总下载量已达数亿次,是目前下载量最多的国产AI系列模型。BGE,全称BAAIGeneralEmbedding,是北京智源人工智能研究院研发的开源通用向量模型,该系列模型专为各类信息检索及大语言...
每日经济新闻大模型评测报告(第2期):国产“黑马”逆袭,计算能力差...
随着大模型的迭代更新和大模型新秀的涌现,《每日经济新闻大模型评测报告》第2期如期而至。第2期评测延续首期评测的宗旨,立足实战,力求为用户展现大模型在具体工作场景中的真实表现,为用户在工作、学习和生活中选择最佳大模型助手提供可靠参考。本期评测设置了三个应用场景:(1)金融数学计算;(2)商务文本翻译;...
谁是最强“AI记者”?每日经济新闻大模型评测报告(第1期)发布
《每日经济新闻大模型评测报告》(第一期)显示,国产大模型正在全面赶超海外大模型,零一万物Yi-Large成为最大“黑马”,在“财经新闻标题创作”“微博新闻写作”“文章差错校对”“财务数据计算与分析”四大应用场景的总分排名第一。幻方求索DeepSeek-V2、百川智能Baichuan4则在“财务数据计算与分析”场景显示出强大的数据...
“京医千询”大模型斩获MedBench评测榜首 京东健康领跑医疗健康...
7月15日,面向中文医疗大语言模型的开放评测平台MedBench更新评测榜单,京东健康旗下“京医千询”大模型以综合得分92.4分的优异成绩位居榜单第一,彰显出该大模型在医疗智能化领域的实力。测评图作为上海AI实验室和上海市数字医学创新中心推出的权威评测平台,MedBench依托顶级医疗机构的专家经验和知识储备,致力于打造公...
智源更新大模型排行榜:豆包大模型“客观评测”排名国产第一
6月中旬,智源研究院旗下的FlagEval大模型评测平台发布最新榜单:在有标准答案的"客观评测"中,GPT-4以76.11分在闭源大模型中排名第一;Doubao-Pro(豆包大模型)以75.96分排名第二,同时也是得分最高的国产大模型;其后依次是ERNIE4.0、Baichuan3、Moonshot-v1。在开放问答等"主观评测"中,Dou...
豆包大模型披露评测成绩,较上一代“云雀”提升19%
评测结果显示,在评估代码能力的两个评测集HumanEval和MBPP上,豆包相比上一代模型提升了50%左右;在专业知识和指令遵循的评测集上,豆包分别获得33%和24%的性能提升,同时也是得分最高的国产模型(www.e993.com)2024年11月22日。此外,豆包模型在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上也有不错的表现,得分排在前三...
浙大、腾讯团队发布科学LLM大规模评测基准,国产大模型表现亮眼
随着大型语言模型(LLMs)在科学研究领域的广泛应用,评估这些模型在理解和应用科学知识方面的能力变得尤为重要,但是科学领域全面评估LLMs科学知识的高级基准非常缺乏。近日,来自浙江大学NLP实验室与腾讯AILab的研究者构建了SciKnowEval评测基准,定义了L1到L5不同层级的科学智能,共包含化学和生物领域50...
国产大模型评测超GPT-4,李开复:十年内不会套现
李开复透露,经测试,Yi-Large评测结果已经至少达到对齐GPT-4,部分指标超越GPT-4。在第三方测评结果中,Yi-Large在斯坦福英语测评中位居第二,仅次于GPT-4-Turbo,中文SuperCLUE结果中,位于国产大模型榜首。此外,零一万物正在训练的基于MoE架构的更大模型Yi-XLargeMoE,目前初步训练结果显示,Yi-XLargeMoE的各个指标...
国产低价显卡坞评测:能让轻薄本用上本地大模型
我买了张显卡坞。具体的情况是这样的,去年好几家国产掌机厂商不都出了用AMD移动端显卡做核心的显卡坞嘛,当时这类产品的定价普遍都要5000元上下,虽然比ROG的显卡坞是便宜了不少,但是依然卖到了一台完整笔记本/Windows掌机的价钱,有多少人愿意支持也就可想而知了。
国产大模型:今天起,我们100万tokens只需1元_澎湃号·湃客_澎湃...
在上海人工智能实验室发布的大模型开源开放评测体系司南(OpenCompass2.0)中,GLM-4综合排名第二,仅次于GPT-4Turbo。在清华SuperBench大模型综合能力评测框架中,GLM-4与国际一流模型水平接近。除了通用大模型之外,智谱AI的开放平台还提供术业有专攻的大模型的能力。