720亿参数模型开源 通义千问已实现“全尺寸、全模态”开源

2023-12-01 19:06:00 - 中国经济网

12月1日,阿里云通义千问720亿参数模型Qwen-72B宣布开源。该模型基于3Ttokens高质量数据训练,在10个权威基准测评中夺得开源模型优异成绩。基于Qwen-72B,大中型企业可开发商业应用,高校、科研院所可开展AIforScience等科研工作。

据介绍,Qwen-72B可以处理最多32k的长文本输入,研发团队优化了Qwen-72B的指令遵循、工具使用等技能,使之能更好地被下游应用集成。比如,Qwen-72B搭载了强大的系统指令(SystemPrompt)能力,用户只用一句提示词就可定制AI助手,要求大模型扮演某个角色或者执行特定的回复任务。

随着Qwen-72B的开源,通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。开源模型Qwen-1.8B,推理2K长度文本内容仅需3G显存,可在消费级终端部署。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频,要求模型给出对音频的理解,甚至基于音频进行文学创作、逻辑推理、故事续写等等。

至此,通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。阿里云人工智能平台PAI针对通义千问全系列模型进行深度适配,推出了轻量级微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。

阿里云CTO周靖人表示,开源生态对促进中国大模型的技术进步与应用落地至关重要。通义千问将持续投入开源,希望成为“AI时代最开放的大模型”,与伙伴们共同促进大模型生态建设。

据了解,阿里云是国内最早开源自研大模型的科技企业之一,8月以来开源了Qwen-7B、Qwen-14B和视觉理解模型Qwen-VL,得到中小企业和个人开发者的青睐,累计下载量超过150万,催生出150多款新模型、新应用。

今日热搜