大模型上新,阿里云的诚意与瓶颈
通义千问App升级、通义灵码企业版......5月9日,阿里云CTO周靖人揭开最新版大模型通义千问2.5的面纱,同时系统性披露了阿里云AI应用的一系列新进展。
2023年密集升级后,国内大厂大模型的迭代节奏转为小步快跑,2024年Sora“来袭”,国内从业者的共识是比拼AI应用。站在C(用户)端角度,AIGC(人工智能生成内容)App可在一定程度上反映大模型toC的知名度,抖音旗下AIGC应用豆包的月活用户排名第一,且数据已拉开差距。B端竞争更加剑拔弩张,闭源开源孰优孰劣的背后是大模型技术、成本、商业化、生态的比拼,阿里云用1100参数的开源大模型证明自己的诚意,3%的营收同比增幅也实实在在地反映了阿里云的瓶颈。
新版本
和上线通义千问2.1版本相比,阿里云这次公布2.5版本要高调的多。“这个版本代表了全方位的能力提升”,周靖人用理解能力、逻辑推理、指令遵循、代码能力举例,2.5版本较2.1版本分别提升9%、16%、19%、10%。
将时间拉长,2023年4月通义大模型启动邀请测试,一年间行业发生的变化让从业者倍感惊讶。
在周靖人看来,目前整个技术体系的发展在一个快速上升的渠道,不过目前市面上的大模型工具都还有提升空间。
为了证明自己的大模型能力,阿里云和同行的操作一致——援引评测结果:在权威基准OpenCompass上,通义千问2.5得分追平GPT-4Turbo;通义千问视觉理解模型Qwen-VL-Max在多个多模态标准测试中超越GeminiUltra和GPT-4V,目前已在多家企业落地应用;通义千问代码大模型CodeQwen1.5-7B则是HuggingFace代码模型榜单BigCode的头名选手,是智能编码助手通义灵码的底座。
按照通义千问官网的归纳,其基于大模型的服务共有10项,包括大模型服务平台阿里云百炼、AI阅读助手通义智文、刚发布企业版的通义灵码等。企业客户和开发者可以通过API(应用程序编程接口)调用、模型下载等方式接入通义,个人用户可从通义App、官网和小程序免费使用通义家族全栈服务。
N合一
这些垂直领域的产品也在不断调整。5月9日,“通义千问App”更名为“通义App”。升级前,页面被划为对话、智能体、频道,升级后变为变成助手、工具、角色、频道。2024年通义推出的“全民舞王”“全民唱演”“通义照相馆”等应用在频道一栏。
两个月前,通义听悟工程研发负责人邢君就向北京商报记者透露了通义听悟集成进通义App的计划。5月9日,阿里云相关人告诉北京商报记者,“目前,包括通义听悟、智文等通义家族产品能力已集成到通义App中”。
根据苹果应用商店数据,通义在免费效率榜单排在第13位,同类的大模型产品还包括豆包、文心一言、讯飞星火、智谱清言、天工、kimi等。
第三方商业智能数据服务商QuestMobile发布的最新数据显示,AIGC独立App用户量超7380万,同比增长8倍。2024年3月,豆包、文心一言、天工、讯飞星火、Kimi的月活用户分别是2328.2万、1466.1万、966.1万、620.4万、589.7万。
这一排名等同于国内大模型的能力吗?文渊智库创始人王超的答案是否定的,他告诉北京商报记者,“还是要以用户的使用感受为第一,而不是月活规模。我个人的排名是Gemini免费版、GPT3.5和Kimi名次差不多,下来是通义千问、文心一言”。
除独立App外,小程序也是大模型接触用户的主要渠道。根据QuestMobile提供的Kimi和讯飞星火的数据,2024年3月Kimi微信小程序月活用户91.1万,讯飞星火去重总用户规模635.6万。
继续开源
“用户活跃度能一定程度上反映大模型产品的市场格局。受到用户属性、产品体量和活跃度影响,目前豆包和文心一言的用户量级明显较高,但从产品功能来看,kimi的使用场景更为垂直,这意味着kimi近600万的活跃用户黏性更高,用户的忠诚度和未来的运营空间也会更大。”瑞达恒研究院经理王清霖告诉北京商报记者,“通义这类大模型产品也可以结合阿里自身的产品属性优势,找到自己的发展方向和黏性用户”。
开源闭源的优劣则是行业观察者聚焦的重点。4月,百度CEO李彦宏公开表示,“大家以前用开源觉得便宜,其实在大模型场景下,开源是最贵的。所以开源模型会越来越落后”。5月9日,周靖人接受媒体采访时回答的第一个问题也与此有关。“开源对整个技术发展的意义大家都可以看到。阿里云自己做最先进的AI模型,也敢于开源,这对企业真正做创新性开发将起到至关重要的作用,这一点在全球范围已经被多次证明,没有再讨论的必要。”
“坦率地说,不是所有的闭源公司的模型都能做得过开源模型,首先闭源公司的模型水平要超过开源模型的水准。”周靖人补充。
当天,阿里云发布了最新款开源模型1100亿参数的Qwen1.5-110B,此前5亿、18亿、40亿、70亿、140亿、320亿和720亿参数的大模型已经开源。
谈到最近大火的长文本处理能力,周靖人强调了两点,支持、先发,“我们的长文本处理功能其实是先于行业所有公司的,通义App单次可处理多达1000万字的长文档,还能同时解析100份不同格式的文档。长文本处理能力不光要看文本的长度,还要基于场景做总结、归纳等,谁的技术更强这种讨论没必要”。
北京商报记者魏蔚