Meta、微软、Mistral AI、Hugging Face、通义、港中文六路进发...
本周,开源领域迎来多项技术成果更新:开源大语言模型迎来MetaLlama3和微软的WizardLM2,CodeQwen1.5-7B加入开源代码领域,Mistral-22b-v0.2在开源中探索MOE与稠密模型的转换,Mini-Gemini和HuggingFace开源的视觉语言模型Idefics2则是在开源多模态模型中不断演进。除了技术演进外,商业领域裁员与融资...
AI深度观察|大模型变身“照妖镜”,中文数据现出“散少难”原形
《大模型训练数据白皮书》显示,阿里巴巴的“通义千问”AI大模型,训练数据来自公共开源的混合数据,以中文和英文为主。报告没有透露“通义千问”中英文训练语料的比例,但指出“从总体看,中文语料库的开源情况不如英文普遍,据AI应用开放社区HuggingFace数据统计,中文开源数据集数量仅占英文开源的11%。”通义千...
中文数据为什么成了“互联网孤岛”?
一是英文作为全球“普通话”的天然优势,二是英文网站网页在存量保护方面好于中文。林咏华通过英文CommonCrawl(又称Pile-CC)数据集的故事详解中英文网页语料的区别。CommonCrawl是一个海量的、非结构化的、多语言的网页数据集。约17年前,美国一家致力于让普通人和小公司一样可以使用大型数据集的第三方组织,以公益...
腾讯混元文生图大模型开源:Sora 同架构,更懂中文
首个中文原生DiT架构,可免费商用。又一家大模型开源了,这次是腾讯。5月14日,腾讯旗下的混元文生图大模型宣布对外开源,目前已在HuggingFace平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。随后在5月17日,腾讯集团副总裁蒋杰在在腾讯云生成式AI产业应用峰会...
中文原生文生图大模型来了!腾讯混元推出,Sora 同架构
中文原生文生图大模型来了!腾讯混元推出,Sora同架构5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在HuggingFace平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解...
拿下SOTA!最强中文Embedding模型对标OpenAI,技术路线公开
Piccolo2目前支持512/2K/8K三种向量长度,其中8K模型是目前中文Embedding中能够实现对标OpenAI向量长度的模型(www.e993.com)2024年11月5日。论文地址:httpsarxiv/abs/2405.06932HuggingFace地址:httpshuggingface.co/sensenova/piccolo-large-zh-v2要读的论文又增加了!
通义千问开源王炸,1100亿参数称霸开源榜单,中文能力全球第一
这几道测试题Qwen1.5-110B完胜Llama370B。不是说Llama3不行,只是在中文这块,Qwen1.5-110B说一句最强开源模型应该没什么争议了。1把开源进行到底在HuggingFace上,Qwen系列模型几乎自开源以来就一直处于热度榜前列的位置,随着1.5版本的到来,以及72B和110B大参数量模型的推出,更是一度成为了...
混元DiT 推出小显存版本,6G 显存即可运行,并开源 caption 模型
作为首个中文原生DiT开源模型,混元DiT自全面开源以来,一直持续建设生态。6月,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%;并进一步开源了推理代码;发布LoRA和ControlNet等插件。于此同时,模型易用性大幅提升,用户可以通过HuggingFaceDiffusers快讯调用混元DiT模型及其插件,...
我们跟一线 AI 开发者聊了聊,发现中国开源生态已经在全球找到了...
但后来我们发现,Lama在中文能力方面相对于Qwen模型来说较弱。因此,当我们开始使用13B模型时,我们是基于Qwen的技术框架进行训练的。到了今年4月份,我们正在开发的70B模型是基于deepseek和Qwen模型进行选型和训练的。这就是我们模型开发和选型的一个过程。中国的这些模型在全球市场上与开发者互动的能力是什么?它们真正...
直追GPT-4 零一万物Yi-34B-Chat跻身全球权威大模型榜单前列
Yi-34B-Chat中文理解能力演示最后,看看Yi-34B-Chat模型实力在不同的对话场景中实力如何,直接上几个直观的问题演示。首先,来一段绕口令式的中文理解:小王给领导送了一份礼物后。领导说:“小王,你这是什么意思?”小王:“一点心意,意思意思。”领导:“你这就不够意思了。”小王:“小意思,小意思。”领导...