创造37项最强性能记录,港中大团队提出全模态预训练范式

2024年10月1日 - 百家号

在该研究中，全模态数据量达到3亿，模型预训练的整体规模达到10亿参数级别规模。张懿元表示，在该范式作用下，大模型会整体变得更加通用和更加类人。未来的研究中，将争取得到更高的算力和更高效的算法等资源支持，并探索多模态的尺度规律，以发现更多突破的可能性。MiCo中多模态上下文预训练算法是AI模拟人...

详情

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破...

2024年9月9日 - 网易

Karpathy:我认为,模型参数可以非常非常小。现有的模型大部分都浪费了很多容量来记住不必要的内容。如果只是需要一个认知核心模型的话,我想蒸馏出10亿的参数就够了。这个模型不需要所有的知识内容,只要在必要时调用其他模型或者工具就可以。但是这样想的话,即使是10亿的参数也有点多了。自动驾驶技术主持人:你曾...

详情

AI刘强东007带货,背后大模型也就10亿参数

2024年4月24日 - 百家号

10亿参数数字人大模型轻量上阵采销东哥身后，是京东云言犀大模型团队，及其大模型做小后打造的10亿参数数字人大模型。总的技术来看，言犀2年多前就选择了端到端的方式，即建模——驱动——渲染的一体化。以至于Sora出来后，团队惊喜发现端到端的技术方向是可取、可喜的。不过，虽然和Sora是同一条路子，但最后应用的...

详情

软银将斥资近10亿美元布局算力基建目标开发万亿参数大模型

2024年4月23日 - 百家号

去年，软银宣布投资约200亿日元开发基于日语文本的生成式人工智能，预计在2024财年内完成一个3900亿参数的大语言模型（LLM）的开发，并计划最快在明年开始开发1万亿参数的高性能模型。报道解释道，1万亿参数是“世界级”性能的基准，美国OpenAI的GPT-4就超过了这一水平。对于大模型企业而言，能否搭建起大算力的基础设施...

详情

国家数据局:中国10亿参数规模以上大模型数量已超100个

2024年3月26日 - 央广网

刘烈宏表示,我国数据生产量和存储量快速增长,为智慧城市建设运行、工业互联网利用等数智化应用提供了丰富的“原料”。以人工智能为例,中国10亿参数规模以上的大模型数量已超100个,行业大模型深度赋能电子信息、医疗、交通等领域,形成上百种应用模式,赋能千行百业。

详情

语音生成的“智能涌现”:10万小时数据训练,亚马逊祭出10亿参数...

2024年2月16日 - 澎湃新闻

1、提出了BASETTS,这是迄今为止最大的TTS模型,具有10亿参数,并在由10万小时公共领域语音数据组成的数据集上进行了训练(www.e993.com)2024年11月24日。在主观评估中,BASETTS的表现优于公开的LTTS基线模型。2、展示了如何将BASETTS扩展到更大的数据集和模型规模,以提高其为复杂文本呈现适当韵律的能力。为此,研究者开发并...

详情

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

2024年2月19日 - 澎湃新闻

基于上述考量,来自Meta的研究者专注于设计参数少于十亿的高质量LLM,这是在移动端部署LLM比较好的解决方案。与强调数据和参数数量在决定模型质量方面的关键作用的普遍观点相反,Meta强调了模型架构对少于十亿(sub-billion)规模LLM的重要性。基于深而窄的架构,加上嵌入共享和分组查询注意力机制,Meta建立了...

详情

腾讯混元大模型参数规模超万亿,副总裁蒋杰:通用大模型会成为...

2024年7月5日 - 网易

一、从单模态、多模态向全模态演进,大模型落地缺少杀手级应用腾讯集团副总裁蒋杰谈道,今年WAIC的焦点毫无疑问是大模型,截止4月底,中国推出的大模型已经超过300个,超过10亿级参数规模的大模型已经超过100个。此外,近日OpenAI还宣布停止中国大陆地区的API调用,这都展现出了实现大模型全链路自主研发的价值与必要性。

详情

Anthropic CEO:大模型训练成本暴涨,2027年将达1000亿美元

2024年7月9日 - 澎湃新闻

新智元导读Anthropic首席执行官表示,当前AI模型训练成本是10亿美元,未来三年,这个数字可能会上升到100亿美元甚至1000亿美元。要知道,GPT-4o这个曾经最大的模型也只用了1亿美元。千亿美刀,究竟花在了哪里?目前来看,能够商业化落地并实现大额盈利的「巨物」还未诞生,但是AI训练的成本却还在攀升,并且会逐年呈指数...

详情

从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近...

2024年6月10日 - 澎湃新闻

研究者还提供了一种高效的GPU模型实现方式,在训练期间相比未优化的基线模型减少了多达61%的内存使用。通过在推理时利用优化的内核,模型内存消耗可以比未优化的模型减少超过10倍。最后,研究者在FPGA上构建了一个自定义硬件解决方案,他们以13W的功耗处理了十亿参数规模的模型,超出了人类可读的吞吐量,使...

详情

查看更多

模型训练算法
模型训练完成如何使用
模型训练时间对比
模型训练原理
模型训练的一般过程
模型训练batchsize
模型训练什么意思
训练模型参数如何调整
模型训练需要多少数据
模型训练