从预训练转向推理,大模型厂商寻找新的Scaling Law

2024年11月22日 - 钛媒体

TheInformation指出,OpenAI下一代ChatGPT5的训练出现了重大瓶颈,原因之一是高质量文本数据越来越少。下一代要发布的旗舰模型Orion,在预训练阶段只用了20%的训练量,就达到了GPT4的水平,能力上升的很快,但OpenAI的研究者发现,后边增加训练量,Orion的水平提升却很慢很微小,没有实现从GPT3到GPT4的质得飞跃,这或许...

详情

NVIDIA推出全新AI PC频道,拓展消费领域市场影响力

2024年11月20日 - 太平洋电脑网

NVIDIA承诺,其RTXGPU能够将AI模型训练速度提高30倍,现代游戏的帧率(FPS)提高8倍,并将图像生成速度提高13倍。这些性能提升使得包括Meta、谷歌在内的多家巨头企业已经部署了NVIDIA的数据中心GPU。而现在,NVIDIA希望将这些高性能产品带给主流PC用户。在竞争激烈的AIPC市场中,NVIDIA的...

详情

智算中心太“多”,大模型不够用了 | 钛媒体深度

2024年11月21日 - 澎湃新闻

目前大模型所需的算力主要有三种,其一是超大规模的大模型训练,需要的算力集群越来越大,智算中心供不应求;其二是常规的大模型训练/微调,一般的裸金属或者算力集群都能满足;其三是推理需求,用云主机等都能满足,未来需求有望稳定增长。可以看出,除了第一种基础大模型的训练需求之外,其余的大模型算力需求并不十分紧缺,...

详情

港科大校董会主席沈向洋:通用大模型会越来越少,行业大模型会越来...

2024年11月18日 - 新浪

再下一层,就是个人大模型了。未来,PC、手机等都是大模型的重要载体。“从国内的整体发展来看,是到7月底,中央网信办批准的大模型大概有200个,其中只约有1/3是通用大模型,2/3是行业大模型。我预测未来通用大模型的数量会越来越少,占比越来越小,而行业大模型数量会越来越多。”沈向洋表示。他补充道,...

详情

和水滴聊聊,怎么用大模型造一个接近 99% 真人水平的「Sales Agent」

2024年11月19日 - 网易

本质上,水滴是在把这些数据去粗取精之后,相当于「用前10%经纪人的水平去训练大模型」,最终使得Agent能够达到中等经纪人的水平。「科技与保险业的结合将越来越紧密,这是行业发展的必然趋势」,沈鹏表示,保险业已经进入由科技驱动的「数智化」时代,科技驱动保险业高质量发展,助力行业降本增效,能够为用户、保险...

详情

新Scaling Law浮出水面!OpenAI员工爆料下一代模型Orion性能堪忧

2024年11月15日 - 百家号

“事实上，这种损失下降大致是预训练期间的token/参数比率的幂律，因此你可以提前预测临界数据大小，如果你正在为量化模型提供服务，则超过该临界数据大小，对更多数据进行预训练将会产生积极影响(www.e993.com)2024年11月24日。”“直觉可能是，随着你在更多数据上进行训练，越来越多的知识被压缩为权重，给定的扰动将对性能造成更大的损害。”下面...

详情

李开复:最新预训练模型Yi-Lightning超越GPT-4o,中美顶尖模型只差5...

2024年10月16日 - 网易

谈及未来行业形势,李开复强调,公司不会放弃预训练,但这是个技术活,需要懂芯片、推理、模型、算法“如果一家公司能拥有这么多优秀的人才,能够跨领域合作,相信中国可以做出世界排名前十的预训练通用模型,但由于成本比较高,未来可能会有越来越少的大模型公司做预训练。

详情

零一万物发布新的预训练模型,李开复回应AI六小虎困境传言

2024年10月16日 - 鞭牛士

在Yi-Lightning的发布会上,李开复提到:“据我了解,目前“AI六小虎”在融资方面都有足够的资金支持,可以承担起预训练模型的运行成本。因此,只要这些公司能够吸引到足够的优秀人才,并有决心进行预训练模型的开发,资金和芯片资源都不会成为障碍。尽管这样的公司可能会越来越少,但只要他们能够持续投入,中国大模型公司就有...

详情

智算中心太“多”,大模型不够用了

2024年11月21日 - 新浪

其中既有英伟达芯片更新换代的原因,基于Blackwell架构的GB200等新品单位算力成本更低;也有算力行业从过热到回归理性的必然,有了GPU并不意味能转换成大模型算力,大家对这一现实的理解,是用真金白银砸出来的。大模型之大,动辄需要64/128/256台服务器(一台服务器8张GPU卡)组成的算力集群来训练。对于志在基础大模型的...

详情

李开复:大模型性能与推理成本决定落地成败

2024年10月16日 - 百家号

此番引发行业讨论、让李开复紧急辟谣的预训练，是一种在大量数据上训练模型，以学习通用特征，便于迁移到特定任务的基础工作。这项工作需要耗费大量资源，一定程度上是厂商技术能力和资金实力的体现。“做好预训练模型是一个技术活，而且是要非常多有才华的人在一起‘慢工出细活’，需要有懂芯片的人，懂推理的人，...

详情

查看更多

模型训练越来越慢的原因分析
模型训练效果不好
模型训练什么意思
模型越训练效果越差
模型训练的过程是什么过程
模型训练很慢
模型训练过程
模型训练时间太长
模型训练越来越慢的原因是什么
模型训练越来越慢的原因有哪些