从预训练转向推理,大模型厂商寻找新的Scaling Law
下一代要发布的旗舰模型Orion,在预训练阶段只用了20%的训练量,就达到了GPT4的水平,能力上升的很快,但OpenAI的研究者发现,后边增加训练量,Orion的水平提升却很慢很微小,没有实现从GPT3到GPT4的质得飞跃,这或许也是OpenAI并没有将Orion命名为GPT5的原因。谷歌和Anthropic也面临着相同的问题,谷歌的下一代Gemini...
英伟达秀 Blackwell GPU 肌肉:训练 AI 模型速度比Hopper快2.2倍
IT之家11月14日消息,科技媒体WccfTech昨日(11月13日)发布博文,报道称英伟达首次公布了BlackwellGPU在MLPerfv4.1AI训练工作负载中的成绩,在训练Llama270B(Fine-Tuning)模型时比Hopper快2.2倍。测试简介英伟达于今年8月,首次公布了BlackwellGPU在MLPerfv4.1AI推理方面的基...
算力租赁骤然降温退潮,宁畅想做大模型“精装算力”|To B 产业观察
IDC此前表示,人工智能的计算力分布将呈现“二八法则”,在早期阶段80%的算力集中在训练场景,在未来的大规模应用阶段80%的算力将集中在推理场景,未来对推理的需求将远远超过对训练的需求。换言之,多种应用场景对大模型的精细化需求,加剧了用户对算力的精度要求。在这一客观情况下,头部大模型公司选聚焦模型训练上。...
智算中心太“多”,大模型不够用了|钛媒体深度
以OpenAI为代表,ChatGPT发布两年来,大模型产业发展的脚步似乎变慢了,不排除这是大模型新一轮爆发前的蛰伏,在“ScalingLaw”(规模法则)信仰之下,xAI、Meta、OpenAI等巨头都在积极布局十万卡乃至更大规模的智算集群。例如7月份,马斯克宣布位于美国田纳西州孟菲斯市的超级集群开始投入训练,该集群配备了10万个...
有望改写AI未来!英伟达全新nGPT使训练速度暴增20倍
快科技10月20日消息,据媒体报道,NVIDIA的最新研究可能彻底改变AI的未来,其研究团队提出了一种名为归一化Transformer(nGPT)的新型神经网络架构。这一架构在超球面(hypersphere)上进行表示学习,能够显著提升大型语言模型(LLM)的训练速度,最高可达20倍,同时保持了模型的精度。nGPT架构的核心在于将所有向量,包括嵌入、...
免训练加速DiT!Meta提出自适应缓存新方法,视频生成快2.6倍“并非...
现在,视频生成模型无需训练即可加速了?!Meta提出了一种新方法AdaCache,能够加速DiT模型,而且是无需额外训练的那种(即插即用)(www.e993.com)2024年11月24日。话不多说,先来感受一波加速feel(最右):可以看到,与其他方法相比,AdaCache生成的视频质量几乎无异,而生成速度却提升了2.61倍。据了解,AdaCache灵感源于“并非所有视频都同等重要”。
智算中心太“多”,大模型不够用了
以OpenAI为代表,ChatGPT发布两年来,大模型产业发展的脚步似乎变慢了,不排除这是大模型新一轮爆发前的蛰伏,在“ScalingLaw”(规模法则)信仰之下,xAI、Meta、OpenAI等巨头都在积极布局十万卡乃至更大规模的智算集群。例如7月份,马斯克宣布位于美国田纳西州孟菲斯市的超级集群开始投入训练,该集群配备了10万个英伟达H100...
FP8 训练的挑战及最佳实践
这种增长速度的背后是硬件算力的提升。训练过程中的一个重要指标是训练时间。如果训练一个模型需要半年甚至一年,这在实际操作中是不可行的,因为实际训练时间可能是理论值的两到三倍。因此,算力基础设施的提升是大模型迅速发展的基础。从算力角度来看,近年来GPU的单卡算力提升了大约一千倍,这包括工艺制程的改进、...
像人脑一样思考!Meta 新模型Dualformer融合快慢思维,推理能力大幅...
人类的思维过程通常被认为是由两种系统控制的:系统1快速直观,系统2则更慢但更具逻辑性。传统的Transformer模型通常只模拟了系统1或系统2中的一种,导致模型要么速度快但推理能力差,要么推理能力强但速度慢且计算成本高。Dualformer的创新之处在于其训练方式。研究人员利用随机推理轨迹对模型进行训练,在训练过程中...
...15 Pro和Pro Max支持“苹果AI”?官方:老款运行大模型速度过慢
官方:老款运行大模型速度过慢三言科技6月20日消息,据报道,苹果的全新AI系统“AppleIntelligence”将于今年秋季登陆iPad、iPhone以及Mac平台。但是该系统除了即将上市的iPhone16系列外,仅iPhone15Pro和iPhone15ProMax支持。对此,苹果方面回应称,大语言模型的推理计算量大,非常依赖设备的带宽、NPU规模以及本身...