预训练将结束?AI的下一步发展有何论调?Scaling Law 撞墙与否还重要吗?
机器之心PRO·会员通讯Week50
----本周为您解读③个值得细品的 AI&Robotics 业内要事----
1.预训练将结束?AI的下一步发展有何论调?ScalingLaw撞墙与否还重要吗?
预训练数据还能继续Scale多少?AI的下一步发展有哪些论调?哪些工作在推理阶段给LLM打补丁?哪些工作在用更高维度的数据做WM?哪些探索方向不受「撞墙争议」的影响?能力密度又带来了什么新视角?...
2.世界模型才是智驾唯一解?造车新势力们对于自动驾驶世界模型的探索路线有何异同?
为什么说世界模型是通往L4级别的关键?与端到端大模型相比,区别是什么?解决什么难题?在实际落地应用中,世界模型在智驾系统中的哪些部分起具体作用?有哪些车企在方案中引入了世界模型?思路有何异同?...
3.麦肯锡报告预测未来可能重塑全球经济的18个领域
麦肯锡的最新报告传递了哪些重要信息?重塑全球经济的18个领域有哪些?人工智能技术的飞速发展对于哪些行业的发展起到了关键作用?...
...本期完整版通讯含3项专题解读+27项本周AI&Robotics赛道要事速递,其中技术方面8 项,国内方面5项,国外方面14项。
本期通讯总计25018字,可免费试读至9%
消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读① 预训练将结束?AI的下一步发展有哪些论调?ScalingLaw撞墙与否还重要吗?
引言:本周五,IlyaSutskever在NeurIPS炸裂宣判:「预训练将结束,数据压榨到头了」。关于ScalingLaw是否撞墙的争议在近期持续发生,不时有人给出ScalingLaw将会撞墙的佐证,也有许多工作证明了ScalingLaw的潜力尚未被充分挖掘,这一争议带来的是业界对AI下一步发展路线的众说纷纭。
「撞墙」争议下,AI的下一步发展有哪些论调?
ScalingLaw在2024年里又一次性感,一度被视为实现AGI的「圣经」。也是因此,当有关ScalingLaw撞墙的消息传出后引发了大量消极的论调。回顾2022年,深度学习领域也曾面临类似的“撞墙”质疑,但事实证明,这些担忧并未成为现实。语言模型的ScalingLaw允许研究者预测模型性能随参数、数据和计算资源变化的趋势。尽管其在推动AI发展中扮演了重要角色,但构建更强大的AI系统并非只有一条路径。
1、2024年里,AI领域中有关ScalingLaw是否到头的争议反复引起讨论。其话题冲突的核心在于,大模型的性能提升是否还能继续靠无限堆叠数据和参数规模从而大力出奇迹。
①6月,GaryMarcus的「Isscalingallyouneed?」就ScalingLaw收益递减的话题引发了大量讨论。Marcus认为仅靠Scaling已经无法带来显著的性能提升,同期有声音认为LLM领域已经进入回报递减的时期,未来的发展需要新的方法和思路。(详见Pro会员通讯2024年Week36期)
②11月,TheInformation的报道《随着GPT提升减速,OpenAI改变策略》,以及许多大型基础实验室声称均遇到预训练的瓶颈的声音又一次将ScalingLaw撞墙的争议变成热议话题。
2、认为ScalingLaw撞墙的佐证不断翻新,而反驳的观点也随着话题的热度不断涌现。以OpenAICEOSamAltman为代表的反驳观点认为,ScalingLaw的潜力尚未穷尽,而OpenAI的o系列和GPT系列均是Scaling仍然有效的范例。[10]
3、SSI创始人、前OpenAI首席科学家IlyaSutskever曾在访谈中表达「Scalingtherightthingmattersmorenowthanever。」近期在NeurIPS2024的演讲中,他进一步补充了「现有的预训练方法将会结束」的观点。[18]
①Sutskever在演讲强调了数据枯竭的担忧,我们只有一个互联网,尽管现有数据仍能推动人工智能的发展,但可用的新数据已经耗尽,需要寻找新的方法来进一步提升AI的能力。
②由于数据资源的有限性,Sutskever认为这一趋势最终将迫使行业改变当前的模型训练方式。他预测下一代模型将会“以真正的方式表现出自主性”,并且具备推理能力。
③Sutskever提出,AI可能会超越现有的预训练方法,发现全新的扩展路径。这可能涉及到新的学习算法、更高效的数据处理技术,或者是能够从更少的数据中提取更多信息的方法。
4、LLM的ScalingLaw揭示了性能与其参数和数据规模之间的关系,但并非唯一视角。在ScalingLaw撞墙与否的争议之外,仍有许多工作从不同的方向探求解锁下一代AI的路径。
5、对于评估不同规模LLM训练质量的方法上,清华大学刘知远教授团队近期提出了DensingLaw(密度定律),从ScalingLaw之外的维度对LLM能力进行推演,提供指导性的规律发现。[11]
①该工作针对近几年LLM工作中看似矛盾的「为了有效性而扩展LLMs的规模,为了效率而缩小LLMs的规模」路径,提出了CapabilityDensity(能力密度)度量指标,用于量化评估不同规模LLMs的质量。
②CapabilityDensity被定义为LLM「有效参数量」于实际参数量的比值。「有效参数量」指参考模型达到与目标模型相当性能所需的最小参数数量。
③该工作用CapabilityDensity评估了29个头部开源LLM,并基于分析结果提出了DensityLaw,即,LLM的最大密度随时间呈指数增长,大约每3.3个月(约100天)翻一倍。
④结合DensingLaw与摩尔定律,研究者指出,伴随LLMs密度+芯片计算能力各自随时间的增长,两者的交汇意味着主流终端如PC、手机将能运行更高能力密度的模型,推动端侧智能在消费市场普及。
⑤结合DensingLaw与ScalingLaw,研究者指出每个新模型的高性价比「有效期」不断缩短。开发者必须考虑模型密度的增长趋势,并采用更有效和通用的训练技术来提高模型密度。
6、从「ScalingWhat」更重要的视角出发,近期的许多工作探索新的Scaling目标。
①以OpenAIo1模型的发布为契机,有一种说法认为Scaling的范式正在从预训练转移到推理阶段,其相关工作涉及「测试时计算(Test-TimeCompute)」和「测试时训练(Test-TimeTraining)」等。
②也有工作尝试从预训练数据入手,如哈佛等高校研究者尝试设计的「精度感知」的ScalingLaw,以及UCL和Cohere对预训练数据中「程序性知识」的研究。
③还有一类工作尝试用更高维度的数据和知识入手,如空间智能、世界模型和具身智能领域的相关工作。
预训练数据仍会是「TheRightThingtoScale」吗?