再度跟风特斯拉,中国车企押注端到端
来源:创业邦
作者丨潘磊
编辑丨海腰
图源丨midjourney
“今天L4公司都在痛苦地犹豫是否该转入端到端,我个人的建议是别犹豫,赶紧改,后面那个才是大家伙”。
这是小鹏汽车董事长何小鹏,最近从美国考察游历一番后,对智驾进入“端到端时代”的最新判断。
在大约两周前的小鹏汽车技术发布会上,何小鹏更是兴奋地宣布,2024年就是智能驾驶的拐点。
他认为,“大模型+端到端”已经把智驾能力进展从以前的按“年”计算,提升到按天计算。
换句话说,这就是对智驾领域的一次洗牌,要么跟上,要么出局。
何小鹏从特斯拉获得启发符合逻辑——事实上正是特斯拉FSD在去年率先搞出“端到端”技术方案,并把这个看上去晦涩难懂的术语变成了智驾圈的流行语。
所谓“端到端”,就是把之前与自动驾驶有关的感知、决策和执行等相对分散的核心模块整合在一起,从传感器端输入信号开始,中间经历一个AI大模型,再到输出端发出信号控制车辆。
这就及其考验那个能够搞定“感知决策执行一体化”的AI大模型的水平。
作为一个“学习系统”,贯通感知决策执行的AI大模型,能够通过从传感器获得的原始数据中不断“学习”,并自动生成人们想要的那种结果输出。
这被认为智能驾驶“拟人化”的开始。
在特斯拉FSDV12版本之前,这种智驾系统拥有和其他同类系统差不多的通病——比如在复杂路况中,智驾系统突如其来的刹车会带来一种明显的“机械感”,从而让用户恐慌。
但是到了引入端到端的V12版本后,这套系统看上去拥有了一些“博弈”能力,比如能够更加丝滑地应对加减速和转向控制。
而在这之前,智驾系统每遇到一个场景,就需要工程师专门通过代码给出解决方案,然后才能搞定一个所谓的Cornercase。
FSDV12版本引入端到端后,相当于拥有了一定的自我学习能力,工程师无需再为无法预知、无法穷尽的Cornercase逐个编写代码了,所以代码从30多万行缩减为仅有3000多行。
何小鹏说,他相信2025年就将是完全自动驾驶的“ChatGPT时刻”。
中国车企早已开始跟风端到端
“小鹏是全球唯二实现端到端大模型量产落地的车企”。
在7月底的“小鹏汽车AI智驾技术发布会”上,何小鹏表示,“端到端大模型”让小鹏智驾技术进步实现了前所未有的加速。“每2天迭代一次版本”。
此时距离小鹏汽车官宣智驾进入端到端时代仅2个月。
但看上去,小鹏正在加速把智驾系统从“全国都能开”,进化成“全国都好用”,即不限城市、不限路线、不限路况。
这是一个惊人的跃迁。
因为在这之前,智驾系统的PK,基本都是围绕“开城”来展开。
“开城”的本质是,车企的智驾技术人员在目标城市完成场景数据收集和填充,然后“灌进”智驾系统,从而实现城市NOA(领航辅助驾驶)。
但这种高阶辅助驾驶上限很低,很难上升到L3或者更高级别。
因为存在不少需要人类接管的场景,比如小区内部、收费站等。
解决这类问题,就需要工程师根据特定场景写代码,从而解决所谓的Cornercase。
显而易见,这种场景无穷无尽。
何小鹏说,在这种规则下,智能驾驶再搞十年也看不到尽头。
但引入端到端和大模型之后,这个瓶颈迎刃而解。
小鹏为此调整了组织架构,以更加聚焦于端到端+大模型的组合。
跟何小鹏的看法类似还有理想汽车董事长兼CEO李想。
他在今年6月初的2024中国汽车重庆论坛上提出了一个问题,即人类开车为什么不涉及学习Cornercase?
在他看来,如果不解决这个问题,那么自动驾驶团队每天干的活,就是靠人工去调试各种Cornercase,而且会发现你放的人越多,Cornercase就越多,距离实现真正的自动驾驶就越远。
他给出的方案也是端到端加上VLM视觉语言模型,以及一个生成式世界模型组成的全新自动驾驶技术架构。
李想表示,这是理想在过去一段时间内,最重要的一个技术突破。
基于此,理想汽车将会在今年三季度向所有用户正式推送全国无图NOA。
他还相信,无监督的L4级自动驾驶至少3年内就能实现。
理想也成立了“端到端自动驾驶”实体组织,据称整体规模超过200人。
蔚来汽车也把感知和规控团队合并为大模型团队,探索用端到端和世界大模型实现高阶智能驾驶。
梳理来看,这些变化都发生在今年年初特斯拉发布FSDV12版本之后,也意味着特斯拉率先引入的端到端大模型技术再次引领智驾新趋势。
另外,华为在去年9月就发布了“盘古汽车大模型”,可在数字孪生空间生成复杂场景样本,让自动驾驶学习训练周期从2周以上缩短到2天内。
再次陷入Cornercase怪圈?
特斯拉FSD的最新版本为中国车企提供了有关端到端和大模型的启示,实现自动驾驶的路径近在眼前。
这让“摸着特斯拉的石头过河”,再次成为可能。
但其中的问题在于,特斯拉究竟是如何做到这一点的,却是一个不传之秘。
何小鹏坦承,大模型迭代过程中会出现“不稳定”现象。
在5月份,他也提到了有关“端到端”的不确定性。
他认为所有大模型上都有不确定因素,重要的是如何去构建你的控制器,就像控制刹车一样,构建针对黑盒的安全系统。
看上去即便是端到端,也在进入一个更加复杂化,甚至是自我束缚的囚徒困境。
这甚至已经从特斯拉CEO埃隆·马斯克处获得了证实。
6月中旬的特斯拉2024年年度股东大会上,马斯克承认FSD面临新的挑战。
他称,改进一个模型可能解决一个问题,但同时可能引入一个新问题。
看上去,这跟引入端到端之前的那种Cornercase无法完全解决的情况很接近。
而且随着人类接管的减少,评估模型性能的难度在增加。
这是另一个悖论——接管减少表明性能优秀,但另一方面也表明随着模型变“大”,其更新也将会变慢,表现得不像一个能给自动驾驶带来颠覆性变革的路径。
而最近公布的一个交通事故表明,特斯拉的一台车在开启FSD模式下撞死了一个摩托车手。
就在7月底,TruistSecurities分析师威廉·斯坦因在体验特斯拉FSD时险些撞车。
巧合的是,华为终端董事长、智能汽车解决方案BU董事长余承东近日也表示,FSD上限挺高,但下限也很低。
“华为工程师去测试(FSD),路上停着静止不动的白色货车或者绿色货车,都不减速直接撞过去了,可能识别成白云或者树木了”。
这种情况被称为“AI幻觉”,据称有30%的错误率。
另外,前图森未来创始人,现Bot.Auto创始人侯晓迪近期也针对端到端,发表了一些不一样的观点。
侯晓迪认为,端到端是一种新思路,但是否为最先进,目前尚无定论。
同时,端到端的“技术黑盒”具有不可解释性,无法带来确定的安全感。
基于此,端到端并非一个一头输入信息,另一头就能输出结果的“自动工厂”,还具有不确定性,不要过度神话。
极越CEO夏一平则认为,现在还没有100%的端到端,都是营销噱头。
端到端背后
是包括算力在内的体系PK
根据马斯克的说法,预计今年年底将会在中国和欧洲落地FSD。
其实在这之前,有关FSD将会成为智驾领域“鲶鱼”的说法就已经层出不穷。
但从中国主流车企对“端到端”的追随来看,FSD已经开始对中国智驾的技术路线产生深远影响。
这也再次验证了特斯拉的视觉方案更加接近“第一性原理”——正如李想所说,人类驾车就不涉及学习Cornercase的问题。
因为人眼就类似于传感器,大脑作为神经网络对接收到的信号进行推理判断后,做出反应并执行。
车路云一体化,以及高精地图方案,也因此都有各自的短板。
到目前为止,特斯拉还未使用激光雷达。
对此余承东表示,特斯拉的优点在于车辆多、数据多,FSD做的不错。
但经过在美国和加拿大的测试对比后,他认为华为的体验略优一些。
“特斯拉没用激光雷达,我们用了,弥补了感知能力”。
目前华为备受关注的ADS3.0也是端到端“类人”智驾,采用的是GOD感知神经网络,以及PDP(Prediction-Decision-Planning,预测决策规控)决策规划网络,这被称为两段式端到端。
跟特斯拉FSD输入传感器数据,直接输出路径规划的一个模型相比,华为的“两段式”端到端区分了感知和规控,更容易定位,从而增加了可解释性。
但真正具有颠覆性的自动驾驶技术架构终局,就是生成式端到端大模型。
这对于包括算力在内的基础设施来说,是一个极大的考验。
对于特斯拉来说,逡巡多年才实现端到端多模块融合的背后,是其DOJO超算中心高达35000块英伟达H100GPU的算力资源。
根据马斯克的说法,到今年年底特斯拉将拥有8.5万块英伟达H100GPU用于训练人工智能。
换句话说,特斯拉FSD端到端的背后,是一个巨型体系在支撑。
何小鹏表示,他已经在AI训练上投入了35亿费用。
但作为对比,马斯克声称今年将花费100亿美元用于AI的训练和推理,光是向英伟达购买AI芯片就要花费30--40亿美元。
他甚至表示,任何支出达不到每年100亿美元水平或者无法高效部署的公司,都无法在市场上竞争。
按他的标准,没有任何一家中国车企能够跟特斯拉竞争。
这很大程度上属于事实——中国车企甚至连H100GPU都无法买到。
华为显然能够提供一些替代品,这也为未来的自动驾驶时代竞争提供了足够的悬念。