AI与自动驾驶会产生什么化学反应?
国泰君安研报指出,大模型可以大幅提升场景生成、标注的效大模型。利用AI大模型进行场景生成是覆盖小概率路况的新思路,除场景生成外,AI大模型在自动标注方面同样能够发挥重要作用。国泰君安认为,大模型虽难以完全解决小概率路况的问题,但依然对自动驾驶行业意义重大。
在座舱内,驾驶员会与汽车通过语音、视觉等多种方式产生交互,毫无疑问,AI大模型有助于交互体验的提升。国泰君安认为,AI大模型可以丰富和革新人与车辆的交互方式。
随着自动驾驶功能模块逐渐增加,需要测试的里程数快速增加,并没有完全足够的时间进行路测,同时由于涉及到安全,测试环节本身不能简化,所以设计、测试的效率在一定程度上正逐渐成为制约项目能否快速及时交付的重要因素。国泰君安认为,AI大模型对于汽车设计师效率的提升意义重大。
以下为其最新观点:
1.自动驾驶:AI大模型有助于我们提升覆盖小概率路况的效率
小概率路况的覆盖是自动驾驶落地的核心问题。由于一旦发生事故造成的后果极为严重,自动驾驶是一个对小概率情况非常敏感的场景。由于交通事故将会产生非常严重的后果,对于主机厂而言,在责任明晰之前,即使是99.99%的可靠性也是不能接受的,因为这可能意味着每卖出10000台车可能就会产生一起事故。行业特点决定了要实现自动驾驶就必须先对长尾场景进行有效覆盖。
测试里程的积累是有效覆盖小概率路况的前提。根据广汽的预测,要实现L4级自动驾驶所需要的长尾场景覆盖程度,至少需要完成10亿个测试场景,最小测试里程也需要10亿公里,这两个数据分别是实现L2级自动驾驶的10万倍、1万倍。
此前,测试里程的积累主要有两种方式。一种是通过自动驾驶车队来进行数据采集,以Waymo为代表;一种是通过私家车进行数据采集,以特斯拉为代表。
通过自动驾驶车队进行路测来覆盖小概率路况的方法效率比较低。Waymo是自动驾驶领域的霸主,但是在过去很多年里,感知问题、行人问题、软件问题等方面,Waymo的接管频率并没有收敛(基于加州路测报告)。毫无疑问,Waymo的自动驾驶能力是逐年增强的。那么,Waymo在软件问题、行人问题等方面的表观“退步”就只能用它在覆盖更多的小概率路况来解释。比如,在高速公路等路况相对简单的场景下测试获得好的结果之后,Waymo会把路测地点逐渐向难度更高的城区街道进行拓展。
众包方式能在一定程度上提升对小概率路况的覆盖效率。特斯拉采用影子模式取代测试车队。影子模式本质上是通过众包的方式来解决场景的快速积累问题。在这一模式下,即使在人进行驾驶的时候特斯拉自动驾驶系统同样也在进行计算自己会怎么做,然后和人的选择进行对比。如果自动驾驶系统和人的选择不一致,就对这类数据进行汇集,然后交由工程师判断自动驾驶系统的选择是否合理。2020年3月,特斯拉就申请了从车队中获取自动驾驶训练数据的专利。由于特斯拉的汽车数量远远多于自动驾驶测试车队,影子模式可以更快地实现对驾驶长尾场景的积累,同时得到的结果也有更强的统计学意义。截至2019年末,特斯拉累计交付搭载自动辅助驾驶硬件的车辆85万辆,AP激活状态下累计行驶里程已超过20亿公里,远远超过竞争对手(Waymo为2000万公里)。由于特斯拉保有量持续攀升,其他竞争对手和特斯拉之间在数据积累量以及长尾场景覆盖程度上的差距将会越拉越大。
大模型对于覆盖小概率路况意义重大。
大模型可以大幅提升场景生成、标注的效率
随着AI大模型的出现,我们覆盖自动驾驶小概率路况的效率有望大幅提升,这种效率提升至少源于两个方面:
场景生成
利用AI大模型进行场景生成是覆盖小概率路况的新思路。相对于单纯的路测,直接进行场景生成,并将仿真结果与路测相结合对于快速实现路况覆盖大有裨益。比如毫末已发布DriveGPT雪湖·海若,可以实现三项能力:
按照概率生成很多个场景序列,每个场景序列都是未来可能会出现的一种实际路况;
在所有场景序列都产生的情况下,能对场景中最关注的自车行为轨迹进行量化。可以实现在生成场景的同时就产生自车未来的行车轨迹;
基于所生成的轨迹,实现决策逻辑链的输出。
值得注意的是,毫末的雪湖·海若引入了类似于GPT系列模型中的人类反馈强化学习机制。即把系统和驾驶员的判断和决策进行对比,若对比结果一致,系统会被打高分,反之则会被打低分。这与特斯拉FSD的模式有异曲同工之妙。
数据标注
除场景生成外,AI大模型在自动标注方面同样能够发挥重要作用。在AI的1.0时代,数据标注主要依赖于人工,导致数据的标注时间很长,且成本比较高。尤其在自动驾驶领域,由于路况复杂,存在大量的标注需求。基于大模型可以实现自动标注,从而大幅度降低成本,提升效率。如毫末智行的雪狐海若将场景识别能力对外开放。此前采用普通的标注方案标注一张图片需要约5元,而DriveGPT雪湖·海若只需要0.5元,大幅节约了成本。
作为行业的领军者,特斯拉给出了通过道路重建作为车道线感知真值进行4D标注的方案,其本质上是一个基于Tesla强大视觉感知能力的众包建图。
2018年之前:采用纯人工进行2维图像标注,效率较低;
2019年:人工进行3D固定框的图像标注,当时的拓扑只是基于单趟轨迹,重投影精度<3pixel,整个标注还比较依赖人工,需要3.5小时进行一个clip标注;
2020年:采用BEV空间进行标注,这里可以看到此时的建图已经是基于BEV感知进行的建图,重投影精度<7pixel,人工标注耗时小于0.1小时,已经基本可以实现自动标注;
2021年至今:首先对场景进行重建后在4D空间(关于2021年开始采用的4D标注,早在19年AutonomousDay上Karpathy就做过了介绍,当时Tesla使用的是SfM的方式进行周围场景重建,然后再在重建的点云上进行4D标注)中进行标注,使用3D特征进行多趟采集轨迹的聚合重建,重投影精度从(<7pixel)优化到(<3pixel),人工标注耗时与2020相当,但计算时间从2hrs降低到0.5和hrs,可扩展性也变得非常强,可以取代500万小时的人工作业量,人工仅需要检查补漏。
大模型虽难以完全解决小概率路况的问题,但依然对自动驾驶行业意义重大。当然,必须承认的是,大模型依然无法帮助我们100%解决小概率路况带来的问题。
大模型能力来自于深度学习,而不来自于强化学习。从技术路线来看,大模型是“深度学习+人类反馈强化学习”。为了测试强化学习对于模型能力的影响,OpenAI分别基于GPT-4基础模型和加入强化学习的GPT-4模型运行了一系列考试中的多项选择题部分。结果显示,在所有的考试中,基础的GPT-4模型的平均成绩为73.7%,而引入强化学习后的模型的平均成绩为74.0%,这意味着强化学习并没有显著改变基础模型的能力,换句话说,大模型的能力来自于模型本身。根据OpenAI的表述,强化学习的意义更多地在于让模型的输出更符合人类的意图和习惯,而不是模型能力的提升(有时甚至会降低模型的考试成绩)。
既然大模型没有摆脱深度学习框架,这就意味着现阶段的AI背后依然是统计学,无法彻底解决残差问题。换言之,“能力的不可解释性”问题依然无法在根本上得到解决,我们依然无法实现100%的正确,只能通过覆盖更多小概率路况的方式来提升安全性。
大模型理论上难以帮助我们实现小概率路况的100%覆盖。从本质上来说,利用AI大模型进行路况生成虽然能大幅提升效率,但依然类似穷举。而通过穷举法实现对小概率路况的全覆盖从理论上不太可能实现,本质的原因在于“路况本身是一个无限场景”。试想一下,如果我们要打开一个密码箱,我们只需要从“000”到“999”全部尝试一遍,箱子就必然已经被打开了;同样的道理,在棋类运动中,每一步可以“落子”的情况都是有限的集合,换句话说,所有可能性是也是可以被遍历的,所以这两个场景都是“有限场景”,而公开道路自动驾驶场景则是一个“无限场景”。
但我们不能因大模型难以100%解决问题而低估其对自动驾驶行业的帮助。无法单纯从技术上解决问题并不意味着大模型对于自动驾驶的落地没有意义。我们认为,技术的突破和法律、伦理的放缩将“相向而行”,从而最终在一个可以接受的安全性范围内实现平衡。可以试想一下,如果人类没有发明汽车,可能也不会有目前那么多的交通事故,但显然并不会有人因为这一点抵制汽车这一为人类社会带来巨大帮助的发明。
2.AI助力智能座舱交互体验提升
智能座舱交互属性毫无疑问会不断上升。
从必要性角度:汽车行业正从卖方市场转向买方市场,行业演进的核心驱动因素由技术与产品转变为消费者需求。传统汽车工业已走过百年,随着行业的高度成熟,这一市场正逐渐由卖方市场转变为买方市场,行业向前发展的关键因素也从技术的突破和产品的打磨转向消费者的需求变化。
从可行性角度:随着EE架构的集中化,以及主控芯片算力的提升,将可以支撑越来越多新的功能点。
AI大模型可以丰富和革新人与车辆的交互方式。在座舱内,驾驶员会与汽车通过语音、视觉等多种方式产生交互,毫无疑问,AI大模型有助于交互体验的提升。如驾驶员将可以通过自然语言的方式和系统进行沟通,比如选择一条更快的路或是收费更少的路;或者系统会对驾驶员的各种习惯进行学习,比如什么时间在什么地方喜欢买咖啡,从而对驾驶员进行建议;再或是基于天气提示驾驶员带雨伞等等。
3.AI带动车辆研发设计效率提升
随着项目周期的压缩,汽车研发效率正变得越来越重要。
汽车的开发周期正逐渐缩短,这使得供应商的项目周期被大幅压缩,此前项目可能是2-3年,而现在可能是1年多甚至不到1年,同时主机厂的定制化需求却越来越多,更短的开发周期和更多的定制化需求对Tier1的智能制造能力提出了更高的要求。
随着自动驾驶功能模块逐渐增加,需要测试的里程数快速增加,并没有完全足够的时间进行路测,同时由于涉及到安全,测试环节本身不能简化,所以设计、测试的效率在一定程度上正逐渐成为制约项目能否快速及时交付的重要因素。
AI大模型对于汽车设计师效率的提升意义重大。比如中科创达GeniusCanvas将语言能力、视觉渲染以及特效制作能力结合在一起,可以通过辅助概念创作、辅助3D元素设计、辅助特效代码生成和辅助场景搭建及制作多方面帮助设计师完成创作过程,从而优化工作流程,并提高设计师的工作效率。概念创作方面,它能够把3-4周的工作周期缩短到1周,节省70%的时间。3D元素设计方面,它能够把4~6周的工作周期缩短到3天,节省85%的时间。特效及场景制作方面,它能够节省90%的时间。
4.国内智能驾驶公司积极拥抱AI新趋势
中科创达:推出GeniusCanvas,提升HMI交互体验
中科创达重视AI技术,利用kanzi推动智能驾驶舱的发展。在2022年,中科创达公布与地平线成立合资公司,聚焦智能驾驶赛道。kanzi是一个具有强大实时3D渲染能力的工具。中科创达推出的智能驾驶舱3.0使用了KanziforAndroid这种新技术,使得Android系统和Kanzi完美对接,实现了3D唱片、可定制实景导航、实时界面个性化定制、跨屏幕跨系统应用等功能。
中科创达利用Kanzi实现智能驾驶舱多屏交互。由于智能驾驶涉及人机共驾,智能汽车所承载的驾驶员信息、车外环境信息、车辆信息等越来越多,需要有更多的空间、分区域地呈现给用户,并确保和驾驶员有良好交互。基于KanziforAndroid支持的多屏联动,在导航的过程中可以实现地图跨屏,全方位呈现3D导航;在导航结束时,可将地图由副驾驶屏收缩至中控屏。多方选择以适应更多的个性化需求。
中科创达GeniusCanvas赋能汽车产业发展,打造全新HMI交互体验。GeniusCanvas的一个工具是大模型引擎,它能够把想法和理念转化为文案,并进一步转化为创意和作品,最终通过技术手段转化为应用程序。GeniusCanvas的第二个工具来源于KANZI产品。Kanzi与大模型结合后,能够利用大模型的知识库及创新能力,快速创作丰富多彩的KanziHMI概念效果及特效,构建多样的3D模型及形象库,并且在车机系统中能够实现实时预览功能。目前,全球已有超过百款车型选用了Kanzi,每年有数千万辆搭载Kanzi技术的量产车型落地。
德赛西威:联合高校推进大模型本地化,赋能自动驾驶
德赛西威联合高校推进大模型本地化部署。德赛西威已和中山大学、南洋理工大学等高校合作,通过尝试和布局基于大模型的数字虚拟助手、图像数据自动标注、自动场景创建、自动编程等,构建技术支撑,相关方案已经在上海车展上亮相。在AI大模型本地化过程中,德赛西威能够为客户提供差异化、全方位的技术支持和解决方案。
AI大模型技术可以和德赛西威现有技术形成完美融合。比如,AI大模型可以在感知融合、感知预测和规划上实现更为精准的数据补充和预测,从而在行为预测方面给予自动驾驶更多地帮助,并给出更多的控制选择。
虹软科技:已发布可商业落地的AIGC产品
公司已发布AIGC产品,助力小B客户大幅降低商品展示成本。1)商业拍摄市场空间超500亿元,虹软方案能大幅降低对模特的依赖,降低商品展示成本,实现对于原方案的替代。2)采用目前市场上的方案在很多细节处存在畸变和失真,虹软的方案能使得商品展示“所见即所得”。3)公司计划在2023年推出静态商品展示图解决方案,包括商品加背景静态图像的生成,以及商品加数字模特图像生成,后续计划推出动态视频以及3D内容。
商业模式:与公司手机、汽车业务类似,AIGC商业模式分为会员服务费和生产流量费两部分。1)在会员服务会部分,公司会根据不同的会员等级开放不同的功能,比如不同的场景库和模型库;此外,公司可以针对一些增值的API做差异化的定制开发。2)在生成流量费部分,公司将按照生成内容的实际算力消耗直接定价。
虹软科技是非常稀缺的能够将AIGC技术进行产品化落地的公司。在目前阶段,投资者非常关注哪些公司能在AIGC方面形成真正的产品,并产生商业价值。虹软作为安卓系手机拍摄算法的全球霸主和汽车视觉算法的领先者,在图像处理方面拥有超过20年的技术积累,是非常稀缺的能够在现阶段将AIGC技术进行产品化落地的公司。
经纬恒润:自主开发驾驶仿真测试软件,推出智能座舱AI单品
在自动驾驶仿真方面,经纬恒润自主开发仿真软件,助力驾驶测试。经纬恒润自主研发了综合驾驶测试仿真软件ModelBase,这一软件可以被用于乘用车、商用车的整车电控系统、ADAS系统的设计、测试和验证。涉及电控系统的全开发周期,包括早期的算法仿真测试,控制器的硬件在环测试,半实物台架测试,以及车辆在环测试。目前这一软件已经被已应用于一汽、东风、蔚来等50余个项目中。
在智能座舱交互方面,经纬恒润基于AI技术开发了音乐律动氛围灯等一系列产品。经纬恒润音乐律动氛围灯具有实时歌曲特征识别和离线歌曲特征识别两种模式。其中离线歌曲特征识别模式的相关功能就是基于AI音乐风格分类算法和AI音乐段落划分算法进行实现。通过音乐特征识别,为氛围灯音乐律动提供丰富的效果组合,提升用户体验。