从具身智能到车路云,一场关于数字未来的浩瀚远征
文|极智GeeTech
诗人艾略特所言:“我们不停止探索,最终所有的探索都将回到起点,并且对这个起点有了新的认识。”
发生在距今5.2亿年前的寒武纪生命大爆发是地球生命史上里程碑式的演化事件,其规模和强度前所未有,与之前生命世界形成截然不同的反差,更是深刻影响了后来地球生命史的发展,开启了通向现代生物多样性的浩瀚远征。
2024年,可以算是科技界的“寒武纪”大爆发之年,具身智能、自动驾驶、大模型、车路云一体化等众多新技术在这一年相互交汇、彼此融合,并释放出巨大的技术应用潜力和极具想象力的商业化前景,不仅打开了通往未来世界的大门,也为产业升级找到了进阶之路,让人们看到了数字未来的无限可能。
具身智能通往AGI的野望
从图灵测试到深度学习,从专家系统到大语言模型,人工智能的每一次进化都在拓展着人类对智能的理解边界。人工智能与具身智能的结合,一直是行业领域研究探索的重要方向。
继大模型后,具身智能成为今年科技界的新热点。通过赋予人工智能以具体的物理实体(如机器人和自动化设备等),具身智能可以与现实世界进行交互,被认为是推动通用人工智能(AGI)发展的关键技术。比亚迪、华为、广汽集团以及美团、阿里巴巴、腾讯等企业都已亲自下场,欲在这片混沌初开的市场中抢占一席之地。
作为该领域最具代表性的实体,人形机器人正在大模型催化下加速产业化落地。目前业内普遍认为,人形机器人是具身智能落地的最佳硬件载体。
高盛数据显示,在理想情况下,预计到2035年,人形机器人市场空间有望达到1540亿美元,约合11037.3亿元人民币,这一规模相当于2021年智能手机市场的三分之一。花旗银行发布的最新报告预测,到2050年,全球人形机器人市场规模将达7万亿美元,全球人形机器人数量将达到6.48亿台。
如果将大模型视为“有趣的灵魂”,“具身智能”赋能的人形机器人则有了“好看的皮囊”,大模型与机器人快速融合正在成为具身智能持续进化的必然趋势。
2022年8月,谷歌PaLM-SayCan首次将语言模型与物理机器人结合,通过预训练在大型语言模型中提取知识,让机器人依据高级文本指令完成物理任务。
随后,机器人与大模型的融合逐步加深。2023年7月,谷歌DeepMind推出了RoboticsTransformer2(RT-2),是全球第一个控制机器人的视觉-语言-动作(VLA)模型。RT-2可使机器人直接通过拍摄或感知环境的方式获取视觉信息,并理解人类语言指令,然后通过动作执行模块进行相应的动作操作。
2024年3月,Figure发布OpenAI大模型加持的机器人Figure01,Figure01采用端到端神经网络,由OpenAI大模型提供高级视觉和语言智能功能,神经网络进行底层的控制,能够与人类进行对话交互,理解并执行人类指令。
虽然人形机器人在2024年取得了“技惊四座”的进展:优必选人形机器人Walker聚焦汽车、3C等制造业重点领域,已进入多家车厂实训;宇树科技机器人实现了完全仿人的自然行走;波士顿动力的新版Atlas机器人可在工厂里不同储物柜之间丝滑搬动零件;特斯拉人形机器人擎天柱(Optimus)计划在2025年量产……
但正如波士顿动力创始人MarcRaibert所说,目前人形机器人“在某种程度上是一种炫耀,而不是一种生产力”。具身智能固然是通往AGI大门的一把钥匙,但目前行业还是没有找到使用这把钥匙的正确方式,并且低估了AGI的实现难度。
不同于快速收敛的大模型,具身智能涉及的模态空前复杂,需要同时具备多模态感知、具身决策与规划和操作执行能力,在发展过程中仍面临多项挑战。
首先,是要适应非结构化真实环境。与预设规则和模式驱动的传统人工智能系统不同,具身智能必须在一个充满复杂性和不可预测性的非结构化环境中找到立足点。在这种环境中,信息的稀缺和场景的多变性,要求人工智能系统具备更加先进和灵活的计算能力,以便能够适应环境的不断变化和不确定性。
其次,是要发展更高级的认知策略。在自然界中,生物体通过视觉、听觉和触觉等多种感觉途径获得复杂的感知信息,并在大脑中进行有效的多模态信息融合。具身智能同样需要模仿这种高效的多模态融合过程,以更全面地理解和适应其所处的环境。
第三,涌现式创新与突破的缺乏影响着具身智能的进化程度。生物群体能够展现出令人惊叹的集体智慧,主要归功于其中个体之间的协同作用。对具身智能来说,一个重要的挑战是模仿这种群体智能系统。这意味着需要将智能分散到多个实体中,并通过它们之间的协作,实现更高级别的认知和决策能力,以实现分工协作和动态任务分配,从而能够更灵活地应对多种情境。
第四,具身智能在与真实环境进行交互并充分学习时,势必会收集和处理大量数据。这就引出了一个关键问题:如何在实时交互中确保这些数据的安全性和隐私性,同时具身智能在决策时还需要考虑伦理和道德问题,以确保其行为符合道德原则和社会价值观。
具身智能的发展不仅是技术革新的过程,更是对人类理解、伦理道德和社会影响的深思,相关研究在推动科技边界的同时,还将深刻影响人类社会的方方面面。
智能驾驶的梦想照进现实
当自动驾驶汽车的梦想在20年前被点燃时,谁能想到这条道路会如此坎坷?美国国防部高级研究计划局(DARPA)发起的挑战赛仿佛打开了一个新世界,激发了无数科技公司的热情。然而,现实却远比想象中复杂。
纵观自动驾驶技术的发展历程,人工智能的不断突破显著提升了自动驾驶的感知性能。从卷积神经网(CNN)的引入,到循环神经网络(RNN)的应用,再到结合鸟瞰图(BEV)与Transformer(自注意力机制的神经网络架构)的创新,新技术的迭代涌现在不断增强自动驾驶的精确度与安全性。
尤其是在“BEV+Transformer”与OCC(占用网络)之后,端到端(End-to-End)自动驾驶技术开始受到广泛关注。可以看到,2024年高阶智驾产品渴望商业成熟,但仍处于技术剧烈变革阶段。
随着神经网络智驾算法的崛起,自动驾驶进入数据驱动时代,通过大量数据训练出能够高度模拟人类驾驶习惯的人工智能,在达到一定的仿真阈值后,得出一套根据可靠性和符合人类乘车习惯的系统。
随着智能驾驶技术的不断成熟,车企逐步加大了在智能驾驶领域的投入。特斯拉、蔚来、小鹏、理想等厂商在智能驾驶技术的研发上已形成了自己的技术路线。
特斯拉作为智能驾驶领域的领军者,通过影子模式进行数据收集,将系统决策与驾驶员行为不断进行比对,当两者不一致时,系统将场景判定为“极端工况”,进而触发数据回传。因此特斯拉收集的数据越多,对于人类驾驶习惯的模拟就越精准,进而加速特斯拉FSD的车端部署,形成数据闭环。
蔚来通过引入高精地图和Lidar技术,打造其独特的NAD系统;小鹏则在其XNGP系统中引入了轻量化的传感器方案,并计划在未来通过端到端大模型进一步提升系统性能。华为则通过与多个整车厂商的合作,推动其ADS系统的广泛应用。各大整车厂商在智驾领域的战略布局,将在未来几年内决定市场的竞争格局。
尽管智能驾驶技术已经取得了显著进展,但在实现全面普及之前仍面临诸多挑战。首先,算法的可靠性和安全性仍需进一步提升,特别是在应对复杂的城市交通环境时,智能驾驶系统需要能够处理各种突发状况和极端条件。
其次,智能驾驶系统的性能高度依赖于算力与算法的优化。在端到端大模型的架构下,算力需求呈指数级增长,特别是在进行大规模数据训练和实时决策时。为了应对这一挑战,业界正在探索基于云计算和边缘计算的混合架构,通过将计算任务分布在云端和本地设备之间,以提高系统的响应速度和计算效率。
算法的优化也面临着诸多挑战。传统的机器学习算法在处理长尾问题时表现不佳,而智能驾驶系统必须具备应对这些情况的能力。强化学习和生成对抗网络(GAN)等新型算法在解决这些问题上展示出了潜力,但如何将这些算法应用到实际驾驶场景中,仍需要进一步研究和探索。
随着智能驾驶系统的普及,数据隐私和网络安全问题日益突出。智能驾驶系统依赖于大量的传感器数据和用户行为数据,这些数据的收集、传输和存储都可能面临安全风险。如何保护用户数据的隐私,防止数据被非法获取和滥用,是当前智能驾驶技术面临的一个重要挑战。
智能驾驶不仅是技术发展的新方向,更是汽车产业未来的重要增长点,2024年是智能驾驶技术从高端市场走向主流市场的关键节点。车企在智能驾驶领域的布局,将在很大程度上决定未来的市场格局。
为了将自动驾驶系统部署到更多车型上,模型压缩和优化技术将成为关键,我们将看到更加轻量级、高效的自动驾驶模型问世,这些模型将在保持性能的同时,大幅降低对硬件资源的需求。
车路云新基建“加速器”
如果说,具身智能和自动驾驶还只是停留在场景应用层面,那么车路云一体化则是围绕底层交通基础设施智能化升级下的一盘“大棋”。
车路云网络的本质是通感算网络,其将通信、感知与计算深度融合,通过集成通信基站、卫星通信和定位、各类传感器、云控平台等关键基础设施,形成一个信息共享、高效协同的网络空间,成为未来智能城市的底层系统。
作为庞大的实时数据网络,车路云网络可以大规模获取实体世界的全局数字化信息,为普通汽车、智能汽车、机器人、无人机、低空飞行器等智能设备提供系统级的实时数据服务,这些智能设备可以基于全局数据信息进行实时决策和精准规划,实现更高效的协作。
同时,这些数据还可以用来反哺自动驾驶模型、机器人模型的训练。比如可以根据不同城市特点,训练最适合当地驾驶行为的自动驾驶模型;根据不同工作和工种特点,训练最适合不同工作场景的机器人。
当智能设备规模越来越大,最具合理性的方式一定是尽可能降低对单体设备在计算能力和实时感知能力方面的依赖,通过整个网络来承载巨量的数据处理和计算分析。这将有助于推动数字智能社会进入到一个整合系统,也就是从单体智能设备变成群体智能系统,并将整合地面网络、低空网络、卫星网络,形成空天地一体化的通感算网络,为智能体的大规模运行与自主交互协作提供重要支撑。
2024年,是我国全面布局车路云一体化的“元年”。年初,工信部发布的《关于开展智能网联汽车“车路云一体化”应用试点工作的通知》提出,要建设智能化路侧基础设施,实现试点区域5G通信网络全覆盖,部署LTE-V2X直连通信路侧单元等在内的C-V2X基础设施。通过新一代移动通信技术将人、车、路、云一体化,建立系统性数据平台,产业化规模落地应用,就是智能驾驶的“中国方案”。
7月初,工信部公布了20个城市(联合体)为“车路云一体化”应用试点城市。车路云一体化作为优化交通运效率、提升城市治理水平的技术手段,其重要性日益凸显,已成为加速智能驾驶全面落地的关键所在。
10月,工信部相关负责人在国新办新闻发布会上表示,下一步将深入开展智能网联汽车准入和上路通行试点、“车路云一体化”试点,稳妥推进自动驾驶技术产业化。
目前,中国已经形成相对成熟的车路云一体化建设方案,主要由设备端、通信服务、云平台、车路云应用、车路云安全等部分组成。其中,在政府机构主导的项目推动下,路侧基础设施及平台建设率先开展。
数据显示,2025年、2030年“车路云一体化”智能网联汽车产值预计为7295亿元、25825亿元,年均复合增长率为28.8%。面向未来,车路云一体化要以应用为出发点,不仅赋能具有自动驾驶功能的车辆,还要着眼于存量的智能网联汽车和普通汽车。
对此,要挖掘更多应用场景并形成可复制的方案。当前,车路云一体化平台已经能够对路端的设备信息、预警结果等数据进行较为稳定的接入与处理,路云已经基本实现协同连接,利用云端多车数据进行交通智能调度管理、提高协作效率的场景将成为主流,车云协同也将迎来新发展。
同时,要进一步探索车路云一体化更多商业价值。车路云一体化市场规模的增长依赖于各城市车路云项目的扩张和落地,对于技术服务商而言需要更多的“增长曲线”维持业务运转。
一方面,通过基础设施类项目向车端协议栈的渗透是可行方案;另一方面,将平台沉淀的高质量数据赋能车企等对数据有海量需求的终端用户,也不失为一种新的探索方向。
蘑菇车联创始人兼CEO朱磊认为,车路云网络最需要的是操作系统和算法,数据质量是推动整个产业向前发展的关键所在。车路云网络产生的数据能否给车辆使用以及如何使用是核心标准。目前这部分工作刚刚起步,还远没有到成熟阶段。
从数据应用角度,车路云“数据上车”可以分为五个阶段:
第一,路侧基础设施建设阶段。主要将“通感算”的硬件设备部署在路侧;
第二,数据质量达标阶段。针对单节点数据质量进行测试,可参考行业权威标准,比如信通院的“双SL3”;
第三,数据上车初级应用阶段。通过车路云系统,将信号灯数据、路侧识别到的事件类数据赋能智能网联车辆;
第四,数据上车高级应用阶段。通过车路云系统,将实时孪生数据赋能给智能网联车辆和自动驾驶车辆,真正实现协同感知、协同决策;
第五,量产车型大规模应用阶段。与车企进行量产车合作,保证车辆大规模接入车路云网络,并享受各类实时数据服务。
第五阶段的实现,需要政府、行业组织、车企、车路云技术公司等多方面开展协作,在政策、法规、标准等层面形成合力,共同推动数据上车大规模应用,最终让人们真实享受到车路云建设带来的安全、效率、智能和便利。
此外,构建互联互通的车路云网络形态有助于促进产业规模发展。随着国家层面政策推动与地方试点项目的成功经验积累,车路云网络必将逐步扩展至全国范围,形成覆盖高速公路、城市道路、乡村公路的全域智能交通网络。
未来,车路云一体化的定位将不再限于汽车产业本身,而是与交通、城市管理、通信等多领域深度融合的新型基础设施体系,数据作为“桥梁”,构建起高效协同的多业务系统,从而全面提升城市的智能化、精细化管理水平。
每一次技术浪潮的来临都伴随着泡沫,但这并不意味着我们应该回避。因为在这泡沫之下,隐藏着无数的机遇。创新往往发生在边界之外,但又在跨界之中,来源于那些看似无用却能激发无限可能的探索。