商汤绝影升级世界模型“开悟”,端到端智驾预计明年底量产
11月27日,2024“绝影实力AIDAY”举办,商汤绝影全面展示了“驾-舱-云”三位一体的通用人工智能(AGI)产品体系与战略布局,发布智能座舱交互革新、端到端智能驾驶等前沿领域的创新成就。
在本届“绝影实力AIDAY”上,商汤绝影行业首发智能座舱大模型创新产品“ANewMemberForU”(你的家庭新成员)。面向智能驾驶,商汤绝影构建了“车云一体”的产品矩阵,发布涵盖高速、城区以及泊车等全场景的高阶智驾、端到端智驾等绝影量产智驾产品体系,同时全新升级行业标杆级别的“开悟”世界模型。
商汤绝影CEO、商汤科技联合创始人、首席科学家王晓刚表示:“我们已经站在AGI时代的门口。作为加速智能汽车驶入AGI时代的战略合作伙伴,商汤绝影将牢牢把握住新一轮智能汽车变革的时间窗口,与车企伙伴进行全方位深度合作,共享大算力与大模型,共建数据基础设施,共同打造智能汽车大模型创新应用,才能携手共赢,领航未来。”
商汤绝影CEO、商汤科技联合创始人、首席科学家王晓刚
让智能汽车拥有“有趣的灵魂”
大模型上车伊始,它们主要扮演着工具的角色,为用户提供基础的对话、信息查询和问题解答服务。随着技术的不断进步,具备逻辑思考和通用任务处理能力的AIAgent出现了,能够根据用户的指令,完成复杂的连续性任务,成为能干的助理。不过,这类车机都只是听话和服从的“被动智能”。
在2024“绝影实力AIDAY”上,商汤绝影重新定义座舱,未来它不再只是冰冷的工具或者机械式的助理,而是“ANewMemberForU”,成为会察言观色、无时不在且与你心有灵犀的“家庭新成员”。这位“家庭新成员”能够感知和理解用户需求,提供有温度、有情感的主动关怀。可以畅想这么一个场景:在驾驶旅途中,“家庭新成员‘注意到坐在后排的孩子睡着了,就会主动把空调温度升高、音乐的声量调低,底盘和驾驶模式都调整为舒适模式,给小朋友一个舒适安心的睡眠环境。
依托原生流式多模态大模型、车载类人记忆框架和持续运行框架等前沿AI大模型技术,商汤绝影正在引领座舱交互体验的革新,让智能汽车拥有“有趣的灵魂”。
NewMember“新成员”能够察言观色,离不开商汤绝影强大的原生流式多模态大模型,以此为基础,“家庭新成员”能全面感知用户的语音、表情、手势、以及环境数据,并进行深度理解和推理思考,具备理解世界、理解人类的能力。
如果要让汽车与用户心有灵犀,它还必须有拥有“记忆”,为此商汤绝影打造了国内首个“车载类人记忆框架”,让系统实现类人的记忆能力。
合格的“家庭新成员”还要无时不在时刻准备为你服务,绝影打造了能够持续推理的Always-on运行框架,将多模态感知到的信息与各种记忆相结合,依托端云协同架构,数据延迟控制在1毫秒以下,首包延时最快只需60毫秒,推理速度达40Tokens/秒,对数据进行高效处理和反馈,时刻感知需求,主动为用户服务。
在追求智能和情感化的同时,商汤绝影始终坚持将用户隐私与安全放在首位,通过全方位的隐私保护与数据安全体系,做到“数据跟人走”、“隐私数据不出车”、“不该说的不说”,确保系统在安全合规的前提下提供极致体验,为每一位用户打造专属的安全空间。
端到端量产在即,“开悟”全新升级
今年年初,城区无图NOA是智能驾驶领域的核心话题。之后,端到端智驾技术为行业带来了范式革新,逐渐取代模块化的规则,成为智驾技术的进化方向。从北京车展开始,商汤绝影等多家公司陆续发布端到端智驾方案,智驾正在迈向端到端时代。
在本届“绝影实力AIDAY”上,商汤绝影全面展示了基于J6E、J6M、Orin等不同算力平台打造的全场景高阶智驾、端到端智驾等绝影量产智驾产品体系。商汤绝影的智驾量产交付也在稳步推进,基于J6平台的智驾方案预计2025年第二季度将量产交付,而量产端到端智驾方案则预计会在明年年底量产落地。
在推进量产的同时,行业也发现,研发范式从规则驱动转变为数据驱动,端到端智驾模型对于高质量数据的需求呈指数级的增长。然而受限于高阶智驾的量产规模、算力资源,目前大多数车企和智驾公司都面临相同的问题,即高质量驾驶数据的获取难度大、效率低、成本高。
商汤绝影探索出一条新的道路,通过实车采集和仿真生成“双轮驱动”的数据闭环,构建量产智驾产品体系和世界模型深度融合的“车云一体”智驾新范式。
在2024“绝影实力AIDAY”上,王晓刚表示:“智驾高端局的竞争不止是车端模型的比拼,端到端的决战,战场在云端。”为此,商汤绝影全新升级并发布行业标杆级别的世界模型——“开悟”世界模型。
世界模型最基础也是最核心的能力是生成高质量视频数据,高质量数据的关键在于“真实”。基于多模态大模型打造的绝影世界模型,能够理解真实世界的物理规则、交通规则,生成的视频数据也更加逼真。现场展示的“开悟”生成视频案例中,晴朗天气下,汽车、路灯都是有影子的,右转车辆会主动让行优先级更高的直行车辆。
在真实的基础上,“开悟”生成的场景视频,时间最长为150秒、分辨率可达1080P、视角可以实现11V,是行业首个同时完成上述指标的智驾世界模型。
基于行人车辆3D框和时空轨迹的信号输入,「开悟」生成的11V时空一致视频
根据公开数据,“开悟”生成效果的各项指标开源均达SOTA,优于包括GAIA-1、DriveDreamer在内的国内外主流世界模型。此外,从2023年开始,在全球知名的自动驾驶仿真模拟任务竞赛WaymoSimAgents的比拼中,“开悟”连续两年获得第一名,是当之无愧的行业标杆。
更重要的是,通过多模态大模型,“开悟”世界模型可以支持多样化的自动驾驶场景及Cornercase的可控生成。目前商汤绝影基于1024类场景,能够泛化出更多的平行世界,打造了千万级的生成场景库,预计2025年对行业开放。
商汤绝影的技术和产品持续创新,商业化落地也全面开花,量产交付稳步推进。智驾方案已量产交付广汽埃安、一汽红旗等3家车企6款车型。第三方调研数据显示,商汤绝影在座舱视觉AI软件市场的份额连续五年蝉联第一。此外座舱AI大模型产品已上车小米SU7、智己、LEVCL380等车型。
值得关注的是,商汤绝影面向海外市场升级了座舱视觉AI产品矩阵,助力极氪X的DMS系统斩获ENCAP历史最高分,并在“绝影实力AIDAY”首发ENCAP2026OOP离位检测、身材检测功能。
如今,商汤绝影已与超30家国内外车企达成合作,覆盖100余款车型,预计至2024年底,量产交付累计将突破350万辆。
单打独斗难以在AGI时代脱颖而出,主机厂和AI公司必须以全新的方式进行深度战略合作才有可能形成行业竞争力。目前,商汤绝影已和大卓智能、东风汽车等合作伙伴签订战略合作协议,在高阶智驾量产、端到端量产、AI云服务、AI大模型等领域开展全方位的深度合作,加速自动驾驶的落地与进化。
本文系观察者网独家稿件,未经授权,不得转载。