IT之家 3 月 19 日消息,卓驭 AI 首席陈晓智昨日在 NVIDIA GTC 2025 发表主题演讲《基于端到端世界模型的生成式智驾体验》,分享了卓驭在端到端智能驾驶技术上的近期进展,并公布了卓驭基于端到端世界模型的全新一代智能驾驶功能 —— 可支持自然语言交互的个性化生成式智驾方案 GenDrive。
卓驭认为,好用的高阶智驾,除了足够拟人化,还需要满足用户个性化的驾驶需求。因此,卓驭在行业中首次提出了基于端到端世界模型的“生成式智驾”—— GenDrive 的概念,相对于传统的智驾体验,“生成式智驾”不仅可以给用户带来拟人化的体验,同时也能满足用户个性化的驾驶偏好。
传统的端到端架构,更多是一种基于预测范式的端到端,即观测到一段传感器的输入,预测下一步的动作,因此它是一次性的动作预测的过程。
而 GenDrive 采用生成式的技术来做端到端,通过世界模型来生成未来可能发生的 N 个平行宇宙,再结合用户偏好和各类环境信息来选择最优的轨迹输出。
卓驭的端到端世界模型整体架构,在最底层为硬件平台,包括智驾控制器,可以适用英伟达的计算平台,比如 DRIVE Orin / Thor SoC,并且可适配不同类型的传感器配置。
在模型输入部分,卓驭通过 Vision Encoder 和若干 Tokenizers 来编码传感器数据、导航信息以及历史轨迹的输入。此外,在卓驭端到端世界模型架构中还会将驾驶风格以某种表达编码进模型,以及将用户的语音指令通过文本编码器输入到模型。
对于模型的输出,则包括了周围环境的语义和几何的理解,以及对未来多种可能性的生成。
最后输出的驾驶轨迹,则是与用户风格偏好、语音指令对齐后的结果。
对于端到端世界模型的训练,卓驭采用大模型典型的预训练 + 后训练的方式来进行,并且能够实现“硬件无关”的平台化训练,即针对不同传感器构型、不同芯片类型,只需训练一个模型,就能部署到不同的硬件构型。
基于上述端到端世界模型架构,卓驭的生成式智驾具备以下功能:
自定义场景级别的驾驶风格:比如跟车过程的风格(起步快慢、车距保持的距离等)、速度控制的风格、路口转弯的风格、变道的风格等。
在线学习和模仿用户的驾驶风格:基于用户一段时间的驾驶记录,模型自动学习出用户的驾驶风格偏好,整个学习过程只需用到车端算力,无需任何和云端的交互。同时 GenDrive 也能支持多个用户风格的学习,可以结合座舱内的人脸识别,自动绑定不同的用户 ID,自动激活选择相应的用户风格。
可通过自然语言交互来控制驾驶风格和动作:驾驶风格是指长时的驾驶行为的刻画,比如用户通过语音对话“我容易晕车,能否开慢点”、“不要让其他车加塞我”等,模型可自动识别出用户偏好的柔和或激进的驾驶风格。而驾驶动作指一个具体的、瞬时的行为,比如用户通过语音对话“不要开最左边车道”、“进入辅路”、“靠边停在那辆白车后面”等,模型即可理解用户意图,并实时改变模型的行为轨迹。
IT之家从卓驭官方获悉,这一在行业中首次提出的生成式智驾体验能力,将会在今年内有相关车型进行量产搭载落地。