与生成式 AI 相比,自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统,人们面临的主要挑战是 AI 的场景理解,这会涉及到复杂、不可预测的场景,例如恶劣天气、复杂的道路布局和不可预见的人类行为。现有的自动驾驶系统通常包括 3D 感知、运动预测和规划组成部分。具体来说,3D 感知仅限于检测和跟踪熟悉的物体,忽略了罕见物体及其属性, 运动预测和规划则关注物体的轨迹动作,通常会忽略物体和车辆之间的决策级交互。
最近清华大学交叉信息研究院、理想汽车提交的新论文中,作者提出了 DriveVLM,受到最近生成式 AI 领域兴起的视觉语言模型(VLM)启发,DriveVLM 在视觉理解和推理方面表现出了非凡的能力。 在业界,这是第一个提出自动驾驶快慢系统的工作,方法充分结合了主流自动驾驶 pipeline 和具备逻辑思考的大模型 pipeline,并第一个完成端测部署的大模型工作(基于 Orin 平台)。DriveVLM 包含一个 Chain-of-Though (CoT) 流程,该流程具有三个关键模块:场景描述、场景分析和分层规划。场景描述模块用语言描述驾驶环境,并识别场景中的关键对象;场景分析模块深入研究关键对象的特征及其对自我车辆的影响;分层规划模块从元动作和决策描述到路径点逐步制定计划。