当前位置：首页 > news >正文

企业宣传网站建设图示网站维护英语

news 2026/4/25 17:22:31

企业宣传网站建设图示,网站维护英语,网站建设费属于文化事业建设费,新公司名字大全参考论文地址#xff1a; VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision 摘要人类驾驶员依赖常识推理来应对复杂多变的真实世界驾驶场景。现有的端到端#xff08;E2E#xff09;自动驾驶#xff08;AD#xff09;模型通常被优化以模仿… 论文地址 VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision 摘要人类驾驶员依赖常识推理来应对复杂多变的真实世界驾驶场景。现有的端到端E2E自动驾驶AD模型通常被优化以模仿数据中观察到的驾驶模式但未能捕捉到背后的推理过程。这种限制使得它们在处理具有挑战性的驾驶场景时能力受限。为了弥合这一差距我们提出了VLM-AD一种利用视觉语言模型VLMs作为教师来增强训练的方法通过提供额外的监督信号将非结构化的推理信息和结构化的动作标签融入训练中。这种监督能够增强模型学习更丰富的特征表示的能力从而捕捉驾驶模式背后的逻辑。重要的是我们的方法在推理时不需要VLM使其适合实时部署。当与现有最先进的方法结合时VLM-AD在nuScenes数据集上显著提高了规划精度并降低了碰撞率。图1. VLM-AD通过在训练期间使用辅助文本预测任务增强任意端到端驾驶模型。这些任务从视觉语言模型VLM中提炼驾驶推理知识以鼓励模型学习更丰富的特征表示而无需在训练时对VLM进行微调或在推理时使用VLM。 1. 引言端到端自动驾驶AD将感知、预测和规划统一到一个框架中旨在协调包括检测、跟踪、建图、预测和规划在内的多个复杂任务。近期的研究方法通过使用传感器数据生成规划的自我轨迹采用单一的整体模型来解决这些挑战。尽管这些方法已经显示出一些有希望的结果但它们在处理具有挑战性的长尾事件时性能会下降。另一方面人类驾驶员通常能够通过推理驾驶环境并相应地调整行为来有效处理这些场景。这突显了当前端到端模型在训练中的一个缺口它们仅依赖于轨迹监督作为一系列点缺乏用于学习丰富且鲁棒特征表示的推理信息以实现更好的驾驶性能。手动标注推理信息通常成本高昂、耗时且容易出现不一致和主观的结果这使得获取高质量和可扩展的标注变得困难。大型基础模型通过提供复杂任务如驾驶的推理能力提供了一种替代方案。近期的一些方法直接将大型基础模型如大型语言模型[LLMs]和视觉语言模型[VLMs]集成到AD系统中以利用它们的推理能力。然而这些方法需要大量的特定领域微调以将基于语言的输出转化为精确的数值结果如规划轨迹或控制信号。此外这些方法在推理时依赖于大型基础模型这显著增加了训练成本和推理时间使得这些方法不适合实际应用。鉴于手动标注的局限性和直接将大型基础模型集成到驾驶系统中的挑战我们提出了以下问题大型基础模型如VLMs是否可以生成基于推理的文本信息以增强自动驾驶模型而无需在推理时进行集成受此问题的启发我们提出了VLM-AD如图1所示一种利用VLMs作为教师自动生成基于推理的文本标注的新方法。这些标注随后作为补充监督信号用于训练端到端流程超越了标准轨迹标签的范围。具体来说给定一个多视角图像序列和自车的未来轨迹我们将未来轨迹投影到初始前视图像上以纳入关键的时间运动信息。然后我们通过针对车辆当前状态、预期未来行为和推理过程的针对性问题提示VLM模型生成自由形式和结构化的响应从而将关键的VLM知识注入训练流程。这种可扩展的方法使我们能够构建一个富含VLM生成标注的数据集有效解决了现有驾驶数据集中缺乏推理线索的问题。我们基于这些标注设计了辅助任务并无缝地将其整合到现有的端到端模型中进行联合训练。这些任务鼓励模型学习更丰富的特征表示以提升驾驶性能而无需在推理时使用VLM。我们的贡献可以总结如下我们提出了VLM-AD这是一种简单而有效的方法通过精心设计的提示将VLM的驾驶推理知识提炼到端到端AD流程中生成基于推理的行为文本标注的高质量数据集。我们设计了两个即插即用的辅助任务通过非结构化的自由形式文本和结构化的动作标签监督现有的端到端AD流程。这些任务无需对VLM进行微调或在推理时使用即可有效地提炼VLM知识指导模型学习更丰富的特征表示以提升规划性能。在nuScenes数据集上的广泛实验验证了我们提出方法的有效性显示出在L2规划误差上分别提升了14.6%和33.3%并将UniAD和VAD的碰撞率分别降低了38.7%和57.4%。 2. 相关工作 End-to-End Autonomous Driving. 端到端自动驾驶系统将所有模块联合训练以实现统一目标从而减少整个流程中的信息丢失。例如ST-P3 [17] 和 UniAD [18] 提出了基于视觉的端到端自动驾驶系统将感知、预测和规划统一起来。这些模型在开放环路的nuScenes数据集 [3] 上取得了最先进的结果。后续的研究如VAD [26] 和VADv2 [6]引入了矢量化编码方法以实现高效的场景表示并扩展到CARLA [14] 上的闭环仿真。近期的方法如Ego-MLP [62]、BEV-Planner [35] 和PARA-Drive [58]进一步探索了自我状态和模块化堆栈中的新设计空间以提升驾驶性能。尽管端到端驾驶方法在开发中显示出潜力但它们主要被优化以模仿数据中的驾驶模式而未能捕捉到背后的推理过程。这种局限性主要是由于现有数据集中缺乏推理信息。因此这些方法无法获取更深层次的推理知识这可能会限制它们在复杂场景中的性能。 Foundation Models for Autonomous Driving. 基础模型包括大型语言模型LLMs和视觉语言模型VLMs正越来越多地被应用于自动驾驶领域以利用它们的高级推理能力。GPT-Driver [39] 和Driving-with-LLMs [4] 使用LLMs提供带有解释的动作建议从而增强决策的透明性。近期的一种方法 [11] 利用LLMs评估车道占用和安全性实现更具人类直觉的场景理解。然而基于LLM的方法主要依赖于语言输入这限制了它们整合驾驶中丰富的视觉特征的潜力。 VLMs通过整合语言和视觉实现多模态推理支持诸如场景理解 [10, 21, 42, 49] 和数据生成 [24, 56, 64] 等任务。VLMs还被用于统一导航和规划 [15, 29, 51, 53] 以及端到端自动驾驶 [27, 40, 55, 61]。然而现有的基于VLM的方法通常需要大量的特定领域微调这显著增加了计算成本和推理延迟。与我们的方法密切相关的是VLP [40] 将轨迹和边界框标签转换为用于对比学习的文本特征但它没有引入超出现有监督标签的信息。相比之下我们的方法利用VLM提供额外的推理信息以进一步提升驾驶性能。 Multi-Task Learning. 多任务学习MTL通过共享表示联合执行多个相关任务通过单独的分支或头部实现。这种方法利用共享的领域知识增强特征的鲁棒性和泛化能力使其非常适合端到端自动驾驶。在AD系统中辅助任务如语义分割 [9, 19, 23, 33, 60]、深度估计 [33, 60]、高精地图和鸟瞰图分割 [8, 25, 47, 48, 63] 常被采用以提取有意义的感知表示用于后续目标。除了视觉任务外其他方法 [22, 59] 还预测额外的交通灯状态或控制信号以提升驾驶性能。受多任务学习成功的启发我们设计了新的辅助任务通过从VLM获取高质量的推理标注鼓励模型学习更丰富的特征表示从而实现更可靠的规划性能。图2. 我们提出的VLM-AD框架。我们利用VLM作为教师生成自由形式的推理和结构化的动作标注这些标注被转化为监督信号通过辅助文本对齐头和动作分类头使模型能够学习更丰富的特征表示。因此我们的方法在推理时无需VLM即可提供更好的规划结果和可解释的动作预测。 3. 方法图2展示了我们提出的VLM-AD框架的概述它由两个主要部分组成。第一部分是注释分支我们利用VLM生成额外的信息创建一个补充数据集作为监督信号。第二部分是我们设计的辅助头旨在与这种额外的监督信号对齐并且可以有效地集成到任何端到端模型中跟随规划模块之后。图3. GPT-4o生成的示例标注。给定自车前视摄像头的连续帧我们将车辆的未来轨迹投影到第一帧上。通过使用我们设计的提示我们获得了关于自车当前状态、预期动作和推理的三个自由形式的文本响应以及三个结构化的动作响应。 3.1 VLM文本注释图3展示了注释过程我们利用VLM作为教师通过视觉输入丰富数据集中的额外信息利用其从视觉输入中推理驾驶行为的能力加深端到端模型对驾驶行为的理解。注释过程可以定义为其中M(·) 表示VLM模型P 表示语言提示V 是视觉输入而A 是模型的自然语言输出作为数据集的注释。我们的目标是提供来自自车摄像头的图像以及精心设计的提示以从VLM获得详细且信息丰富的响应利用其广泛的世界知识。在我们的工作中我们使用了GPT-4o [2]这是一个在互联网规模数据上训练的高性能VLM用于自动标注我们的数据集。GPT-4o能够解释场景生成合适的基于推理的响应并在复杂场景中准确识别自车的动作。 Visual Input. 在确定视觉输入时我们面临两个挑战。第一个挑战是从多个摄像头中选择合适的图像这些摄像头提供了围绕自车的360度覆盖。我们探索了两种方法从所有视图创建一个复合大图像或者仅使用前视图像后者通常包含大多数驾驶任务所需的相关信息。我们的注释结果显示这两种方法的输出质量相当因此我们选择仅使用前视图像以降低整体复杂性。第二个挑战是整合时间信息这对于有效的规划和决策至关重要。我们考虑了两种方法。一种直接的方法是输入多个连续帧作为序列并在提示中指示未来的时间戳。然而我们观察到VLM在时间连续性方面存在困难经常混淆自车的身份这可能是由于其在时间定位方面的限制 [28, 43]。因此我们选择将自车的未来轨迹投影到单个前视图像上利用相机的内参和外参以及传感器规格。我们在提示中指定投影的轨迹反映了车辆的未来路径。这种成本效益高的设计允许VLM比使用图像序列更可靠地解释时间信息。 Freeform Reasoning Annotation. 作为VLM的关键输入精心设计的问题对于增强推理能力和提高VLM响应的可解释性至关重要 [57]。在我们的方法中我们专注于规划任务通过设计提示来获得VLM的推理。我们创建了两种类型的问题首先是开放式问题旨在生成自由形式的、非结构化的响应这些响应包含丰富且高维的语言信息。我们将这些响应称为非结构化推理注释。为了最大化VLM的推理能力我们在提出具体问题之前提供详细的上下文描述作为初步指令。具体来说上下文和问题定义如下这是自车的前视图像。红线表示未来轨迹没有线表示停止或减速。在解释推理时请专注于相机图像及其周围上下文而不是引用绘制的轨迹。请描述自车的当前行为。请预测自车的未来行为。请解释当前和未来行为的推理。完整的输入提示定义为 [, ]其中表示问题集 {, , }。这些开放式问题生成自由形式的文本注释描述自车的当前状态、预期的未来行为以及VLM知识背后的推理。 Structured Action Annotation. 为了测试我们方法的灵活性我们定义了第二种类型的问题采用结构化格式。具体来说我们创建了三个不同的动作集并提示VLM从这些预定义选项中选择答案。这使我们能够为每个问题获得一个特定的动作注释。具体来说上下文和问题定义如下这是自车的前视图像。红线表示未来轨迹没有线表示停止或减速。请从控制动作列表中描述自车的动作{直行、慢行、停止、倒车}。请从转弯动作列表中描述自车的动作{左转、右转、掉头、无}。请从车道动作列表中描述自车的动作{向左变道、向右变道、并入左车道、并入右车道、无}。完整的输入提示定义为 [, ]其中表示结构化动作问题集 {, , }。通过这种方式我们可以从VLM获得三个特定的动作。与自由形式文本注释相比结构化注释的一个主要优势是它们可以用来监督端到端驾驶模型以预测人类可解释的动作如实验结果部分第4节所示。 3.2 Auxiliary Heads 通常数据驱动的端到端自动驾驶方法 [18, 26] 关注于总结一个可学习的自我特征以产生规划结果这对于生成可靠且准确的规划轨迹至关重要。这个可学习的自我特征聚合了来自上游模块的所有相关信息通过不同的网络传递。在我们的方法中我们开发了辅助头以该自我特征作为输入使模型能够提炼VLM响应中的知识。 Annotation Encoding. 使用问题我们获得三个文本响应记为分别代表当前动作的描述、未来动作预测和推理。使用问题我们从预定义集合中获得三个动作记为分别对应控制动作、转弯动作和车道动作。为了将这些注释转换为监督信号我们采用两种不同的方法生成两种对应的标签有效地将它们集成到端到端自动驾驶流程中作为监督信号。对于来自的自由形式文本注释我们使用现成的语言模型如CLIP [45]将文本转换为特征表示。对于结构化答案每个动作被编码为一个独热标签。形式化表示为其中和各有三个组成部分 {, , } 和 {, , }。这里、、和是大小为C的特征向量其中C是文本嵌入的维度而、和是三个独热动作标签大小分别为 4、 4 和 5。 Text Feature Alignment. 使用三个文本特征 {, , } 作为监督信号我们开发了一个特征对齐头它以自我特征作为输入。这种设置类似于知识蒸馏 [16]其中特征对齐头学习与教师VLM提供的文本特征对齐。在这个头中我们初始化三个可学习的文本查询 {, }。每个查询通过多头交叉注意力MHCA块与自我特征交互其中文本查询作为注意力查询q自我特征作为键k 和值v产生更新后的文本查询。然后这些更新后的查询与自我特征连接形成该文本头的特征表示随后通过一个多层感知机MLP层生成最终的特征对齐输出。这一过程可以表示为其中⊕表示连接操作而 {, , } 表示三个输出特征用于与相应的VLM文本特征对齐。需要注意的是我们为每个组成部分分别使用了三个独立的MHCA块使每个文本查询能够专注于自我特征中可以用文本形式表示的特定方面。受到DINO [1]中知识蒸馏方法的启发该方法通过控制特征向量的平滑度和锐度来增强特征对齐质量我们采用了类似的策略分别对文本特征和输出特征进行归一化处理生成特征分布而非原始特征值。具体公式如下其中和是控制这些分布锐度的温度参数。这种调整能够更好地对齐输出特征和监督标签提升知识蒸馏的对齐质量。需要注意的是我们没有应用中心化操作因为我们认为监督信号是真实值。 Structured Action Classification. 我们通过问题从 VLM 中获得结构化的动作标签 {, , }。我们构建了一个动作分类头它以自我特征作为输入。与前面的特征对齐阶段类似我们初始化了三个可学习的动作查询、和并通过三个多头交叉注意力MHCA块与进行交互。在此设置中每个动作查询作为注意力查询 q而自我特征作为键 k 和值 v从而产生更新后的动作查询。然后我们将这些更新后的查询与自我特征连接形成动作分类头的特征表示并通过一个多层感知机MLP层随后使用 Softmax 函数生成动作预测。这一过程可以表示为其中 {, , } 分别表示预测的控制动作、转弯动作和车道动作。我们为每个动作查询使用独立的 MHCA 块以生成不同的动作标签。 3.3 Auxiliary Loss 我们定义了两个平行的辅助任务跟随规划模块之后以使模型能够从视觉语言模型VLM中提炼知识。整体训练损失定义为这两个辅助任务损失的加权和其中每个组成部分对应一个特定的辅助文本头为模型提供针对性的监督信号对于特征对齐任务我们使用交叉熵loss来对齐监督特征和输出特征确保模型能够学习到文本中传达的关键信息。对于动作分类任务我们同样使用交叉熵损失以确保动作分类的准确性。 4. 实验 4.1 设置 Baselines.我们提出的方法是一个通用框架兼容多种端到端自动驾驶方法。我们通过将其应用于两个广泛认可的开源方法——UniAD [18] 和 VAD [26]——来验证其有效性。此外我们还将我们的方法与 VLP [40] 进行比较VLP 通过 CLIP [45] 将自车的真值标签投影到文本特征空间中用于对比学习。 Dataset. 我们使用 nuScenes 数据集 [3] 进行开放环路规划评估。nuScenes 是一个大规模的自动驾驶数据集包含 1000 个场景每个场景持续约 20 秒标注频率为 2Hz。该数据集包含详细的标注是端到端自动驾驶研究中的热门基准。 Evaluation Protocol. 我们专注于规划任务并使用标准指标如 L2 位移误差和碰撞率来评估性能。 Implementation Details. 我们使用 UniAD [18] 和 VAD [26] 的官方代码并遵循其指定的超参数。对于我们的 VLM-AD 方法我们为每个辅助任务头定义了一个包含 8 个头和 3 层交叉注意力的多头交叉注意力MHCA模块并为每个问题和设置了 3 个文本查询。在训练过程中我们将温度参数设置为 0.1设置为 0.04以控制特征的锐度并将设置为 1 设置为 0.1以平衡和的权重。所有模型均在 8 块 NVIDIA H100 GPU 上使用 PyTorch 框架 [41] 进行训练。完整的实现细节、标注质量分析以及更多实验结果已在补充材料中提供。表 1. 我们提出的 VLM-AD 方法与基线的规划结果。最佳结果以粗体显示次佳结果以下划线显示。VLM-AD 一致优于基线其中以推理为重点的贡献了最显著的改进。 4.2 主要结果表 1 展示了将我们的 VLM-AD 方法应用于 UniAD 和 VAD 的结果并与 VLP 进行了比较。通过比较方法 ID 0 和 1我们使用作者提供的官方训练检查点得到了几乎相同的规划结果。对于方法 IDs 6 和 7以及 IDs 12 和 13我们发现在作者的复现结果与报告值之间存在一些差异我们认为这是由于官方代码库中图像配置的修正 [3] 所导致的。从表的第一部分可以看出通过引入和 VLM-AD 在平均 L2 规划误差和平均碰撞率方面显著优于 UniAD并且在两项指标上均优于最先进的基线 VLP。对于 VAD我们的 VLM-AD 一致优于 VAD-Base 和 VAD-Tiny尤其是在 L2 规划误差指标上并且在 VAD-Base 中的性能优于 VLP。这些结果证明了我们 VLM-AD 方法的有效性和优势。此外的表现优于验证了通过丰富的推理信息监督驾驶模型的价值。 4.3 消融研究子问题的贡献。我们进一步分析了中的每个子问题、和的贡献。每个子问题提供了与自车当前状态、预测的未来动作和推理相关的特定文本信息。表 2 展示了这些子问题的消融研究结果。结果表明每个子问题都对整体性能产生了积极影响证明了我们设计的问题为规划任务提供了有价值的信息。值得注意的是推理特征对降低 L2 规划误差的贡献最大突显了推理信息在提升驾驶性能中的重要性。特征对齐损失。我们还研究了特征对齐的其他选项包括使用 CLIP [45] 中的对比学习损失、均方误差MSE损失、KL 散度损失 [30] 或最大化负余弦相似度来对齐的三个特征。表 3 的结果表明MSE 损失在最小化特征之间的欧几里得距离时表现略优于 UniAD但会导致训练过程中信息丢失。CLIP 损失、KL 散度和余弦相似度均优于 UniAD但不如我们提出的对齐损失。这突显了使用不同温度对教师-学生特征的平滑度和锐度进行归一化的重要性。模型设计。我们研究了方法中的替代设计选项。首先我们在结构化动作分类头中用多层感知机MLP层代替 MHCA 块。其次我们研究了不同的语言模型如 T5 [46] 和 MPNet [50]除了 CLIP 之外还用于将的文本标注编码为监督标签。从表 4 可以看出使用 MLP 的方法在 L2 性能上略逊于 UniAD碰撞率则相同。此外T5 和 MPNet 的表现均优于 UniAD 基线但略逊于 CLIP。 Hyperparameter Study. 在多任务学习中平衡不同任务的损失是一个关键挑战。我们研究了在 UniAD 中和的超参数。表 5 的结果表明所有三种变体均优于 UniAD。在这些变体中当 0.1 且 1 时性能最差因为的标注包含的信息比的标注更有价值。图4. UniAD与我们方法的定性比较。黄色箭头突出显示了VLM-AD优于UniAD的区域。红色框表示UniAD的失败规划命令紫色框表示我们VLM-AD辅助文本头预测的三个动作输出。 4.4 可视化我们从 nuScenes 数据集中提供了四个可视化示例如图 4 所示以展示我们提出方法的有效性。在第一、第三和最后一行的案例中UniAD 生成的规划轨迹曲折且缺乏平滑性而我们的方法生成的轨迹能够准确地沿着道路行驶。此外在第二、第三和最后一行的案例中基线方法错误地建议了转弯意图而自车实际上是在直行。我们的动作文本头正确地输出了“直行”的控制动作不仅验证了 VLM 监督的有效性还为模型的决策提供了可解释性。 5. 结论在本工作中我们提出了 VLM-AD这是一种通过利用视觉语言模型VLMs作为辅助教师来增强端到端自动驾驶模型的新方法。通过针对 VLM 提出包含非结构化推理文本和结构化动作标签的问题我们将推理和动作监督信息整合到训练过程中。我们的方法在 nuScenes 数据集上显著提升了规划精度并降低了碰撞率同时通过动作预测为输出轨迹提供了可解释性。重要的是VLM-AD 在推理时不需要 VLM使其能够以即插即用的方式部署于实际应用中而不会增加额外的推理成本。 A. 实现细节当将我们提出的 VLM-AD 方法集成到 UniAD [18] 中时我们遵循 UniAD 定义的联合训练协议。在第一阶段我们使用 BEVFormer [34] 的权重初始化模型并训练感知和建图任务共 6 个epoch。在第二阶段我们冻结图像主干网络和鸟瞰图编码器BEV encoder并使用我们提出的 VLM-AD 方法进行端到端训练共 20 个epoch。模型使用初始学习率2 × 、学习率衰减因子 0.1并采用 AdamW 优化器 [37]权重衰减为 0.01 进行训练。当将 VLM-AD 方法集成到 VAD [26] 中时我们采用了与原始实现相同的超参数。模型使用 AdamW优化器 [37] 和余弦退火调度器 [38] 进行训练权重衰减为 0.01初始学习率为 2×。为了将自由形式的标注编码为文本特征我们使用预训练的 CLIP-ViT-B/32 [45] 模型其维度为 512。此外我们还尝试了其他文本编码器例如 T5-base [46] 和 MPNet-base [50]它们都将自由形式的标注编码为维度为 768 的文本特征如第 4.3 节所述。 B. VLM Annotation B.1. Visual Input 虽然我们在方法中使用了前视图像如图5所示作为视觉输入我们也尝试了其他替代方案包括使用覆盖自车周围360度全景的6张图像如图6所示以及使用连续的前视图像序列如图7所示。与使用全景图像作为输入相比我们的方法能够产生类似的标注结果同时显著降低了计算成本因为我们处理的输入图像更小。使用连续图像序列的第二种替代方案通常会导致错误的标注例如错误地识别当前动作状态以及未能检测到左转动作。这是因为VLM在理解自我中心视觉信号的时间动态方面存在挑战。此外使用连续图像会将标注时间增加约80%相比我们的方法。 B.2. Annotation Statistics 我们对nuScenes数据集的训练集进行了标注该数据集包含700个场景和28,130帧图像。按照第3节中描述的方法我们将自车的未来轨迹投影到前视图像上并将时间步长T设置为6。与UniAD [18]一致我们排除了缺乏足够输入数据的样本最终得到28,032个标注样本。对于使用的自由形式推理标注我们计算了每个子问题、和的响应文本长度。统计结果如表6所示其中推理标注Ar的平均响应长度最长因为该子问题专注于详细的推理信息。对于使用的结构化动作标注我们分析了三种类型动作的分布结果如图8、图9和图10所示。大约62%的帧被标注为“直行”89.4%为“无转弯动作”97.3%为“无变道动作”。值得注意的是没有帧被标注为“倒车”或“掉头”只有极少数帧被标注为“并入左车道”或“并入右车道”。这些统计结果表明nuScenes数据集在驾驶动作的多样性方面存在一定局限性。一个有趣的观察是VLM偶尔会输出不在我们预定义动作列表中的动作例如“轻微左转”、“轻微右转”、“稍微向左移动”和“稍微向右移动”。在我们的工作中我们将这些输出合并到预定义的独热类别中“轻微左转”合并到“左转”“轻微右转”合并到“右转”“稍微向左移动”合并到“向左变道”“稍微向右移动”合并到“向右变道”。这突显了使用结构化标注的优势因为它们可以通过将VLM的输出限制在预定义的类别中来减少幻觉hallucinations。 B.3. Annotation Quality 为了验证VLM生成的标注质量我们制作了一个包含50个随机样本的问卷进行评估。对于每个样本参与者被提供了自车的前视图像带有未来轨迹的投影以及相应的VLM标注和。然后我们要求参与者对每个响应进行打分。对于自由形式的推理标注我们设定了一个1到5分的评分标准如下所示 5分高度一致文本描述与图像完美匹配。图像的关键元素例如车辆状态、动作、推理被准确描述。文本清晰、简洁且完整没有不必要的细节或矛盾之处。 4分大多一致文本描述与图像大部分一致但存在少量不准确或遗漏之处。关键元素被描述但可能缺少一些次要细节。或者文本可能包含少量冗余或略微不相关的细节但不影响整体匹配。 3分部分一致文本描述与图像部分匹配但存在明显的不准确或缺失细节。图像的重要方面例如车辆速度、道路状况可能被低估或错误描述。可能存在一些冲突或模糊的陈述。 2分大多不一致文本描述与图像大部分不一致但包含少量相关信息。描述未能捕捉到图像的关键细节或包含明显的错误。文本中存在逻辑错误或矛盾。 1分完全不一致文本描述与图像完全不匹配。文本完全不相关或在重要方面与图像相矛盾。包含误导性信息严重影响可解释性。对于结构化动作标注我们要求参与者对每个动作标注进行“正确”或“错误”的判断。我们对5名参与者的评估结果进行了汇总如表7所示。评分结果验证了标注的整体质量。具体来说预测未来动作的标注 Af 得分最高而描述推理的标注 Ar 得分最低。此外对于动作标注所有三种动作类型的准确率均在90%以上其中车道动作的准确率最高达到96%。 B.4. Successful Annotation Examples 我们提供了三个示例来展示VLM标注的质量如图11、图12和图13所示。在图11中VLM准确识别了红灯并建议在路口停车。它还合理地预测了未来的动作并清晰地解释了决策背后的逻辑。在图12中前方有一辆白色货车但位于对面车道。VLM正确评估了这辆货车不会影响自车的行驶并输出了适当的驾驶动作。在图13中自车在雨天的路口停下。尽管能见度较低VLM仍然成功识别了红灯并根据交通灯的状态预测了未来的动作。 B.5. Imperfect Annotation Examples 我们也提供了三个标注失败的案例如图14、图15和图16所示。在图14中VLM准确识别了绿灯并根据推理标注预测了未来右转的动作。然而它错误地从动作标注中输出了左转动作。由于我们分别查询Q1和Q2因此Q1的响应不会影响Q2。一个可能的解决方案是引入额外的提示以建立一个逐步提问的过程从而获得更准确的动作标注。在图15中VLM输出“停车”或“慢行”作为自车的当前状态。尽管这些输出是合理的但它们与真实情况不一致因为投影的未来轨迹表明自车正在右转。另一方面动作标注成功预测了正确的未来动作。在图16中VLM错误地将行人交通灯误认为是交通灯并提供了错误的响应。总体而言尽管偶尔会出现错误但VLM能够生成有意义的标注揭示驾驶决策背后的逻辑这也验证了我们的实验结果。通过分别查询两个独立的标注问题我们的方法对VLM的错误具有一定的鲁棒性因为错误通常只出现在其中一个响应中如图14和图15所示。我们将获取更准确的VLM响应作为未来的工作以进一步提升端到端规划模型的性能。 C. Additional Qualitative Examples 我们提供了图4的增强版本通过一系列单独的图像展示图17、图18、图19和图20。每幅图像都包含了数据集中的全部6个摄像头的图像尽管我们的VLM标注流程仅关注前视图像如第3.1节所述。除了图4之外我们还额外提供了4个定性比较示例以展示我们提出的方法与UniAD之间的规划结果差异如图21、图22、图23和图24所示。在图21和图22中UniAD生成的规划轨迹曲折且缺乏平滑性未能保持在车道中心。相比之下我们的方法生成的轨迹明显更加平滑并且能够保持在车道边界内。同样在图23和图24中UniAD生成的命令是错误的因为自车实际上是在直行。然而我们的动作头成功预测了这些场景中的正确动作。这些定性示例突显了VLM-AD在复杂驾驶场景中生成更平滑、更准确的规划轨迹的能力同时提供了更强的可解释性。

查看全文

http://www.hkea.cn/news/14410858/