酷炫网站推荐,800元网站建设,合肥企业建站程序,wordpress 主题右边栏文章目录 0. 前言1. 多模态传感器的编码方式1.1 栅格化表示1.2 向量化表示 Vectornet1.3 基于点云或者多模态输入的预测1.4 基于Transformer的方法 2. 网络输出的表达形式2.1 多模态轨迹回归2.2 轨迹分类2.3 轨迹回归轨迹分类2.4 目标点预测 3.场景级别的预测和决策3.1 论文轨迹分类2.4 目标点预测 3.场景级别的预测和决策3.1 论文SCENE TRANSFORMER: A UNIFIED ARCHITECTURE FOR PREDICTING MULTIPLE AGENT TRAJECTORIES3.2 论文PiP: Planning-informed Trajectory Prediction for Autonomous Driving 4.长时预测4.1 论文 KEMP: Keyframe-Based Hierarchical End-to-End Deep Model for Long- Term Trajectory Prediction4.2 论文 LOKI: Long Term and Key Intentions for Trajectory Prediction 5.预测的评价指标6.参考 0. 前言 本文主要记录课程《自动驾驶预测与决策技术》的学习过程难免会有很多纰漏感谢指正。 课程链接https://www.shenlanxueyuan.com/my/course/700 相关笔记链接 Part1_自动驾驶决策规划简介 Part2_基于模型的预测方法 Part3_路径与轨迹规划 Part4_时空联合规划 Part5_决策过程 Part6_不确定性感知的决策过程 该章节主要以论文讲解为主未仔细阅读论文原文仅借助PPT与ChatGpt进行资料整理与记录对应的论文链接均已附上链接。 1. 多模态传感器的编码方式 1.1 栅格化表示
多模态轨迹预测
参考文献 Multimodal Trajectory Predictions for Autonomous Driving using Deep Convolutional Networks
在自动驾驶中准确预测其他道路使用者例如车辆、行人的未来运动轨迹是确保安全的关键。然而真实世界中的交通环境复杂多变同一个场景下可能有多个合理的未来轨迹例如车辆可能转向、加速或减速这导致预测变得困难。由于存在多种可能的未来轨迹该问题被称为“多模态”轨迹预测问题。传统的预测方法通常会输出一个单一的预测结果而忽略了其他潜在的合理轨迹。为了应对这种多样性论文提出了一种基于深度卷积神经网络的多模态轨迹预测方法。文中介绍了一种利用卷积神经网络的方法来学习场景信息和运动特征从而预测多个可能的未来轨迹。模型通过分析输入的时空数据例如过去的轨迹、地图信息等生成多个合理的轨迹分布。这种方法允许模型根据不同的上下文生成不同的未来轨迹预测。 不同模式选择方法对路径预测的影响特别是在车辆通过交叉路口时。
绿色轨迹代表实际的车辆行驶路径即地面真实轨迹ground truth。蓝色轨迹表示预测的几种可能模式modes每条蓝色线代表一种不同的预测轨迹。红色虚线大概是表示某种特定评估准则如预测轨迹与实际路径的差距。
该图强调了两种不同的路径选择标准 使用位移displacement进行模式选择当采用位移差距作为准则时预测模型选择了右转的蓝色轨迹这与绿色的真实路径不完全匹配。 使用角度angle进行模式选择而当使用角度差异作为选择标准时预测模型选择了直行的蓝色轨迹这与绿色真实路径更接近。
总结该图说明不同的模式选择方法会影响自动驾驶系统的路径预测结果。通过位移选择时可能会优先选择离当前位移最近的路径右转但可能会偏离实际路径而通过角度选择时可能更符合车辆行驶方向选择直行。这表明在不同情境下评估路径预测的标准需要根据具体需求进行调整。 1.2 向量化表示 Vectornet
参考文献Vectornet: Encoding hd maps and agent dynamics from vectorized representation
其他参考链接 论文笔记之VectorNet 地图和轨迹表示 Input Vectors 输入向量包括交通环境中的不同元素 道路元素如车道线、斑马线被向量化每个向量可能表示几何特征如位置、方向等。交通参与者Agents例如车辆或行人它们的历史运动轨迹也被向量化作为模型输入的一部分。 每个元素如车道线、代理轨迹被分解为一系列的点这些点通过向量序列来描述其几何形状和运动状态。 折线子图Polyline Subgraphs 每条折线如车道、agent轨迹会被分割为子图称为折线子图Polyline Subgraphs每个子图内部的点通过局部图神经网络进行处理。 每个折线子图都会提取折线级别的特征这有助于捕捉局部结构信息如车道的走向或代理的运动模式。 每条折线经过局部特征提取后会生成与之对应的特征向量代表该折线的几何和运动信息。 全局图的高阶交互Global Interaction Graph
这些局部折线的特征被传递到一个全局交互图中Global Interaction Graph用于建模高阶交互。这个图是一个全连接的图将所有的折线特征节点互相连接帮助模型捕捉更高层次的场景交互信息。在自动驾驶场景中不同的道路结构和交通代理之间有复杂的相互作用。通过全局交互图VectorNet可以理解这些元素之间的相互影响。例如车辆的轨迹可能受到周围车道结构的影响反之亦然。 监督和预测Supervision Prediction 通过全局图神经网络处理后的特征用于两个任务 地图补全Map Completion模型可以在部分地图信息缺失的情况下通过推断来完成场景中的地图信息。轨迹预测Trajectory Prediction基于代理特征模型可以预测未来的运动轨迹。 监督信号包括两个主要部分一是对动态障碍物未来轨迹的预测二是对遮挡的节点特征进行预测即在某些特征被掩盖的情况下推测这些缺失的信息。 1.3 基于点云或者多模态输入的预测 参考文献 PnPNet: End-to-End Perception and Prediction With Tracking in the Loop
在自动驾驶场景中感知物体检测、跟踪目标跟踪、以及预测未来轨迹预测通常是通过不同的模块依次完成的。然而这种分离的处理流程会带来时间延迟、数据不一致以及在多模态场景下相互间信息传递的不足。为了应对这些挑战本文提出了PnPNet一种端到端的方法将感知、跟踪和预测集成在一个网络中使得三者之间能够互相反馈和协同优化。PnPNet通过一个包含循环跟踪模块的架构在实现高效感知的同时提升了目标跟踪的鲁棒性并改善了预测的精度。实验结果表明该方法在多个自动驾驶数据集上达到了较强的性能。 1.4 基于Transformer的方法 参考文献 Wayformer: Motion Forecasting via Simple Efficient Attention Networks
其他参考链接
【轨迹预测系列】【笔记】Wayformer: Motion Forecasting via Simple Efficient Attention NetworksWayformer: 一个实现运动预测简单有效的注意网络 2. 网络输出的表达形式
2.1 多模态轨迹回归 2.2 轨迹分类 2.3 轨迹回归轨迹分类
参考文献: MultiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for Behavior Prediction
2.4 目标点预测 参考文献: MultiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for Behavior Prediction 3.场景级别的预测和决策
3.1 论文SCENE TRANSFORMER: A UNIFIED ARCHITECTURE FOR PREDICTING MULTIPLE AGENT TRAJECTORIES SCENE TRANSFORMER: A UNIFIED ARCHITECTURE FOR PREDICTING MULTIPLE AGENT TRAJECTORIES githttps://github.com/Chen-Albert-FENG/SceneTransformer 相关材料链接 https://zhuanlan.zhihu.com/p/493484568 https://zhuanlan.zhihu.com/p/716420978 主要工作 边际预测的局限性 独立预测的局限性在边际预测中车辆轨迹被独立预测导致各个车辆的行为之间没有考虑互动关系容易导致轨迹之间的冲突。 场景级联合预测的必要性 解决互动问题联合预测方法能够同时考虑多辆车的轨迹和行为将它们作为一个整体场景进行建模从而更好地捕捉交通参与者之间的动态关系。这种方式可以有效避免轨迹冲突并反映交通参与者之间的互动。 3.2 论文PiP: Planning-informed Trajectory Prediction for Autonomous Driving 论文链接PiP: Planning-informed Trajectory Prediction for Autonomous Driving
相关资料链接https://zhuanlan.zhihu.com/p/704238650 Planning-Informed Trajectory Prediction (PiP) 简介
1. 背景和传统方法的局限性
传统方法Traditional Pipeline 分离的预测与规划预测模块和规划模块分离运行。首先预测模块生成其他交通参与者的轨迹预测然后规划模块基于这些预测输出最佳自车轨迹。问题 缺乏互动预测的轨迹通常不考虑自车的行为从而无法很好地捕捉复杂场景中多主体的动态交互。信息割裂预测输出只是静态提供不能动态适应规划模块的需求。
2. Planning-Informed Prediction (PiP) 的核心思想 方法简介 PiP 方法将预测与规划过程紧密结合实现预测与自车规划的交互式优化。具体特点如下 自车的规划轨迹Ego Plan会反过来影响预测模块帮助预测其他交通参与者可能的轨迹。联合评估所有可能轨迹结合动态交互关系找到最优解决方案。 实现方式 反馈机制自车规划生成的候选轨迹输入到预测模块预测模块基于这些轨迹调整对其他交通参与者行为的预测。联合优化预测模块输出多模态轨迹带概率规划模块评估这些轨迹与自车轨迹的整体成本选择最优解。
3. 关键模块分析 Trajectory Generator轨迹生成器 生成自车的候选轨迹考虑速度、加速度、安全性等因素。自车轨迹直接影响预测模块帮助生成更贴近实际的交通场景。 Prediction预测模块 输出其他交通参与者的多模态轨迹结合自车规划轨迹生成更合理的预测。不同于传统方法预测结果会动态适应自车的行为。 Evaluator评估模块 综合考虑所有参与者轨迹和多种成本函数如速度、加速度、碰撞风险等选择最优的自车轨迹。
4. 优势
预测和规划的深度耦合通过引入自车规划轨迹预测模块能更准确地捕捉交通参与者与自车的互动关系。提高决策的安全性与效率PiP 方法生成的轨迹更贴合实际交通场景避免因预测与规划割裂而导致的潜在冲突。鲁棒性增强联合评估的方式显著提升了系统对复杂动态场景的适应能力。 4.长时预测
长时预测难点
环境具有动态性、随机性、交互性、观测帧数量有限轨迹可能在固定的起始点和目标点之间显著变化输出一条轨迹or输出所有可能的轨迹
4.1 论文 KEMP: Keyframe-Based Hierarchical End-to-End Deep Model for Long- Term Trajectory Prediction 论文链接 KEMP: Keyframe-Based Hierarchical End-to-End Deep Model for Long- Term Trajectory Prediction 主要工作
KEMPKeyframe-Based Model是一种针对长时交通参与者轨迹预测的问题设计的层次化深度学习模型旨在捕捉长时间跨度的关键帧信息并有效结合全局与局部动态进行轨迹推断。 1. 方法核心思想
关键帧预测 通过识别交通参与者轨迹的关键帧Keyframes将长时轨迹划分为若干关键点之间的子轨迹降低复杂性并提高预测效率。层次化结构 模型通过多层次预测流程从全局到局部结合多上下文信息逐步生成完整的长时轨迹。端到端设计 KEMP 模型以端到端的方式建模输入道路、交通参与者等到输出预测轨迹的映射减少人工设计的特征工程。 2. 模块结构与功能
(1) Feature Encoders特征编码器
处理 道路拓扑Roadgraph Polylines、交通参与者状态Agent States和交互信息Agent Interactions将它们编码成高维特征表示。利用多上下文加权编码器Multi-Context Gating Encoders来结合多模态信息增强对场景动态的理解。
(2) Keyframe Predictor关键帧预测器
预测轨迹的关键点位置如转弯、加速或减速的关键节点。关键帧的选择能够有效压缩轨迹预测问题的时间复杂度确保全局合理性。
(3) Whole Trajectory Predictor全轨迹预测器
在关键帧的基础上进行全局轨迹拟合补全从起点到终点的连续轨迹。通过结合全局信息如道路限制、动态交互保证轨迹的整体一致性。
(4) Predictor局部轨迹预测器
局部化生成关键帧之间的具体轨迹捕捉短时间内的细粒度动态变化。利用反馈信号Control Signal对生成的轨迹进行微调使其更贴合场景实际。 3. 模型特点与优势 (1) 面向长时预测
KEMP 模型通过分解长时轨迹为关键帧避免了传统方法在长时预测中面临的累积误差问题。对长时轨迹的全局规划能力增强同时能够保留局部的动态精确性。
(2) 层次化的预测结构
自顶向下的预测流程从全局关键帧到局部轨迹确保了预测结果既符合场景约束又兼具动态交互的合理性。
(3) 多模态信息融合
模型充分利用道路几何信息、交通参与者动态和交互关系实现对复杂交通场景的全面理解。
(4) 端到端的高效性
相较于传统分离式方法KEMP 的端到端设计减少了模块之间的误差传播问题同时提升了训练和推理的效率。 4.2 论文 LOKI: Long Term and Key Intentions for Trajectory Prediction 论文链接LOKI: Long Term and Key Intentions for Trajectory Prediction 论文主要工作
LOKI 是一种专注于长时预测的轨迹推断方法核心思想是通过捕捉长期目标Long-term Goal和关键意图Key Intentions结合场景上下文和动态交互关系为交通参与者生成合理的未来轨迹。 LOKI 通过回答以下关键问题来应对这些挑战 “Where to predict?”预测点在哪里如最终目标位置。“How does self-motion influence prediction?”如何结合主体自身的运动状态估计长期目标。“What are the interactions?”如何建模参与者之间的交互。“How does the environment affect prediction?”环境对轨迹的影响如何融入建模。 LOKI 的方法结构可以分为以下几个关键模块
(1) Observation Encoder观测编码器
输入交通参与者的动态信息如轨迹历史、状态以及场景上下文如地图、障碍物位置。将这些信息嵌入到高维特征空间为后续模块提供输入。
(2) Long-term Goal Proposal长期目标生成
包括一个编码器-解码器结构Encoder-Decoder负责估计交通参与者的长期目标 ( G )。 Encoder提取历史轨迹和状态信息。Decoder结合环境和交互关系生成可能的长期目标。
(3) Scene Graph and Intention Prediction场景图和意图预测
构建场景图Scene Graph捕捉不同交通参与者如车辆、行人之间的交互。推断不同参与者的关键意图 车辆意图如转弯、加速、停车。行人意图如等待、穿越。
(4) Trajectory Decoder轨迹解码器
根据长期目标 ( G ) 和关键意图 ( I P ) ( I^P ) (IP)生成完整的未来轨迹。解码过程结合全局环境信息和局部动态约束确保预测轨迹的合理性。 5.预测的评价指标 6.参考
《自动驾驶预测与决策技术》Part1_自动驾驶决策规划简介Part2_基于模型的预测方法Part3_路径与轨迹规划Part4_时空联合规划Part5_决策过程Part6_不确定性感知的决策过程
参考文献 Multimodal Trajectory Predictions for Autonomous Driving using Deep Convolutional Networks Vectornet: Encoding hd maps and agent dynamics from vectorized representation PnPNet: End-to-End Perception and Prediction With Tracking in the Loop Wayformer: Motion Forecasting via Simple Efficient Attention Networks MultiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for Behavior Prediction TNT: Target-driveN Trajectory Prediction https://arxiv.org/pdf/2008.08294 SCENE TRANSFORMER: A UNIFIED ARCHITECTURE FOR PREDICTING MULTIPLE AGENT TRAJECTORIES PiP: Planning-informed Trajectory Prediction for Autonomous Driving KEMP: Keyframe-Based Hierarchical End-to-End Deep Model for Long- Term Trajectory Prediction LOKI: Long Term and Key Intentions for Trajectory Prediction
【轨迹预测系列】【笔记】Wayformer: Motion Forecasting via Simple Efficient Attention NetworksWayformer: 一个实现运动预测简单有效的注意网络