当前位置：首页 > news >正文

个人网站域名快速备案百度搜索网站介绍

news 2026/4/17 13:14:19

个人网站域名快速备案,百度搜索网站介绍,爬取漫画数据做网站,西安软件开发培训机构导读本文将主要介绍BEVTransformer端到端感知与建模技术在高德各项业务中的应用#xff0c;如高精地图中地面要素#xff08;包含线要素和地面标识#xff09;自动化上的具体方案及其演化过程。该方案使用BEVTransformer技术来实现采集车上不同传感器#xff08;包含激光和… 导读本文将主要介绍BEVTransformer端到端感知与建模技术在高德各项业务中的应用如高精地图中地面要素包含线要素和地面标识自动化上的具体方案及其演化过程。该方案使用BEVTransformer技术来实现采集车上不同传感器包含激光和相机所得数据在空间和时间层面上信息的融合以及对采集道路上各地面要素的感知与建模。这些技术手段很好地服务于地图中地面要素的产线需求为高德地图提高地图制作效率降低制作成本提供了坚实的技术保证。一、业务分析本文将以高精地图为例分析其核心应用及其存在的挑战。高精地图作为自动驾驶技术发展的重要支撑和基础可以提高自动驾驶车辆的感知能力、决策能力和控制能力从而提升自动驾驶的安全性、可靠性和舒适性。目前高精地图中的地面要素主要包含线要素和地面标识两个大类其中线要素包含车道线和道路边界而地面标识则包含道路上的各类交通标识如引导线斑马线等。对于自动驾驶而言线要素和地面标识均可用于自动驾驶车辆的定位而线要素同时也可用于自动驾驶车辆的路径规划。在高精地图各地面要素的制作过程中主要面临两大挑战更高的位置精度要求和地面要素本身的识别难点。下面本文将针对这两个挑战分别展开叙述。首先是高精地图自身所带来的位置精度挑战。近年来随着自动驾驶技术从L2往L4方向的推进对其安全性和可靠性的诉求也逐渐升高。高精地图作为自动驾驶中重要的一环自动驾驶厂商对高精地图中各要素的位置精度均提出了极高的标准各地面要素的精度都至少有着厘米级的要求。这种更高的位置精度要求是高精地图相较于普通地图最大的区别同时也使得其制作过程有着更大的困难和挑战。为了应对这一挑战高精采集车配备了多种传感器其中激光传感器用于采集道路上的点云数据相机传感器用于采集道路上的图像数据。下图展示了Nuscenes数据集采集车设备安装方式以供参考并非高精车设备实际安装方式其次是高精地图中地面要素本身的识别难点。正如上文所述地面要素包含线要素和地面标识它们自身种类繁多且在内容形状和尺寸上均存在较大差异这为感知模型得到全而准的结果带来了识别难度。此外采集所得数据中包含的地面要素往往存在较多磨损和遮挡的情形主要原因有两个一个是地面要素因长年未修本身存在磨损另一个是采集过程中由于遮挡环境改变等因素会导致激光的反射率存在差异或可见光不清晰等情形进而导致采集得到的点云数据和图像数据的质量参差不齐。下图分别展示了激光采集过程中点云磨损的情形以及相机在隧道里采集时图像不清晰的情形此外不同于地面标识在局部区域内独立存在线要素在跨局部区域之间还存在关联关系高精地图需要构建线要素的全局拓扑并对线要素属性变化以及几何变化处进行打断如下图所示。因此如何保证线要素在跨局部区域之间的平滑性并获取线要素精确的属性变化位置是更好的构建全局拓扑的重要一环。为了应对这些挑战本文引入BEVTransformer技术来融合多传感器的数据并实现采集道路上各地面要素更鲁棒的感知和建模具体细节将在下文给出。二、BEVTransformer技术概述高精地图中地面要素的制作需要准确的感知和建模采集车采集区域的道路信息和布局以及完整的车道结构在人工作业的过程中通常会在一种自上而下视图鸟瞰图BEV上完成因为高度信息不太重要。因此对地面要素的感知和建模天然适合在BEV空间下进行也能更好的保证所得感知结果的精度。本文将介绍一套基于BEV的地面要素感知方案通过视角转换将图像数据和点云数据投影进一个统一的BEV空间内完成对多传感器数据信息的融合和特征的提取并得到高精度的地面要素感知结果。下图展示了将点云数据和图像数据投影进BEV空间后的效果图本文涉及的第二个主要技术叫做Transformer技术它是一种基于注意力机制Attention的神经网络模型通过Query向量与Key向量和Value向量的交互融合来挖掘不同特征间的联系及相关性。 Transformer技术问世后先在自然语言处理领域大放异彩之后又被逐步移植到计算机视觉任务上也取得了惊人的效果在目前的大模型时代逐渐实现了NLP和CV在建模结构上的大一统。在本文中Transformer技术将被用于视角转换特征融合和实例感知等多项任务帮助构建一套统一的地面要素感知模型。三、技术方案构建及演化本文构建的地面要素感知建模技术方案主要包含三个模块局部地面要素感知模块全局线拓扑建模模块和线要素属性变化点模块。局部地面要素感知模块用于得到线要素和地面标识的局部感知结果其中线要素将进入下游的全局线拓扑建模模块和线要素属性变化点模块得到最终的全局拓扑结果。局部地面要素感知模块为了通过采集车采集得到的点云数据和图像数据生成全而准的地面要素矢量结果本文构建了一套基于BEVTransformer的点图融合地面要素感知模型其整体技术框架及其演化主要包含三部分面向单传感器的地面要素感知模型GroundElement2Former 基于Transformer实现图像数据中PV2BEV空间转换基于Transformer实现对线要素和地面obj的实例分割再通过后处理等方式获取对应的矢量点和bbox面向多传感器融合时序融合的感知模型Fusion-GroundElement2Former 基于Transformer实现点云栅格图和图像信息的融合对于虚拟轨迹生成的虚拟区间基于Transformer实现该区域多源时空信息融合面向线要素跨帧平滑性的感知模型Fusion-SmoothGroundElement2Former 基于跨区域重叠区间感知一致性约束提升线要素在跨区域上感知结果的平滑性 1. GroundElement2Former 面向单传感器的地面要素感知模型主要针对单点云数据或单图像数据进行处理来获取其中包含的地面要素矢量结果。具体流程如下1. 对点云数据或图像数据进行空间转换和特征提取来获取其在BEV空间下的特征2. BEV特征再通过下游的分割模型获取实例分割结果3. 通过后处理方式将实例分割结果转化为矢量结果。首先是空间转换和特征提取模块。单点云数据通过2D/正交投影得到点云栅格图来作为其在BEV空间内的表现形式将点云栅格图作为模型的输入来得到BEV空间下的特征向量。单图像数据则通过IPM投影完成从透视空间PV空间到BEV空间的转换并将转换后的数据作为模型的输入来得到BEV空间下的特征向量。然而不同于点云数据图像数据在IPM投影的过程中需要使用几何先验地面平坦假设即假设当前路面是平坦的没有高度变化但在现实世界里这一条件往往很难满足。因此GroundElement2Former模型中的PV2BEV模块使用Transformer技术和通过点云得到的地面高度值来弥补IPM投影过程中的这一问题实现图像数据往BEV空间的精准映射。具体如下设置BEV Queries作为Query向量通过Deformable Attention机制交互融合PV特征从而得到BEV特征。在进行Deformable Attention的过程中首先通过点云得到的地面高度值来作为更精准的初始地面高度值其次学习初始地面高度值往真实地面高度值的偏移量来完成更精准的IPM投影。最后本文还使用了InternImage大模型和Adapter技术来提取表征能力更强更鲁棒的BEV特征。其次是实例分割模块。在得到BEV特征后本文使用Mask2Former结构来进行实例分割通过instance queries在BEV特征上交互融合来提取各地面要素实例信息具体结构如下所示其中Mask2Former中提出的Masked Attention机制可以很好的缓解Cross Attention上存在的搜索空间大收敛慢的问题帮助GroundElement2Former模型更好的分割出各地面要素实例。最后是后处理模块。对于线要素高精地图一般采用NDS格式存储即将线要素保存成矢量点形式。因此本文使用骨架提取算法将得到的线要素实例分割结果骨架化为矢量点。对于地面标识高精地图一般采用OBB格式存储即将地面标识保存为包含地面标识的最小矩形框所对应的矢量点。因此本文在使用cv2.minAreaRect获取实例分割对应的最小外接矩形后通过cv2.boxPoints获取该矩形的四个顶点坐标作为存储的矢量点。下图从左到右分别展示了模型得到的实例分割结果和经过后处理后得到的矢量点结果本文提出的GroundElement2Former模型虽然可以有效的获取单传感器所得数据中的地面要素矢量但正如上文所述单传感器采集数据中由于环境因素存在质量参差不齐的现象。而当前模型缺乏将多传感器信息融合的能力这就导致模型的感知性能极度依赖单一传感器所采数据的质量。 2. Fusion-GroundElement2Former 为了缓解由于环境因素导致的单一传感器失灵的现象本文将GroundElement2Former升级为面向多传感器融合时序融合的感知模型Fusion-GroundElement2Former。通过融合多传感器所得数据和多帧数据中包含的信息来保证模型可以更稳定的感知出地面要素结果。相比于GroundElement2Former,Fusion-GroundElement2Former新增了两个模块Cross-Sensor Fusion和Offline Temporal Fusion其中Cross-Sensor Fusion模块通过Deformable Attention机制来对齐和融合多传感器信息Offline Temporal Fusion模块则通过仿射变换来实现多帧信息的融合。对于Cross-Sensor Fusion模块多传感器所得数据投影到BEV空间上后可能存在不对齐现象因此本文类比PV2BEV模块为点云数据和图像数据设置一个统一的BEV Queries 通过Deformable Attention机制交互融合图像特征和点云特征从而得到BEV特征并使用Deformable Attention中学习offset的机制来实现两种数据的对齐。对于Offline Temporal Fusion模块融合当前帧的前后帧信息可以有效地缓解因遮挡场景导致的模型感知不稳定的问题。不同于继承式的时序融合方式本文使用仿射变换和特征拼接策略来作为时序融合的方式具体方法是对于当前时刻的BEV特征对于其周围时刻的BEV特征先根据时刻到时刻的仿射变换矩阵来将其对齐进当前时刻上得到然后把对齐后到多帧BEV特征和当前时刻的BEV特征在channel维度上进行拼接来作为时序融合后的BEV特征。这种时序融合方式不仅可以融合更久远的信息防止遗忘也可以为离线高精建图解除无法利用未来帧信息的限制。通过上述新增的两个模块Fusion-GroundElement2Former可以更好的应对单传感器单帧数据质量差的场景得到更全更稳定的地面要素感知结果。 3. Fusion-SmoothGroundElement2Former 造成线要素全局关联不平滑的一个主要原因是线要素在局部区域的感知结果存在不稳定现象对于某些磨损车道线可能存在上一帧给出感知结果但当前帧又丢失其感知结果的情形。为了得到更稳定的线要素感知结果在关联局部区域的线要素后可以得到更平滑且准确的线要素全局拓扑。本文在最后介绍一种时序感知一致性约束将Fusion-GroundElement2Former进一步升级为Fusion-SmoothGroundElement2Former来提升线要素跨局部区域的平滑性保障全局拓扑的顺利构建。本文将线要素的全局拓扑构建视为一个一阶马尔可夫链的过程第帧的感知结果需要依赖于帧的感知结果从而保证两帧之间感知结果的一致性。因此本文设计将上一帧的感知结果投影到当前BEV空间内并编码为Mask Prompt 与当前帧的BEV特征融合进入下游的Mask2Former分割模型中获取当前帧感知结果通过这一约束来减少线要素在上一帧被感知出来但当前帧丢失的情形。并通过上一帧线要素的感知结果约束当前帧线要素的感知保证线要素在跨帧时的平滑性防止其出现剧烈跳变。全局线拓扑建模模块为了构建线要素全局拓扑结果本文构建了一套基于Attn-GNN的线要素关联模块和基于Diffusion Model的线要素平滑模块其中线要素关联模块用于构建跨帧线要素之间的关联关系构建完关联关系后通过线要素平滑模块提升关联合并后线要素的平滑性。下面做详细介绍。 1. 基于Attn-GNN的线要素关联模块为了构建不同帧之间线要素的关联关系本文将其视为了一个图匹配任务使用图(Graph)结构对单帧线要素集合进行描述其中每个线要素被编码为一个节点。因此线要素跨帧匹配可以被建模为输入两个Graph输出节点间的匹配关系。具体来说对于上游Fusion-SmoothGroundElement2Former产生的线要素几何实例Queries和矢量结果。本文先对矢量信息进行编码并和几何实例Queries特征连接作为节点的特征向量并通过Graph内部的Self Attention以及互相之间的Cross Attention获取各节点交互后的特征。其中Self Attention的目的是使得网络能够对同帧之间的矢量进行更好的区分一个典型的场景是路面上包含密集的车道线各自车道线位置差异较小很容易造成匹配错误Self Attention可以使模型编码出更具区分性的节点特征。Cross Attention的作用则是在将不同帧的线要素的特征进行交互使关联的线要素特征具有更高的相似度。最后通过Skinhorn算法构建线要素之间的匹配关系。具体效果如下图所示 2. 基于Diffusion Model的线要素平滑模块完成上一步的局部线要素矢量匹配后下一步需要将不同帧的矢量结果进行连接形成最终的线拓扑常规的按照规则的连接方式在复杂场景难以起效比如当局部感知存在偏差时连接后的线拓扑会存在不平滑问题等如下图所示因此线要素平滑模块主要侧重于对连接后的线拓扑结果进行优化本文使用PolyDiffuse算法针对潜在的错误场景进行重生成以解决感知和连接阶段造成的歧义和逻辑问题。其核心思想为利用带监督的diffusion生成能力结合语义特征对前序输出进行二次生成操作解决复杂场景矢量逻辑问题。具体来说在diffuse阶段扩散网络的加噪和降噪过程中充满不确定性但HD矢量具备唯一性约束。为了达成这一约束首先需要基于输入的矢量训练一个指导网络以使得其具备唯一表示且可以和其他矢量区分开因此在指导网络中会将每个矢量作为一个独立高斯分布来作为目标分布进行学习。在reverse阶段每个矢量会初始化为指导网络学习出的高斯分布且结合该区域的语义特征进行降噪来重建得到优化后的结果。对于线要素拓扑的矫正效果如下所示线要素属性变化点模块最后为了获取线要素属性变化点的精准类别和位置本文也构建了一套基于线要素局部感知和Deformable Attention的属性变化点检测模型。下面对该方案做简要介绍对于上游Fusion-SmoothGroundElement2Former产生的线要素几何实例Queries使用全连接网络将每个几何实例Query拆分成多个属性变化点Queries来预测对应线要素的属性变化点。通过这种方式可以构建属性变化点和线几何之间的对应关系完成变化点与线之间的绑线操作。具体来说将这些属性变化点Queries经过Deformable Attention来融合BEV特征从而获取变化点坐标偏移量(每一层decoder layer迭代更新变化点坐标)和变化点上下类别。得益于变化点位置的迭代过程端到端属性变化点回归方案可以实现20cm精度的属性变化点位置识别。四、效果分析与结论局部地面要素感知效果分析本文给出简单场景和复杂场景两类情形下Fusion-SmoothGroundElement2Former的感知结果来展示其拥有准确且鲁棒的感知能力在简单场景下采集得到的点云数据和图像数据均比较清晰且道路上遮挡物较少感知模型对于地面各要素的识别难度较低Fusion-SmoothGroundElement2Former给出了全而准的感知结果。在复杂场景下采集得到的点云数据存在磨损现象且图像数据中存在大量被车辆遮挡的情况感知模型对于地面各要素的识别难度较高但Fusion-SmoothGroundElement2Former在结合了多传感器的信息后仍能给出全而准的感知结果。全局线拓扑建模效果分析其次本文也给出了局部线要素在经过下游全局线要素拓扑建模模块后得到的全局拓扑结果来展示本文提出的完整框架的建模能力具体如下图所示可以发现在接入线要素关联和排重模块后可以得到一个平滑且完整的全局线要素拓扑结果。此外本文也测试了单图像源的全局建模结果如下图所示受限于相机的拍摄范围部分道路在相机上不可见但即使在只使用纯图像信息的情况下本文提出的框架也可以构建一个较为平滑且部分完整的拓扑结构。多传感器融合定位效果分析最后本文也将Fusion-SmoothGroundElement2Former模型拓展进定位场景中下图展示了本文提出的BEV感知方案在定位场景下的效果可以发现Fusion-SmoothGroundElement2Former也可以很好的服务于城市道路场景的定位相关的需求在横向0.2m纵向1m的要求下可以达到99%的定位准确率证明了其拥有着广泛的应用场景。五、展望目前这整套BEV地面要素感知模型不仅服务于高精地图的地面要素自动化上还服务于多传感器融合定位等项目结合目前已知的应用场景现在的方案仍会遇到很多挑战因此需要对现有方案进行能力扩展以应对这些未来的新挑战。具体来说地图业务会涉及道路上的各类事项其包含的道路任务十分多样涉及的道路要素品类繁多且几乎不可遍历。随着业务场景的不断拓宽势必需要不断对新的道路品类构建感知能力且需要提供除感知外的其他能力如定位建图等。未来将会把Fusion-SmoothGroundElement2Former框架逐步扩展成面向通用道路场景的Uni-Road-Perceiver大模型Uni-Road-Perceiver从业务诉求出发通过感知大模型构建数据闭环并系统解决道路场景下所有感知问题以及为下游各项任务包括且不限于定位建图提供感知能力的支撑。推荐阅读视觉BEV基本原理和方案解析对业务测试人员的一些思考高德Go生态建设和研发实践重新认识架构—不只是软件设计基于车道级数据的导航场景构建与还原仿真关注「高德技术」了解更多

查看全文

http://www.hkea.cn/news/14301564/