当前位置：首页 > news >正文

门户网站布局dw做好的网页如何发布

news 2026/5/1 16:39:14

门户网站布局,dw做好的网页如何发布,wordpress站内链接跳转,宁德市有几个区几个县我自己的原文哦~ https://blog.51cto.com/whaosoft/11466109 #HTCL 超过所有视觉方案#xff01;HTCL#xff1a;分层时间上下文问鼎OCC 本文是对ECCV2024接受的文章 HTCL: 的介绍#xff0c;HTCL在SemanticKITTI基准测试中超过了所有基于相机的方法#xff0c;甚至在和…我自己的原文哦~ https://blog.51cto.com/whaosoft/11466109 #HTCL 超过所有视觉方案HTCL分层时间上下文问鼎OCC 本文是对ECCV2024接受的文章 HTCL: 的介绍HTCL在SemanticKITTI基准测试中超过了所有基于相机的方法甚至在和OpenOccupancy基准测试中超过了LiDAR实现了最先进的性能。代码已开源欢迎大家试用和Star~ 代码链接https://github.com/Arlo0o/HTCL 论文链接https://arxiv.org/abs/2407.02077 Demo video 展示我们对比了同样采用时序双目图像输入的VoxFormer-T并用更少的输入帧数3 vs. 4取得了更好的预测效果在场景整体布局、相机视野外区域、远距离动态物体等的预测中表现出明显优势。 Motivation 基于相机的三维语义场景补全SSC对于从有限的二维图像观测中预测复杂的三维场景信息至关重要。现有的主流解决方案通过对历史帧信息的粗略堆叠来试图补充当前视角下的不完整观测这种简单的时序建模方式不可避免地减少了有效的视觉线索增加了模型学习难度。为了解决上述问题我们提出了HTCL一种新颖的分层时序上下文学习范式用于改进基于相机的语义场景补全。HTCL将时序上下文学习分解为两个层次步骤(a)跨帧亲和度测量(b)基于亲和度的动态细化。首先为了从冗余信息中分离关键相关上下文我们提出了尺度感知隔离策略用于构建多个独立的学习模块进而建模细粒度上下文对应关系。随后为了动态补偿不完整的观测结果我们基于识别出的具有高亲和度特征的空间位置及其邻近的相关区域自适应地细化特征采样位置。 Method 我们提出的分层时序上下文学习HTCL范式可以有效改进时序特征聚合的可靠性从而实现精确的三维语义场景补全。HTCL从不同时间帧的RGB图像中分层地推断三维语义Occupancy以实现细粒度的场景理解。如下图所示我们提出的分层时时序下文建模包括两个顺序步骤(1)显式地测量当前帧和历史帧之间的上下文特征亲和力提取最相关的高亲和度特征(2)基于高亲和力特征的空间位置及其附近的相关上下文自适应地细化采样位置以动态补偿不完整的观测。HTCL在创新性方面主要做出了以下贡献提出了一种时序上下文学习范式以用于动态和可靠的三维语义场景补全。提出了一种具有尺度感知隔离和多个独立学习模块的亲和度测量策略用于细粒度的上下文对应关系建模。提出了一个基于亲和度的动态细化方案以重新分配时序上下文信息并自适应地补偿不完整的观测结果。HTCL在SemanticKITTI基准测试中超过了所有基于相机的方法甚至在和OpenOccupancy基准测试中超过了LiDAR实现了最先进的性能。如上图所示我们提出的方法整体框架主要由三个部分组成Aligned Temporal Volume ConstructionVoxel Feature Volume Construction以及Reliable Temporal Aggregation。效果如下图所示跨帧模式亲和CPA有效地表示了时间内容中的上下文对应关系。鉴于我们的目标是完成并理解与当前帧相对应的三维场景因此必须为最相关的位置分配更大的权重同时也需要调查其邻近的相关区域以弥补不完整的观察结果。为此我们提出基于亲和力的动态细化ADR根据已确定的高亲和性位置及其邻近相关区域用三维可变形卷积自适应地改进特征采样位置。具体来说我们通过引入基于亲和力的对应权重和可变形位置偏移来实现动态细化: Experiment 实验表明我们的方法在SemanticKITTI Benchmark上排名第一并在OpenOccupancy BenchMark中取得了超过基于LiDAR方法的mIoU。定量实验结果在SemanticKITTI基准测试中我们提出的方法明显优于所有其他方法。与VoxFomer-T相比我们的方法即使在较少的历史输入3 vs. 4中也取得了显著的相对增益。在OpenOccupancy基准测试中尽管基于LiDAR的在IoU方面具有固有的优势但我们的HTCL在mIoU方面超过了所有其他方法包括基于LiDAR的LMSCNet和JS3C-Net 证明了我们的方法在语义场景补全方面的有效性。定性试验结果图5展示了我们提出的方法与VoxFormer在SemanticKITTI上的定性比较。可以观察到真实世界的场景非常复杂而注释的地面实况相对稀少这给从有限的视觉线索中完全重建语义场景带来了挑战。与 VoxFormer 相比我们的方法能捕捉到更完整、更准确的场景布局如第二行和第三行的十字路口。此外我们的方法还能有效地补全摄像机视野外更多合适的景物如第一行和第二行中的阴影区域并在移动物体如第二行中的卡车方面表现出明显的优势。图6展示了我们的方法在 OpenOccupancy 上的预测结果我们提出的方法与GT相比可以生成的结果更密集、更真实的Semantic Occupancy。 #MTR v3 https://storage.googleapis.com/waymo-uploads/files/research/2024 Technical Reports/2024 WOD Motion Prediction Challenge - 1st Place - MTR v3.pdf 基于MTR改进前作笔记MTR和MTR笔记完整论文和源码还没有公布目前只能先看report了。 Abstract MTR v3是在MTR上进行改进的。主要在两个方面进行了提升使用了原生的lidar数据来提供更细致的语义信息使用了更好的更具有区分度的anchor来提升model的轨迹回归能力除了上面两点外采用了一个简单的ensemble技巧来进一步提升最后的表现。在soft mAP上达到了SOTA。 Introduction MTR系列采用了场景encode和使用了intention query的多模轨迹预测decode。本文爱之前的基础上额外使用了原始lidar数据可以更好地捕捉一些HD map cover不到的场景信息比如植被和建筑物。但其实这些对于行人的行为有很大的影响。而之前的MTR存在回归loss很大的问题这是因为anchor比较稀疏。为此更新为更好的anchor生成方式。 Method 增加了lidar的3D信息使用一个encoder来提取feature并喂到decoder的输入中每个agent会根据mode动态获取有价值的point feature最后用了一个ensemble的技巧 Model Design Scene Encoder Network Motion Decoder Network 和MTR一样统计现实中的gt轨迹的最后一个点的分布用k-means聚类后得到K个intention的点也就是anchor。然后就可以和场景feature融合获得intention query。再用一个Mutually-Guided Intention Querying模块来处理每个agent的多个query之间的交互让模态分散一些。接下来就是3次cross-attention在agent间在地图元素间在lidar voxel间。并且对于每个agent还需要学习dense的预测会结合历史以及预测的模态来学习交互中途出一个轨迹预测用于中间的辅助监督。在每一个cross-attention decoder之后都会加几个MLP来refine query。由于需要多模预测建模是混合高斯的。 loss的话和MTR类似包含了概率的分类lossGMM的回归loss只采用了正样本的query对应的轨迹以及一个辅助任务的loss详细见MTR, 大概是用dense的预测过历史轨迹的encoder和历史轨迹的feature concat在一起作为一个更丰富信息的feature后直接短接一个预测head会有gt来进行一个监督使得model中间变量也有个监督。对于回归loss做了一个不一样的操作详情可以参考EDA这篇文章大概的意思是目前主流的做法有 anchor based输入anchor的end pointgt轨迹直接监督最接近gt的end point对应的轨迹。prediction based没有具体anchor预测出来的轨迹里挑最接近gt的进行监督。方法1虽然一般会对anchor进行小幅度的调整但anchor本质还是不回移动太多的不然gt的监督就可能监督到不是gt的模态上效果上就没有利用好regression的任务因为并没有让end point进行自由度很高的回归。方法2就很容易出现模态塌缩的问题因为不像方法1一样强行设置多个mode。于是EDA就是想要结合两种做法先是用anchor输入允许大幅度的refine这一步可以用gt对一开始match的anchor进行监督但refine后会重新match再进行refine多来几次可以让anchor收敛到比较理想又分散的效果。 Motion-Guided Lidar Search Model Ensemble Experiments model参数见文章。每个lidar token的范围是长1.6m宽1.6m高6m。NMS的阈值用2.5m. 训练时也使用了随机剪裁以及缩放来数据增强。 #Denoising 原标题Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D Object Detection 论文链接https://arxiv.org/pdf/2402.03634 代码链接https://github.com/LiewFeng/RayDN 作者单位中国科学院大学 Mach Drive 论文思路多视角3D目标检测系统由于图像深度估计的挑战常常难以生成精确的预测导致冗余和错误检测的增加。本文提出了一种创新方法— Ray Denoising 通过沿着相机射线进行战略性采样来构建困难负样本从而提高检测精度。这些负样本在视觉上难以与真正的正样本区分使模型被迫学习深度感知特征从而增强其区分真阳性和假阳性的能力。Ray Denoising 设计为一个即插即用的模块兼容于任何DETR风格的多视角3D检测器并且只在训练时增加了极少的计算成本而不影响推理速度。本文的综合实验包括详细的消融研究一致表明 Ray Denoising 在多个数据集上均优于强基线方法。在NuScenes数据集上相较于最先进的StreamPETR方法它在 mAP 上提升了1.9%。在Argoverse 2数据集上也显示出显著的性能提升突显了其良好的泛化能力。主要贡献本文识别了沿同一射线的误检这一持续存在的挑战这成为多视角3D目标检测器性能的瓶颈。本文引入了 Ray Denoising 这是一种新颖的去噪方法利用Beta分布在射线方向上创建深度感知的困难负样本。该方法明确考虑了场景的3D结构提供了一种灵活的解决方案兼容任何DETR风格的多视角3D检测器以解决沿射线的重复预测问题。本文的方法在NuScenes数据集 [2] 上达到了最先进的结果显著提升了多视角3D目标检测器的性能。具体来说本文在 mAP 上相较于当前最先进的方法StreamPETR提升了1.9%从而证明了 Ray Denoising 的有效性。论文设计 3D目标检测是自动驾驶系统中的关键组件因而引起了计算机视觉领域的广泛关注。相比于基于LiDAR的解决方案基于图像的3D目标检测由于其成本效益正经历着研究热潮 [9, 10, 13, 14, 37, 38]。在依赖于周围相机图像的多视角3D目标检测中一个主要挑战是从图像中估计深度的难度这会导致重复预测如图1所示。尽管在方法上有所改进多视角3D目标检测器在减少由深度模糊引起的误检方面仍面临困难。近期的几项研究 [8, 15, 17, 19, 22, 26, 34, 41, 46] 试图通过引入时间信息来解决这一问题。然而这些方法并未明确考虑场景的3D结构从而限制了其进一步提升的潜力。此外先前的研究还探索了应用诸如非极大值抑制Non-Maximum Suppression, NMS和 Focal Loss 等通用技术来缓解重复预测问题。NMS作为一种后处理技术主要针对具有高交并比IoU的误检但当这些预测沿射线分散且IoU较低时其效果不佳。Focal Loss 作为一种旨在减少高置信度误检的损失函数也被应用。然而观察发现使用 Focal Loss 的多视角3D目标检测器在有效解决沿同一射线的误检问题时仍然面临挑战。本文的定量分析强调了解决与真实值Ground Truth沿同一射线的误检的重要性。通过利用真实值目标的精确位置数据本文能够在最先进的StreamPETR方法 [34] 中识别并消除这些冗余预测。这一过程显著提升了 mAP 5.4%突显了模型提升深度估计能力的关键需求。这一显著的改进表明通过优化深度估计来抑制这些误检能够显著提升整体检测性能的潜力。本文的关键观察是由于传统多视角目标检测器的固有限制误检常常沿着相机射线发生。由于每个像素的深度信息未能准确估计位置嵌入只能编码射线方向。因此同一射线上的查询将始终与图像中的相同视觉特征交互导致沿该射线出现大量重复预测误检。这一情形突显了模型学习深度感知特征的需求以便在视觉特征相同的情况下区分深度上的目标。本文提出了一种新方法称为 Ray Denoising 简称RayDN。该框架本质上具有灵活性不限制用于采样深度感知困难负样本的分布选择。根据本文的消融研究本文选择了Beta分布因为它在捕捉模型可能生成的误检的空间分布方面表现出色。此选择使 Ray Denoising 能够创建用于去噪的深度感知困难负样本从而增强模型学习更健壮特征和表征以区分沿射线的误检的能力如图2所示。Ray Denoising 在训练阶段仅引入了极少的计算成本增加而不会影响推理速度。图1在多视角3D目标检测中从图像中估计深度的挑战导致沿相机射线的重复预测和误检。图2提出的 Ray Denoising 方法右图有效减少了在先前最先进方法StreamPETR [34]左图中沿射线的误检红色矩形高亮部分。图3Ray Denoising 方法的整体框架这是一种即插即用的训练技术适用于DETR风格的多视角3D目标检测器重点在于提升模型区分深度中真阳性和假阳性的能力。通过投射射线和采样深度感知的去噪查询有效解决了由于视觉深度估计固有困难而产生的误检问题从而在检测性能上相较于强基线方法取得了显著提升。讨论本文的 Ray Denoising Ray Denoising方法基于一个关键观察即基于图像的3D检测系统往往难以区分沿相机射线的真阳性和假阳性。DETR风格的多视角3D目标检测器通过真实值监督隐式地学习深度估计。然而可学习查询的随机分布参考点并未充分利用可用的真实值信息。尽管这些参考点在训练过程中会更新但它们未能为每个场景中的每个目标提供足够的困难负样本。为了增强对真实值信息的利用传统的去噪技术在训练期间引入了均匀分布在真实值目标周围的额外参考点。这些特定实例的参考点提高了检测性能 [19,22,34]。然而它们忽视了多视角3D目标检测固有的深度模糊问题。由于每个像素缺乏精确的深度信息位置嵌入只能编码射线方向而不能编码深度。这导致同一射线上的查询与相同的图像特征交互产生冗余预测。Ray Denoising 不同于传统技术通过沿从相机到目标的射线战略性地生成参考点。这种方法明确考虑了场景中每个目标的3D结构提供了足够数量的困难负样本。在训练过程中这些 Ray Queries 在自注意力层中进行交互有效引导模型抑制深度模糊的空间困难负样本。这种交互增强了检测器区分真阳性预测目标和假阳性预测重复检测的能力从而提高了检测精度。实验结果图4(a) 分布比较显示Beta分布在-1到1之间有界而Laplace分布和高斯分布则是无界的。(b) Beta分布族通过使用变换将 x 范围从调整到。图5(a) 不同距离阈值下的精确度-召回率precision-recall曲线可视化。Ray Denoising 在几乎所有召回率水平上均提升了精确度有效抑制了误检。(b) 按类别的平均精度AP比较。Ray Denoising 在所有目标类别上均优于最先进的StreamPETR。图6本文在nuScenes验证集上的检测结果可视化。Ray Denoising 在有效减少重复误检的同时保持了检测同一射线上的高度遮挡目标的能力。总结本文引入了 Ray Denoising Ray Denoising这是一种旨在克服多视角3D目标检测中深度估计不准确这一关键挑战的方法。Ray Denoising 解决了沿相机射线发生的误检问题这些误检是由于图像深度信息不精确直接导致的。通过利用场景的3D结构 Ray Denoising 促使模型学习深度感知特征从而在不增加额外推理成本的情况下提高了沿同一射线区分真阳性和假阳性的能力。本文在NuScenes和Argoverse 2数据集上的综合实验表明 Ray Denoising 始终显著优于强基线方法在多视角3D目标检测中实现了新的最先进性能。引用 article{liu2024ray,title{Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D Object Detection},author{Liu, Feng and Huang, Tengteng and Zhang, Qianjing and Yao, Haotian and Zhang, Chi and Wan, Fang and Ye, Qixiang and Zhou, Yanzhao},journal{arXiv preprint arXiv:2402.03634},year{2024} #PerlDiff 使用扩散模型进行可控的自动驾驶场景数据生成文章链接https://arxiv.org/pdf/2407.06109 项目链接https://perldiff.github.io/ 主要贡献提出了新框架 PerlDiff用于根据用户定义的3D注释生成街景图像。PerlDiff 利用透视布局掩码作为几何先验精确引导物体层面的图像生成过程。提出了基于 Perl 的交叉注意机制该机制利用3D注释中的透视布局掩码图来增强 Perl-CM 中的交叉注意机制。这种方法通过整合道路和 BEV 注释的特定物体信息实现了对街景图像生成过程的精确控制。PerlDiff在NuScenes 和 KITTI 数据集上达到了SOTA显著提高了将生成街景图像用于目标检测和分割上的实验结果。开发板商城天皓智联whaosoft 可控生成被认为是解决 3D 数据标注挑战的一种的重要方法而这种可控生成的精确性在自动驾驶的数据中变得尤为重要。现有方法侧重于利用 GLIGEN 或 ControlNet 等框架将各种生成信息整合到控制输入中。虽然在可控生成方面取得了不错的成果然而这些方法本质上将生成性能限制在预定义网络架构的学习能力范围内。PerlDiff 充分利用透视 3D 几何信息进行有效街景图像生成采用 3D 几何先验来指导街景图像的生成并在网络学习过程中进行精确的物体层面控制从而获得更准确、更可控的输出结果。方法设计训练数据 NuScenes 数据集包括 1,000 个城市交通场景分为 700 个训练场景和 150 个验证场景。每个场景有六幅高分辨率图像900×1600提供了一个完整的 360 度全景视图。NuScenes 还包括驾驶环境的综合路图其中包括车道标记和障碍物等细节。KITTI 数据集包含 3,712 幅训练图像和 3,769 幅验证图像。KITTI 数据集只有一张透视图像没有路图信息。鉴于 KITTI 数据集的图像分辨率不同约 375×1242将其填充为 384×1280 以进行生成。控制条件编码根据交通场景的 BEV 注释目标是生成多视角街景图像。不仅要提取场景信息而且还要提取物体信息作为控制条件。 Perl场景信息透视场景图像生成场景的背景信息包含驾驶环境的路面以及障碍物等信息使用不同颜色区分道路和其他背景元素场景文本描述自定义生成场景的文本描述可说明天气情况以及是在白天还是夜晚如何对其编码 ConvNext:用于编码通过 BEV 注释投影得到的透视场景图像来生成场景的背景特征编码 CLIP文本编码用于编码文本场景描述 , 生成场景特征编码 Perl物体信息物体几何数据将 BEV 注释投影到对应的透视视角得到每一个物体边界框的的8个 2D 角点坐标物体类别文本信息给出每一个物体属于类别的描述文本如车行人等如何对其编码 Fourier 编码用于编码物体几何数据得到几何特征编码 CLIP文本编码用于编码物体类别文本信息,得到类别编码特征多层感知机MLP将物体几何特征和类别特征融合得到每一个物体的特征编码基于 Perl控制模块Perl-CM实现物体可控性 Perl-CM 负责将控制条件信息包括 Perl 场景和物体信息通过基于 Perl 的场景和物体交叉注意机制整合到潜在特征图中。首先该机制会为注意力图分配初始值, 然后在道路和边界框 Perl 掩码图的引导下在整个网络训练过程中对这些值进行优化以确保注意图的响应与物体所在区域准确对应为了确保多视图一致性视图交叉注意力利用了紧邻的左视图和右视图的信息以实现不同视角的一致性文本交叉注意力利用文本场景描述来处理街道场景的天气和照明条件 Perl路面/物体边界框掩码图 Perl 路面掩码图 Perl物体边界框掩码图通过将每一个物体的BEV标柱投影到透视视角后将其3D边界框所在在内部区域像素置为1得到代表物体标注框的数量 Perl-based 交叉注意力传统的交叉注意力中控制条件与图像特征对应关系并不精确导致生成图像并不能很好的满足给定的条件而PerlDiff利用几何先验掩码图来增强输入控制条件与街景图像之间的交叉注意学习将从场景上下文和边界框中获得的几何知识纳入交叉注意的计算中确保路图和物体边界框数据在去噪过程的每个阶段都会与噪声街景图像精确对齐。讨论与 BEVControl、MagicDrive、DrivingDiffusion 和 Panacea 等采用普通交叉注意机制来整合控制条件信息的方法不同。PerlDiff 通过 Perl 掩码图引入了几何先验在训练阶段利用物体对应的控制信息来指导其生成从而有效解决注意力图和条件信息之间常见的错位问题导致图像可控性受损显著提高了生成图像的准确性。实验结果 NuScenes数据集PerlDiff 在多个指标上均优于 BEVControl 和 MagicDrive 等现有方法特别是在 3D 目标检测指标图平均精度mAP和 NuScenes 检测指标NDS KITTI数据集PerlDiff 在小样本数据集上仍然有很好的泛化性相比于采用普通交叉注意力的BEVControl*PerlDiff 在单目目标检测器MonoFlex上的指标是其十几倍。同时实验说明利用在 NuScenes 上训练过后在 KITTI 上微调能达到更好的效果数据增强PerlDiff利用合成数据集来提高各种检测模型在 NuScenes 测试集上的性能。其中使用 NuScenes 训练集和验证集第二行的指标作为上限来验证共同使用 NuScenes 真实训练集和 PerlDiff 生成验证集后与其差距大小基于 Perl 的交叉注意力机制的效果通过将其换成普通的交叉注意力机制3D目标检测BEVFormer和BEV分割CVT指标大幅度变差来说明其有效性 Perl路面/物体边界框掩码图控制系数不同掩码图权重系数代表几何先验知识融入网络学习的程度可视化结果比较给出了相比于 BEVControl*PerlDIff 在控制物体角度、位置、大小方面的有效性其他可视化结果主要结论 PerlDiff 通过整合几何约束和扩散模型在生成高保真度视觉图像的同时提供了精确的控制信息增强了图像生成的可控性。实验证明PerlDiff在 NuScenes 和 KITTI 数据集上表现出色有望在未来成为一个强大的交通模拟器。未来工作将探索视频生成以进一步提升模型的应用潜力。

查看全文

http://www.hkea.cn/news/14490533/