用织梦做房产网站,免费注册淘宝店铺,以星空做的网站模板,网络营销托管服务商指的是cvpr 2024 论文名称 DETRs在实时目标检测上击败YOLO 地址 https://arxiv.longhoe.net/abs/2304.08069 代码 https://github.com/lyuwenyu/RT-DETR 目录
摘要
1介绍
2.相关工作
2.1实时目标探测器
2.2.端到端物体探测器
3.检测器的端到端速度
3.1.NMS分析
3.2.端到端速度… cvpr 2024 论文名称 DETRs在实时目标检测上击败YOLO 地址 https://arxiv.longhoe.net/abs/2304.08069 代码 https://github.com/lyuwenyu/RT-DETR 目录
摘要
1介绍
2.相关工作
2.1实时目标探测器
2.2.端到端物体探测器
3.检测器的端到端速度
3.1.NMS分析
3.2.端到端速度基准
4.实时DETR
4.1.模型概述
4.3.不确定性最小查询选择
5.实验
5.1.与SOTA的比较
5.2.混合编码器的消融研究
5.3.查询选择的消融研究
5.4.解码器的消融研究
6.限制和讨论
7.结论
附录
1.实验设置数据集和指标。
2.与较轻的YOLO探测器相比
3.RT-DETR的大规模预训练
4.不同后处理阈值预测的可视化
5.RT-DETR预测的可视化 摘要 YOLO系列已经成为最流行的实时目标检测框架因为它在速度和准确性之间做出了合理的权衡。然而我们观察到YOLO的速度和准确性受到NMS的负面影响。最近端到端基于转换器的检测器DETR提供了消除NMS的替代方案。然而高计算成本限制了它们的实用性并阻碍了它们充分发挥排除NMS的优势。在本文中我们提出了实时检测TransformerRT-DETR第一个实时端到端对象检测器以我们所知解决了上述困境。我们借鉴先进的DETR分两步构建RT-DETR首先我们专注于在提高速度的同时保持准确性其次是在提高准确性的同时保持速度。具体来说我们设计了一个高效的混合编码器通过解耦尺度内交互和跨尺度融合来快速处理多尺度特征以提高速度。然后我们提出了不确定性最小的查询选择提供高质量的初始查询的解码器从而提高准确性。此外RT-DETR支持灵活的速度调整通过调整解码器层的数量来适应各种场景而无需重新训练。我们的RT-DETR-R50 / R101在COCO上实现了53.1% / 54.3%的AP在T4 GPU上实现了108 / 74 FPS无论是速度还是精度都超过了之前先进的YOLO。此外RT-DETR-R50在准确性方面优于DINO-R50 2.2%APFPS约为21倍。经过Objects 365的预训练后RTDETR-R50 / R101分别达到了55.3% / 56.2%的AP。代码https://zhao-yian.github.io/RTDETR。
1介绍 实时目标检测是一个重要的研究领域有着广泛的应用如目标跟踪[43]、视频监控[28]、自动驾驶[2]等现有的实时检测器一般采用基于CNN的架构其中最著名的是YOLO检测器[110-12151625303840]由于它们在速度和准确性之间的合理权衡。然而这些检测器通常需要非最大值抑制NMS进行后处理这不仅降低了推理速度而且还引入了超参数导致速度和精度不稳定。此外考虑到不同场景对查全率和准确率的重视程度不同需要仔细选择合适的NMS阈值这阻碍了实时检测器的发展。 最近端到端基于transformer的检测器DETR[417232736394445]由于其精简的架构和消除手工制作的组件而受到学术界的广泛关注。然而它们的高计算成本使它们无法满足实时检测要求因此无NMS架构没有表现出推理速度优势。这启发我们探索DETR是否可以扩展到实时场景并在速度和准确性方面优于先进的YOLO检测器消除NMS对实时对象检测造成的延迟。 为实现上述目标我们重新考虑DETR并对关键组件进行详细分析以减少不必要的计算冗余并进一步提高准确性。对于前者我们观察到虽然多尺度特征的引入有利于加速训练收敛[45]但它会导致输入编码器的序列长度显着增加。由于多尺度特征的交互作用导致的高计算成本使得Transformer编码器成为计算瓶颈。因此实现实时DETR需要重新设计编码器。对于后者以前的工作[424445]表明难以优化的对象查询阻碍了DETR的性能并提出了查询选择方案以用编码器特征取代香草可学习嵌入。然而我们观察到目前的查询选择直接采用分类分数进行选择忽略了这样一个事实即检测器需要同时建模的类别和对象的位置这两者都决定了功能的质量。这不可避免地导致具有低定位置信度的编码器特征被选择作为初始查询从而导致相当大程度的不确定性并损害DETR的性能。我们将查询初始化视为进一步提高性能的突破口。 在本文中我们提出了实时检测TransformerRT-DETR第一个实时端到端的对象检测器以我们最好的知识。为了快速处理多尺度特征我们设计了一个高效的混合编码器来代替香草Transformer编码器通过解耦尺度内交互和不同尺度特征的跨尺度融合来显著提高推理速度。为了避免低定位置信度的编码器特征被选择为对象查询我们提出了不确定性最小查询选择通过显式优化不确定性为解码器提供高质量的初始查询从而提高准确性。此外RT-DETR支持灵活的速度调整以适应各种实时场景而无需重新训练这要归功于DETR的多层解码器架构。 RT-DETR在速度和精度之间实现了理想的平衡。具体来说RT-DETR-R50在COCO val 2017上实现了53.1%的AP在T4 GPU上实现了108 FPS而RTDETR-R101实现了54.3%的AP和74 FPS在速度和准确性方面都优于之前先进的YOLO探测器的L和X型号图1。我们还通过使用更小的主干扩展编码器和解码器来开发扩展的RT-DETR其性能优于更轻的YOLO检测器S和M模型。此外RT-DETR-R50在准确度上比DINO-Deformable-DETR-R50高出2.2% AP53.1% AP vs 50.9% AP在FPS上高出约21倍108 FPS vs 5 FPS显着提高了DETR的准确度和速度。在使用Objects 365 [35]进行预训练后RTDETR-R50 / R101实现了55.3% / 56.2%的AP从而实现了令人惊讶的性能提升。更多实验结果见附录。 图1.与以前先进的实时目标检测器相比我们的RT-DETR实现了最先进的性能。 主要贡献归纳如下一。我们提出了第一个称为RTDETR的实时端到端对象检测器它不仅在速度和准确性方面优于以前先进的YOLO检测器而且还消除了NMS后处理对实时对象检测造成的负面影响;ii。定量分析NMS对YOLO检测器速度和精度的影响建立端到端速度基准测试实时检测器的端到端推理速度;iii.所提出的RT-DETR通过调整解码器层的数量来支持灵活的速度调整以适应各种情况而无需重新训练。
2.相关工作
2.1实时目标探测器 YOLOv1 [31]是第一个基于CNN的单阶段对象检测器可以实现真正的实时对象检测。经过多年的不断发展YOLO探测器已经超越了其他单级目标探测器[2124]成为实时目标探测器的代名词。YOLO检测器可以分为两类基于锚点的[111152529303738]和无锚点的[10121640]它们在速度和精度之间实现了合理的权衡并广泛应用于各种实际场景。这些先进的实时检测器会产生许多重叠的盒子需要NMS后处理这会降低它们的速度。
2.2.端到端物体探测器 端到端物体探测器以其流线型的管道而闻名。Carion等人[4]首先提出了基于Transformer的端到端检测器称为DETR由于其独特的特性而引起了广泛的关注。特别是DETR消除了手工制作的锚和NMS组件。相反它采用二分匹配并直接预测一对一的对象集。尽管DETR具有明显的优势但它存在一些问题训练收敛速度慢计算成本高难以优化查询。已经提出了许多DETR变体来解决这些问题。加速融合。Deformable-DETR [45]通过提高注意力机制的效率来加速多尺度特征的训练收敛。DAB-DETR [23]和DN-DETR [17]通过引入迭代细化方案和去噪训练进一步提高了性能。Group-DETR [5]引入了分组一对多分配。降低计算成本。高效DETR [42]和稀疏DETR [33]通过减少编码器和解码器层的数量或更新查询的数量来降低计算成本。Lite DETR [18]通过以交错方式降低低级特征的更新频率来提高编码器的效率。优化查询初始化。条件DETR [27]和锚DETR [39]降低了查询的优化难度。Zhu等人。[45]提出了两阶段DETR的查询选择DINO [44]建议混合查询选择以帮助更好地初始化查询。目前的DETR仍然是计算密集型的并且没有被设计为真实的时间检测。我们的RT-DETR积极探索计算成本的降低并试图优化查询初始化优于最先进的实时检测器。
3.检测器的端到端速度
3.1.NMS分析 NMS是一种在目标检测中广泛使用的后处理算法用于消除重叠的输出框。NMS中需要两个阈值置信阈值和IoU阈值。具体来说得分低于置信度阈值的盒子被直接过滤掉并且每当任何两个盒子的IoU超过IoU阈值时得分较低的盒子将被丢弃。迭代地执行该过程直到处理完每个类别的所有框。因此NMS的执行时间主要取决于盒子的数量和两个阈值。为了验证这一观察结果我们利用YOLOv5 [11]基于锚和YOLOv8 [12]无锚进行分析。 我们首先计算在同一输入上过滤具有不同置信度阈值的输出框后剩余的框的数量。我们从0.001到0.25之间采样值作为置信度阈值以计算两个检测器的剩余框的数量并将它们绘制在条形图上这直观地反映了NMS对其超参数的敏感性图2。随着置信度阈值的增加更多的预测框被过滤掉需要计算IoU的剩余框的数量减少从而减少NMS的执行时间。 图2.不同置信度阈值下的盒子数量。 此外我们使用YOLOv8在COCO val2017上评估了准确性并测试了不同超参数下NMS操作的执行时间。注意我们采用的NMS操作是指TensorRT efficientNMSPlugin它涉及多个内核包括EfficientNMSFilter、RadixSort、EfficientNMS等我们只报告EfficientNMS内核的执行时间。我们使用TensorRT FP16在T4 GPU上测试了速度输入和预处理保持一致。超参数和相应的结果如表1所示。从结果中我们可以得出结论EfficientNMS内核的执行时间随着置信度阈值的降低或IoU阈值的增加而增加。原因是高置信度阈值直接过滤掉更多的预测框而高IoU阈值在每轮筛选中过滤掉的预测框较少。我们还在附录中可视化了具有不同NMS阈值的YOLOv8的预测。结果表明不适当的置信度阈值会导致检测器产生明显的误报或漏报。在置信度阈值为0.001IoU阈值为0.7的情况下YOLOv8实现了最佳AP结果但相应的NMS时间处于较高水平。考虑到YOLO检测器通常报告模型速度并排除NMS时间因此需要建立端到端速度基准。 表1.IoU阈值和置信度阈值对准确性和NMS执行时间的影响。
3.2.端到端速度基准 为了能够公平地比较各种实时检测器的端到端速度我们建立了一个端到端速度基准。考虑到NMS的执行时间受输入的影响需要选择基准数据集并计算多个图像的平均执行时间。我们选择COCO val 2017 [20]作为基准数据集并如上所述为YOLO检测器添加TensorRT的NMS后处理插件。具体来说我们根据基准数据集上相应准确度的NMS阈值测试检测器的平均推理时间不包括I/O和MemoryCopy操作。我们利用基准测试在T4 GPU上使用TensorRT FP 16测试基于锚的检测器YOLOv 5 [11]和YOLOv 7 [38]以及无锚检测器PP-YOLOE [40]YOLOv 6 [16]和YOLOv 8 [12]的端到端速度。根据结果cf。表2我们得出结论无锚检测器优于基于锚的检测器具有与YOLO检测器相同的精度因为前者需要比后者更少的NMS时间。原因是基于锚的检测器比无锚检测器产生更多的预测框在我们测试的检测器中是三倍。 表2.与SOTA的比较仅YOLO探测器的L和X型号与S和M型号的比较见附录。我们不测试其他DETR的速度除了DINO-Deformable-DETR [44]用于比较因为它们不是实时检测器。我们的RT-DETR在速度和准确性方面优于最先进的YOLO探测器和DETR。
4.实时DETR
4.1.模型概述 RT-DETR由一个主干、一个高效的混合编码器和一个带辅助预测头的Transformer解码器组成。RT-DETR的概述如图4所示。具体来说我们将来自主干的最后三个阶段{S3S4S5}的特征馈送到编码器中。高效的混合编码器通过尺度内特征交互和跨尺度特征融合将多尺度特征变换成图像特征序列参见图1。秒4.2。随后采用不确定性最小查询选择来选择固定数量的编码器特征以用作解码器的初始对象查询参见图1。秒4.3。最后具有辅助预测头的解码器迭代地优化对象查询以生成类别和框。4.2.高效的混合编码器计算瓶颈分析。多尺度特征的引入加速了训练收敛并提高了性能[45]。然而尽管可变形注意力降低了计算成本但急剧增加的序列长度仍然导致编码器成为计算瓶颈。如Lin等人[19]所述编码器占GFLOP的49%但在可变形DETR中仅占AP的11%。为了克服这个瓶颈我们首先分析了计算冗余存在于多尺度Transformer编码器。直观的包含丰富的语义信息的对象的高级功能提取低级别的功能使它多余的级联多尺度功能上执行功能交互。因此我们设计了一组具有不同类型编码器的变体以证明同时进行尺度内和跨尺度特征交互是低效的图3。特别地我们使用DINO-Deformable-R50与RT-DETR中使用的更小尺寸的数据读取器和更轻的解码器进行实验并且首先去除DINO-Deformable-R50中的多尺度Transformer编码器作为变体A。然后插入不同类型的编码器以基于A产生一系列变体详细说明如下每个变体的详细指示符参见表3 表3.图3中示出了变型集合的指示符。 图3.每个变体的编码器结构。SSE表示单尺度Transformer编码器MSE表示多尺度Transformer编码器CSF表示跨尺度融合。AIFI和CCFF是设计到我们的混合编码器的两个模块。 图3.每个变体的编码器结构。SSE表示单尺度Transformer编码器MSE表示多尺度Transformer编码器CSF表示跨尺度融合。AIFI和CCFF是设计到我们的混合编码器的两个模块。
· A → B变体B将单尺度Transformer编码器插入到A中其使用一层Transformer块。多尺度特征共享编码器以进行尺度内特征交互然后连接为输出。
· B → C变体C引入基于B的跨尺度特征融合并将级联特征馈送到多尺度Transformer编码器中以执行同时的尺度内和跨尺度特征交互。
· C → D变体D通过利用用于前者的单尺度Transformer编码器和用于后者的PANet风格[22]结构来实现尺度内交互和跨尺度融合。
· D→ E变体E在D的基础上增强了尺度内交互和跨尺度融合采用了我们设计的高效混合编码器。
混合设计。在此基础上我们对编码器的结构进行了重新思考提出了一种高效的混合编码器该编码器由基于注意力的尺度内特征交互AIFI和基于CNN的跨尺度特征融合CCFF两个模块组成。具体地AIFI通过利用单尺度Transformer编码器仅在S5上执行尺度内交互来进一步降低基于变型D的计算成本。原因在于将自注意操作应用于具有更丰富语义概念的高级特征捕获了概念实体之间的联系这有利于后续模块对对象的定位和识别。然而由于缺乏语义概念以及与高级特征交互的重复和混淆的风险较低级别特征的尺度内交互是不必要的。为了验证这一观点我们仅对变体D中的S5进行尺度内相互作用实验结果报告在表3中见DS5行。与D相比DS5不仅显著降低了延迟快35%而且提高了准确性AP高0.4%。CCFF基于跨尺度融合模块进行优化在融合路径中插入几个由卷积层组成的融合块融合块的作用是将两个相邻尺度特征融合成一个新特征其结构如图5所示。融合块包含两个1 × 1卷积来调整通道数量由RepConv [8]组成的N个RepBlocks用于特征融合两个路径输出通过逐元素相加进行融合。我们将混合编码器的计算公式化为 其中Reshape表示将展平特征的形状恢复为与S5相同的形状。 图5.CCFF中的融合阻滞。
4.3.不确定性最小查询选择 为了降低在DETR中优化对象查询的难度一些后续的工作[424445]提出了查询选择方案它们的共同点是使用置信度得分从编码器中选择前K个特征来初始化对象查询或只是位置查询。置信度分数表示特征包括前景对象的可能性。然而检测器需要同时对对象的类别和位置进行建模这两者都决定了特征的质量。因此特征的性能得分是与分类和定位两者共同相关的潜在变量。基于分析当前的查询选择导致所选择的特征具有相当程度的不确定性从而导致解码器的次优初始化并阻碍检测器的性能。 为了解决这个问题我们提出了不确定性最小查询选择方案明确地构建和优化认知的不确定性建模的联合潜在变量的编码器功能从而为解码器提供高质量的查询。具体地特征不确定性U被定义为在等式中定位P和分类C的预测分布之间的差异。2.为了最小化查询的不确定性我们将不确定性集成到等式中的基于梯度的优化的损失函数中。3. 其中Y表示预测和基础事实Y表示 {k ck B}k c和k B分别表示类别和边界框X表示编码器特征。 有效性分析。为了分析不确定性最小查询选择的有效性我们在COCO val2017上可视化了所选特征的分类得分和IoU得分图6。我们绘制了分类分数大于0.5的散点图。紫色和绿色点分别表示从使用不确定性最小查询选择和普通查询不确定性最小查询选择解码器和头部选择训练的模型中选择的特征。点越靠近图的右上方对应特征的质量越高即预测的类别和框越可能描述真实的对象。顶部和右侧的密度曲线反映了两种类型的点的数量。 图6.所选编码器功能的分类和IoU分数。紫色和绿色点分别表示从使用不确定性最小查询选择和普通查询选择训练的模型中选择的特征。 散点图最显著的特点是紫色的点集中在图的右上方而绿色的点集中在右下方。这表明不确定性最小查询选择产生更多高质量的编码器特征。此外我们进行定量分析两个查询选择方案。紫色点比绿色点多138%即具有小于或等于0.5的分类分数的更多绿色点其可被认为是低质量特征。并且有120%的紫色点比绿色点的分数都大于0.5。从密度曲线也可以得出同样的结论紫色和绿色之间的差距在图的右上方最明显。定量结果进一步表明不确定性最小查询选择提供了更多的特征具有准确的分类和查询的精确位置从而提高了检测器的准确性参见图1。秒5.3。
4.4.定标RT-DETR 由于实时检测器通常提供不同尺度的模型以适应不同的场景因此RT-DETR还支持灵活的缩放。具体来说对于混合编码器我们通过调整嵌入维数和通道数来控制宽度通过调整Transformer层和RepBlocks的数量来控制深度。解码器的宽度和深度可以通过操纵对象查询和解码器层的数量来控制。此外RT-DETR的速度支持通过调整解码器层的数量来灵活调整。我们观察到在最后删除一些解码器层对准确性的影响最小但大大提高了推理速度参见。秒5.4。我们将配备ResNet 50和ResNet 101的RT-DETR [1314]与YOLO探测器的L和X型号进行了比较。更轻的RT-DETR可以通过应用其他更小的例如ResNet 18/34或可扩展例如CSPResNet [40]具有缩放编码器和解码器的骨干。我们在附录中将缩放的RT-DETR与更轻的S和MYOLO探测器进行了比较它们在速度和精度方面都优于所有S和M模型。
5.实验
5.1.与SOTA的比较 表2将RT-DETR与当前的实时YOLO和端到端DETR检测器进行了比较其中仅比较了YOLO检测器的L和X型号S和M型号的比较见附录。我们的RT-DETR和YOLO检测器共享一个共同的输入大小640640其他DETR使用的输入大小为8001333。FPS在T4 GPU上使用TensorRT FP 16进行报告并根据第12节中提出的端到端速度基准使用官方预训练模型用于YOLO检测器。3.2.我们的RT-DETR-R50实现了53.1%的AP和108 FPS而RTDETR-R101实现了54.3%的AP和74 FPS在速度和准确性方面优于具有类似规模的最先进的YOLO探测器和具有相同主干的DETR。实验设置见附录。与实时探测器比较。我们比较了端到端速度参见秒3.2)和使用YOLO探测器的RTDETR的准确性。我们将RT-DETR与YOLOv 5 [11]、PP-YOLOE [40]、YOLOv6v3.0 [16]以下简称YOLOv 6、YOLOv 7 [38]和YOLOv 8 [12]进行比较。与YOLOv 5-L / PP-YOLOE-L /YOLOv 6-L相比RT-DETR-R50的准确度提高了4.1% / 1.7% /0.3%APFPS提高了100.0% / 14.9% /9.1%参数数量减少了8.7% / 19.2% /28.8%。与YOLOv 5-X / PP-YOLOE-X相比RTDETR-R101的精度提高了3.6% /2.0%FPS提高了72.1% /23.3%参数数量减少了11.6% /22.4%。与YOLOv 7-L /YOLOv 8-L相比RT-DETR-R50将准确度提高了1.9% /0.2%APFPS提高了96.4% /52.1%。与YOLOv 7-X /YOLOv 8-X相比RT-DETR-R101的准确度提高了1.4% /0.4%APFPS提高了64.4% /48.0%。这表明我们的RT-DETR实现了最先进的实时检测性能。 与端到端检测器的比较。我们还比较RT-DETR与现有的DETR使用相同的骨干。我们根据COCO val 2017上相应精度的设置来测试DINO-Deformable-DETR的速度[44]以进行比较即使用TensorRT FP 16测试速度输入大小为8001333。表2显示RT-DETR在速度和准确性方面优于所有具有相同主干的DETR。与DINO-Deformable-DETR-R50相比RT-DETR-R50的准确度提高了2.2%AP速度提高了21倍108 FPS vs 5 FPS两者都有明显的提高。
5.2.混合编码器的消融研究 我们评估了第二节中设计的变体的指标。4.2包括AP用1×配置训练参数数量和延迟表3。与基线A相比变体B将准确性提高了1.9% AP并将潜伏期增加了54%。这证明了尺度内特征交互是显著的但是单尺度Transformer编码器在计算上是昂贵的。变体C比B提供0.7%的AP改进并将延迟增加20%。这表明跨尺度特征融合也是必要的但多尺度Transformer编码器需要更高的计算成本。变体D比C提供了0.8%的AP改进但将延迟降低了8%这表明解耦尺度内交互和跨尺度融合不仅降低了计算成本而且提高了准确性。与变体D相比DS5将延迟减少了35%但提供了0.4%的AP改善表明不需要较低级别特征的尺度内交互。最后变体E比D提供1.5%的AP改善。尽管参数数量增加了20%但延迟减少了24%使编码器更高效。这表明我们的混合编码器实现了更好的速度和精度之间的权衡。
5.3.查询选择的消融研究 我们对不确定性最小查询选择进行消融研究结果报告在RT-DETR-R50上1×配置表4。RT-DETR中的查询选择根据分类得分选择前KK 300个编码器特征作为内容查询并将所选特征对应的预测框作为初始位置查询。我们比较了COCO val 2017上两种查询选择方案选择的编码器特征并分别计算了分类得分大于0.5以及分类和IoU得分大于0.5的比例。实验结果表明不确定性最小查询选择算法选择的编码器特征不仅提高了高分类分数的比例0.82%vs0.35%而且提供了更多的高质量特征0.67%vs0.30%。我们还评估了在COCO val 2017上使用两种查询选择方案训练的检测器的准确性其中不确定性最小查询选择实现了0.8% AP的改进48.7% AP vs 47.9% AP。 表4.不确定性最小查询选择的消融研究结果。Propcls和Propboth分别表示分类得分的比例和得分均大于0.5的比例。
5.4.解码器的消融研究 表5显示了用不同数量的解码器层训练的RT-DETR-R50的每个解码器层的推理延迟和准确性。当解码器层数设置为6时RT-DETR-R50达到最佳精度53.1%AP。此外我们观察到随着解码器层的索引的增加相邻解码器层之间的精度差异逐渐减小。以列RTDETR-R50-Det 6为例使用第5个解码器层进行推理仅损失0.1%的AP53.1% AP vs 53.0% AP的准确性同时将延迟减少0.5 ms9.3 ms vs 8.8 ms。因此RT-DETR通过调整解码器层数而无需重新训练来支持灵活的速度调整从而提高了其实用性。 表5.解码器的消融研究结果。ID指示解码器层索引。Detk表示具有k个解码器层的检测器。所有结果均报告在RT-DETR-R506×配置上。
6.限制和讨论 限制。尽管所提出的RT-DETR在速度和准确性方面优于具有类似尺寸的最先进的实时检测器和端到端检测器但它与其他DETR具有相同的限制即对小物体的性能仍然不如强实时检测器。根据表2RT-DETR-R50比L模型YOLOv 8-L中的最高APval S低0.5%APRTDETR-R101比X模型YOLOv 7-X中的最高APval S低0.9%AP。我们希望这一问题将在今后的工作中得到解决。 讨论。现有的大型DETR模型[3632414446]在COCO测试开发[20]排行榜上表现出令人印象深刻的性能。所提出的不同尺度的RT-DETR保留了与其他DETR相同的解码器这使得我们可以用高精度的预训练大型DETR模型来提取我们的轻量级检测器。我们相信这是RT-DETR相对于其他实时检测器的优势之一可能是未来探索的一个有趣方向。
7.结论 在这项工作中我们提出了一个实时端到端检测器称为RT-DETR它成功地扩展了DETR的实时检测场景并达到了最先进的性能。RT-DETR包括两个关键的增强一个高效的混合编码器可以快速处理多尺度特征以及提高初始对象查询质量的不确定性最小查询选择。此外RT-DETR支持灵活的速度调整无需重新训练消除了两个NMS阈值带来的不便便于实际应用。RTDETR沿着其模型缩放策略拓宽了实时对象检测的技术方法为不同的实时场景提供了超越YOLO的新可能性。我们希望RT-DETR能够付诸实践。致谢。本研究得到了国家重点研发计划No.2022ZD0118201、国家自然科学基金No.6197221732071459621762496200613362271465和深圳市医学科研基金No.B2302037的部分资助。感谢刘畅、王振南和李克汉在写作和演示方面提出的有益建议。
附录
1.实验设置数据集和指标。 我们在COCO[20]和Objects365[35]上进行了实验其中RT-DETR在COCO Train 2017上进行了训练并在COCO val2017数据集上进行了验证。我们报告了标准的COCO指标包括AP(在均匀采样的IOU阈值范围内从0.50到0.95的平均值步长为0.05)AP50AP75以及不同尺度的APAPSAPMAPL。实施细节。我们使用在ImageNet[734]上预先训练的ResNet[1314]作为主干主干的学习速率策略遵循[4]。在混合编码器中AIFI由1个变换器层组成CCFF中的融合块由3个RepBlock组成。我们利用不确定的最小查询选择来选择前300个编码器特征来初始化解码器的对象查询。解码器的训练策略和超参数几乎遵循Dino[44]。我们使用四个批次大小为16的NVIDIA Tesla V100 GPU使用AdamW[26]优化器训练RT-DETR并应用指数移动平均衰减0.9999。1×组态意味着总历元为12最终报告的结果采用6×组态。在训练期间应用的数据增强包括随机{颜色扭曲、扩展、裁剪、翻转、调整大小}操作遵循[40]。RT-DETR的主要超参数如表A所示(详细配置请参考RT-DETRR50)。
2.与较轻的YOLO探测器相比 为了适应不同的实时检测场景我们通过使用ResNet50/34/18[13]对编码器和解码器进行缩放来开发更轻规模的RT-DETR。具体地说我们在保持其他组件不变的情况下将RepBlock中的通道数量减半并在推理过程中通过调整解码器层的数量来获得一组RT-DETR。我们将定标的RT-DETR与表B中的S和M型号的YOLO探测器进行了比较。定标的RT-DETR-R50/34/18在训练时使用的解码器层数分别为6/4/3而Deck表示在推理过程中使用了k个解码器层。我们的RT-DETR-R50-DEC2−5在速度和精度上都优于所有M型号的YOLO探测器而RT-DETR-R18-DEC2则优于所有S型号的探测器。与最先进的M模型(YOLOv8-M[12])相比RT-DETR-R50-DEC5的准确率提高了0.9%FPS提高了36%。与最先进的S模型(YOLOv6-S[16])相比RT-DETR-R18-DEC2的准确率提高了0.5%FPS提高了18%。这表明通过简单的定标RT-DETR在速度和精度上都能够超过较轻的YOLO探测器。 表A.RT-DETR的主要超参数。 表B与S和M型YOLO探测器的比较。根据建议的端到端速度基准YOLO探测器的FPS在采用TensorRT FP16的T4 GPU上使用官方预先训练的模型进行报告。†表示训练过程中的参数数量而不是推理。
3.RT-DETR的大规模预训练 我们在较大的Objects365[35]数据集上对RT-DETR进行预训练然后在COCO上对其进行微调以获得更高的性能。如表C所示我们分别在RT-DETR-R18/50/101上进行了实验。所有三个模型都在Objects365上预训练了12个时期RT-DETR-R18在COCO上微调了60个时期而RT-DETR-R50和RT-DETR-R101则微调了24个时期。实验结果表明RT-DETR-R18/50/101在COCO val2017上的性能提高了2.7%/2.2%/1.9%。这一令人惊讶的改进进一步展示了RTDETR的潜力并为行业内各种实时场景提供了最强的实时物体探测器。 表C.对COCO val2017进行了微调并对目标365进行了预培训。
4.不同后处理阈值预测的可视化 为了直观地展示后处理对检测器的影响我们使用不同的后处理阈值可视化了YOLOv8[12]和RT-DETR产生的预测分别如图A和图B所示。我们通过为YOLOv8-L设置不同的NMS阈值和为RT-DETR-R50设置分数阈值来显示对COCO val2017中随机选择的两个样本的预测。NMS有两个阈值置信度阈值和IOU阈值这两个阈值都会影响检测结果。置信度阈值越高过滤出的预测框越多假阴性的数量也就越多。然而使用较低的置信度阈值例如0.001会导致大量的冗余框并增加假阳性的数量。欠条门槛越高每轮筛查中筛选出的重叠框越少假阳性数量就越多(图A中红圈标记的位置)。然而如果输入中存在重叠或相互遮挡的对象采用较低的IOU阈值将导致删除真正的正面。置信度阈值对于处理预测框相对简单因此很容易设置而IOU阈值很难准确设置。考虑到不同场景对召回率和准确率的重视程度不同例如一般检测场景需要较低的置信度阈值和较高的IOU阈值来提高召回率而专用检测场景需要较高的置信度阈值和较低的IOU阈值来提高准确率因此有必要针对不同的场景仔细选择合适的网管阈值。RT-DETR利用二部匹配来预测Oneto-One对象集消除了抑制重叠框的需要。取而代之的是它直接过滤出带有分数阈值的低置信度框。与NMS中使用的置信度阈值类似分数阈值可以根据特定的侧重点在不同的场景中进行调整以实现最佳的检测性能。因此在RT-DETR中设置后处理阈值是简单的并且不影响推理速度增强了实时检测器对各种场景的适应性。
图A.YOLOv8-L[12]不同NMS阈值预报的可视化。 图B.不同得分阈值的RT-DETR-R50预测的可视化。
5.RT-DETR预测的可视化 我们从COCO val2017中选择了几个样本来展示RT-DETR在复杂场景和挑战性条件下的检测性能(参见图C和图D)。在复杂的场景中RT-DETR展示了其检测各种对象的能力即使它们是小的或密集的包装例如杯子、酒杯和个人。此外RT-DETR成功地检测到了各种困难条件下的目标包括运动模糊、旋转和遮挡。这些预测证实了RT-DETR良好的检测性能。
图C.复杂场景中RT-DETR-R101预测的可视化(得分阈值0.5)。
图D.困难条件下RT-DETR-R101预测的可视化包括运动模糊、旋转和遮挡(得分阈值0.5)。