当前位置：首页 > news >正文

郑州做网站公司msgg网站安全漏洞扫描工具

news 2026/5/6 9:03:52

郑州做网站公司msgg,网站安全漏洞扫描工具,一个网站的作用是什么,wordpress 预览图前言研究AI的同学们面对的一个普遍痛点是#xff0c;刚开始深入研究一项新技术#xff0c;没等明白透彻#xff0c;就又迎来了新的更新版本——就像我还在忙着逐行分析2月份发布的YOLOv9代码#xff0c;5月底清华的大佬们就推出了全新的v10。。。在繁忙之余#xff0… 前言研究AI的同学们面对的一个普遍痛点是刚开始深入研究一项新技术没等明白透彻就又迎来了新的更新版本——就像我还在忙着逐行分析2月份发布的YOLOv9代码5月底清华的大佬们就推出了全新的v10。。。在繁忙之余我抽空拜读了这篇论文。不对创新方法做过多评价但论文的框架、整理思路以及实验部分的写作手法给正在撰写论文的我带来了极大的启发。 YOLOv10以实时的端到端目标检测能力而闻名通过提供结合效率和准确性的强大解决方案。随着新版本的发布许多人已经积极展开部署测试工作并且反馈效果看起来也是不错滴~ 话不多说我们一起来读一下吧学习资料论文题目《YOLOv10毫秒级实时端到端目标检测开源模型》论文链接https://arxiv.org/pdf/2405.14458项目链接https://github.com/THU-MIG/yolov10 YOLO论文系列前期回顾【YOLO系列】YOLOv9论文超详细解读翻译学习笔记【YOLO系列】YOLOv7论文超详细解读翻译学习笔记【YOLO系列】YOLOv6论文超详细解读翻译学习笔记【YOLO系列】YOLOv5超详细解读网络详解【YOLO系列】YOLOv4论文超详细解读2网络详解【YOLO系列】YOLOv4论文超详细解读1翻译学习笔记【YOLO系列】YOLOv3论文超详细解读翻译学习笔记【YOLO系列】YOLOv2论文超详细解读翻译学习笔记【YOLO系列】YOLOv1论文超详细解读翻译学习笔记目录前言 Abstract—摘要翻译精读 1 Introduction—引言翻译精读 2 Related Work—相关工作翻译精读 3 Methodology—方法 3.1 Consistent Dual Assignments for NMS-free Training—用于无NMS训练的一致的双重训练翻译精读 3.2 Holistic Efficiency-Accuracy Driven Model Design—整体效率-精度驱动的模型设计翻译精读 4 Experiments—实验 4.1 Implementation Details—实验细节翻译精读 4.2 Comparison with state-of-the-arts—与最先进技术的比较翻译精读 4.3 Model Analyses—模型分析 Ablation study—消融实验翻译精读 Analyses for NMS-free training—无NMS训练分析翻译精读 Analyses for efficiency driven model design—效率驱动的模型设计分析翻译精读 Analyses for accuracy driven model design—精度驱动的模型设计分析翻译精读 5 Conclusion—结论翻译精读 Abstract—摘要翻译在过去的几年里YOLO已经成为在实时目标检测领域的主要范例由于其有效的计算成本和检测性能之间的平衡。研究人员已经探索了YOLO的架构设计优化目标数据增强策略等取得了显着的进展。然而依赖于非最大抑制NMS进行后处理阻碍了端到端部署的YOLO和不利影响的推理延迟。此外YOLO中各个组件的设计缺乏全面和彻底的检查导致明显的计算冗余限制了模型的能力。它呈现出次优的效率沿着具有相当大的性能改进潜力。在这项工作中我们的目标是从后处理和模型架构两个方面进一步推进YOLO的性能效率边界。为此我们首先提出了一致的双重分配的NMS自由训练的YOLO这带来了竞争力的性能和低推理延迟的同时。此外我们介绍了整体的效率-精度驱动的模型设计策略的YOLO。我们从效率和准确性两个角度全面优化了YOLO的各个组件这大大降低了计算开销提高了性能。我们努力的成果是新一代的YOLO系列用于实时端到端对象检测称为YOLOv 10。大量的实验表明YOLOv 10在各种模型尺度上都达到了最先进的性能和效率。例如我们的YOLOv 10-S在COCO上的类似AP下比RT-DETR-R18快1.8倍同时享受2.8倍的参数和FLOP。与YOLOv 9-C相比YOLOv 10-B在相同性能下的延迟减少了46%参数减少了25%。代码https://github.com/THU-MIG/yolov10. 精读 YOLOv1~v9仍存在的不足后处理对非极大值抑制NMS的依赖阻碍了 YOLO 的端到端部署并对推理延迟产生了不利影响。YOLO中各个组件的设计缺乏全面和彻底的检查导致明显的计算冗余限制了模型的能力。本文的主要方法从后处理和模型架构方面进一步提升了 YOLO 的性能 - 效率边界首先提出了 YOLO 无 NMS 训练的一致双重分配这带来了竞争力的性能和低推理延迟。此外介绍了整体效率 - 精度驱动的模型设计策略从效率和准确率两个角度全面优化 YOLO 的各个组件大大降低了计算开销提高了模型的性能。实验结果 YOLOv10 在各种模型规模上都实现了 SOTA 性能和效率。与RT-DETR相比YOLOv10-S在COCO上的类似AP下比RT-DETR-R18快1.8倍同时享受2.8倍的参数和FLOP。与YOLOv 9-C相比YOLOv10-B在相同性能下的延迟减少了46%参数减少了25%。 1 Introduction—引言翻译实时目标检测一直是计算机视觉领域的研究热点其目标是在低延迟下准确预测图像中目标的类别和位置。它被广泛应用于各种实际应用中包括自动驾驶[3]机器人导航[11]和对象跟踪[66]等。近年来研究人员集中精力设计基于CNN的对象检测器以实现实时检测[18224344455112]。其中YOLO由于其在性能和效率之间的巧妙平衡而越来越受欢迎[2192719205954647651627]。YOLO的检测流水线由模型前向处理和NMS后处理两部分组成。然而这两种方法仍然存在不足导致精度-延迟边界不理想。具体来说YOLO通常在训练期间采用一对多标签分配策略其中一个地面实况对象对应于多个正样本。尽管产生了上级性能但这种方法需要NMS在推断期间选择最佳的正预测。这降低了推理速度并使性能对NMS的超参数敏感从而阻止YOLO实现最佳的端到端部署[71]。解决这个问题的一个方法是采用最近引入的端到端DETR架构[4746728344061]。例如RT-DETR [71]提出了一种高效的混合编码器和不确定性最小的查询选择将DETR推向了实时应用领域。然而部署DETR固有的复杂性阻碍了其在准确性和速度之间实现最佳平衡的能力。另一行是探索基于CNN的检测器的端到端检测其通常利用一对一分配策略来抑制冗余预测[549607316]。但是它们通常会引入额外的推理开销或实现次优性能。此外模型架构设计仍然是YOLO的一个基本挑战它对准确性和速度有重要影响[4516657]。为了实现更高效和有效的模型架构研究人员探索了不同的设计策略。针对主干提出了各种主要计算单元以增强特征提取能力包括DarkNet [434445]CSPNet [2]EfficientRep [27]和ELAN [5658]等。对于颈部PAN [35]BiC [27]GD [54]和RepGFPN [65]等的多尺度特征融合。此外还研究了模型缩放策略[5655]和重新参数化[1027]技术。虽然这些努力已经取得了显着的进步但仍然缺乏从效率和准确性角度对YOLO中的各种组件进行全面检查。因此YOLO中仍然存在相当大的计算冗余导致参数利用效率低下和效率次优。此外由此产生的约束模型的能力也导致性能较差留下足够的空间来提高精度。在这项工作中我们的目标是解决这些问题并进一步推进YOLO的精度-速度边界。我们的目标是整个检测管道的后处理和模型架构。为此我们首先解决后处理中的冗余预测问题提出了一个一致的双重分配策略用于无NMS的YOLO具有双重标签分配和一致的匹配度量。它允许模型在训练过程中享受丰富而和谐的监督同时在推理过程中无需NMS从而以高效率实现竞争性能。其次通过对YOLO中各个组件的全面检查提出了整体效率-精度驱动的模型架构设计策略。为了提高效率我们提出了轻量级分类头空间通道解耦下采样和秩引导块设计以减少表现出的计算冗余实现更高效的架构。为了准确性我们探索了大内核卷积并提出了有效的部分自注意模块来增强模型能力利用低成本下的性能改进潜力。基于这些方法我们成功地实现了具有不同模型尺度的实时端到端检测器的新家族即YOLOv10-N / S / M / B / L / X。对目标检测的标准基准进行了广泛的实验即COCO [33]证明我们的YOLOv 10在各种模型规模的计算精度权衡方面可以显着优于以前的最先进模型。如图1所示我们的YOLOv 10-S / X在类似性能下分别比RT-DETRR 18/ R101快1.8倍/ 1.3倍。与YOLOv 9-C相比YOLOv 10-B在性能相同的情况下延迟减少了46%。此外YOLOv 10表现出高效的参数利用。我们的YOLOv 10-L / X比YOLOv 8-L / X高0.3 AP和0.5 AP参数数量分别少1.8倍和2.3倍。与YOLOv 9-M / YOLO-MS相比YOLOv 10-M实现了相似的AP参数分别减少了23% / 31%。我们希望我们的工作能够激发该领域的进一步研究和进步。精读目标检测的发展 YOLO系列YOLO在性能和效率方面取得了平衡但存在训练和推断中的问题如标签分配策略和NMS的使用。DETR系列DETR是一种端到端的检测器架构可以有效解决YOLO存在的问题RT-DETR是DETR的一个变体可以实现实时应用。基于CNN的端到端检测器的探索除了DETR还有一些基于CNN的检测器采用一对一分配策略来减少冗余预测但存在性能和效率的问题。 YOLO的挑战以及过去的解决方案挑战YOLO在设计模型架构时需要平衡准确性和速度但存在计算冗余和效率次优的问题。主干和颈部设计策略针对主干和颈部设计了多种计算单元和特征融合方法如DarkNet、CSPNet、PAN等以增强特征提取能力和多尺度特征融合。本文方法提出了一个无 NMS 训练的一致双重分配的YOLO有助于模型在训练和推理过程中提高效率和性能。提出了整体效率-精度驱动的模型架构设计策略包括轻量级分类头、空间通道解耦下采样和大内核卷积等以提高模型的效率和准确性。成功实现了具有不同模型尺度的新家族YOLOv10-N/S/M/B/L/X并在COCO基准上进行了广泛实验显示出其优于以前先进模型的性能和效率。 2 Related Work—相关工作翻译实时目标探测器。实时目标检测的目标是在低延迟下对目标进行分类和定位这对于现实世界的应用至关重要。在过去的几年里大量的努力已经指向开发有效的检测器[185143327269302939]。特别是YOLO系列[43444521927562059]脱颖而出成为主流。YOLOv 1、YOLOv 2和YOLOv 3标识由三个部分组成的典型检测架构即脊柱、颈部和头部[434445]。YOLOv 4 [2]和YOLOv 5 [19]引入了CSPNet [57]设计来取代DarkNet [42]加上数据增强策略增强的PAN和更多种类的模型尺度等YOLOv 6 [27]分别为颈部和主干提供了BiC和SimCSPSPPF具有锚辅助训练和自蒸馏策略。YOLOv 7 [56]介绍了用于丰富梯度流路的E-ELAN并探索了几种可训练的免费赠品袋方法。YOLOv 8 [20]提出了用于有效特征提取和融合的C2f构建块。Gold-YOLO [54]提供了先进的GD机制以提高多尺度特征融合能力。YOLOv 9 [59]建议GELAN改进架构PGI增强培训过程。端到端物体探测器。端到端对象检测已经成为传统管道的范式转变提供了简化的架构[48]。DETR [4]引入了Transformer架构并采用匈牙利损失实现一对一匹配预测从而消除了手工制作的组件和后期处理。从那时起已经提出了各种DETR变体以提高其性能和效率[4061502834]。Deformable-DETR [74]利用多尺度可变形注意力模块来加速收敛速度。DINO [67]将对比去噪混合查询选择和两次前瞻方案集成到DETR中。RT-DETR [71]进一步设计了高效的混合编码器并提出了不确定性最小的查询选择以提高准确性和延迟。另一种实现端到端对象检测的方法是基于CNN检测器。可学习的NMS [23]和关系网络[25]提供了另一种网络来消除检测器的重复预测。OneNet [49]和DeFCN [60]提出了一对一的匹配策略以实现使用完全卷积网络的端到端对象检测。FCOSpss [73]引入了一个正样本选择器来选择预测的最佳样本。精读 Realtime object detectors—实时目标探测器这一部分就是总结了YOLOv1~v9可以mark一下自己论文中引用 End-to-end object detectors—端到端目标检测 DETR及变体采用Transformer架构和Hungarian匈牙利损失消除了传统检测管道的手工制作组件和后处理改进了性能和效率。基于CNN的方法学习的NMS、关系网络、OneNet和DeFCN等提供了消除重复预测的方法以实现端到端对象检测。其他技术如Deformable-DETR利用多尺度可变形注意力模块DINO结合对比去噪技术等进一步提高了性能。 3 Methodology—方法 3.1 Consistent Dual Assignments for NMS-free Training—用于无NMS训练的一致的双重训练翻译在训练过程中YOLO [20592764]通常利用TAL [14]为每个实例分配多个阳性样本。采用一对多的分配方式产生丰富的监控信号有利于优化获得上级性能。然而它需要YOLO依赖于NMS后处理这导致部署的次优推理效率。虽然以前的工作[4960735]探索了一对一匹配来抑制冗余预测但它们通常会引入额外的推理开销或产生次优性能。在这项工作中我们提出了一个无NMS的训练策略的YOLO与双标签分配和一致的匹配度量实现了高效率和竞争力的性能。双标签分配与一对多分配不同一对一匹配只为每个地面实况分配一个预测避免了NMS后处理。然而它导致监督不力导致次优精度和收敛速度[75]。幸运的是这种不足可以通过一对多分配来弥补[5]。为了实现这一点我们引入了YOLO的双标记分配以联合收割机结合两种策略的优点。具体如图2所示。(a)我们为YOLO加入了另一个一对一的头。它保留了与原始一对多分支相同的结构并采用相同的优化目标但利用一对一匹配来获得标签分配。在训练过程中两个头部与模型共同优化让骨干和颈部享受到一对多分配所提供的丰富监督。在推理过程中我们丢弃了一对多的头并利用一对一的头来进行预测。这使YOLO能够用于端到端部署而不会产生任何额外的推理成本。此外在一对一匹配中我们采用了前一个选择这与匈牙利匹配[4]具有相同的性能但额外的训练时间更少。一致的匹配指标在分配过程中一对一和一对多方法都利用指标来定量评估预测和实例之间的一致性程度。为了实现两个分支的预测感知匹配采用统一的匹配度量即其中是分类分数 ^ 和分别表示预测和实例的边界框。表示空间先验指示预测的锚点是否在实例内。和是平衡语义预测任务和位置回归任务影响的两个重要超参数。将一对多和一对一指标分别表示为 ⁢2⁢ ⁢(⁢2⁢,⁢2⁢) 和 ⁢2⁢ ⁢(⁢2⁢,⁢2⁢) 。这些指标影响两个头的标签分配和监督信息。在双标签分配中一对多分支提供比一对一分支更丰富的监控信号。直观上如果能够协调一对一头和一对多头的监督就可以将一对一头朝着一对多头优化的方向优化。因此一对一头部可以在推理过程中提供更高的样本质量从而获得更好的性能。为此首先分析一下两位掌门人的监管差距。由于训练过程中的随机性一开始就用两个头初始化相同的值并产生相同的预测来开始检查即一对一头和一对多头生成相同的将最大的一对多和一对一匹配分数表示为 ⁢2⁢∗ 和 ⁢2⁢∗ 一对一分支选择个预测其度量为 ⁢2⁢, ⁢2⁢∗ 然后可以导出 ∈Ω 和 ⁢2⁢, ∗⋅⁢2⁢,⁢2⁢∗ b12 ∗ 对于任务对齐损失。因此两个分支之间的监督差距可以通过不同分类目标的 1-Wasserstein 距离得出即可以观察到随着 ⁢2⁢, 的增加差距减小即在 Ω 中排名更高。当 ⁢2⁢, ∗ 时达到最小值即是 Ω 中最好的正样本如图 2 所示(a)。为了实现这一点提出一致的匹配度量即 ⁢2⁢ ⋅⁢2⁢ 和 ⁢2⁢ ⋅⁢2⁢ 这意味着 ⁢2⁢ ⁢2⁢ 。因此一对多头部的最佳正样本也是一对一头部的最佳正样本。因此两个头都可以得到一致、和谐的优化。为简单起见默认取 1即 ⁢2⁢ ⁢2⁢ 和 ⁢2⁢ ⁢2⁢ 。为了验证改进的监督对齐计算训练后一对多结果的前 1 / 5 / 10 内一对一匹配对的数量。如图2(b)所示在一致匹配度量下对齐得到了改善。为了更全面地理解数学证明请参阅附录。精读 Dual label assignments—双标签分配一对多分配在训练过程中YOLO系列通常利用TAL任务分配学习为每个实例分配多个正样本。优点一对多的分配方式产生了丰富的监督信号促进了优化并使模型实现了卓越的性能。不足这使得YOLO系列必须依赖于NMS后处理这导致在部署时的推理效率不是最优的。一对一分配一对一分配只为每个地面实况分配一个预测优点避免了NMS后处理不足通常会增加额外的推理开销或导致次优的性能本文方法图2a无NMS训练的一致双重分配。(b)YOLOv 8-S的一对多结果的Top-1/5/10中一对一分配的频率默认使用α o2 m 0.5和β o2 m 6 [20]。为了保持一致αo2o0.5; βo2o6。对于不一致性αo2o0.5; βo2o 2。本文引入了另一种一对一Head结构与原始的一对多分支相同并采用相同的优化目标但使用一对一分配方式来确定标签分配在训练过程中两个 Head 联合优化以提供丰富的监督。在推理过程中YOLOv10 会丢弃一对多 Head 并利用一对一 Head 做出预测。这使得 YOLO 能够进行端到端部署而不会产生任何额外的推理成本。 Consistent matching metric—一致匹配度量为了实现一对一和一对多两个分支的预测感知匹配采用统一的匹配度量即 p分类分数b^ 和 b 分别表示预测和实例的边界框s 表示空间先验指示预测的锚点是否在实例内和平衡语义预测任务和位置回归任务影响的两个重要超参数一对多指标⁢2⁢ ⁢(⁢2⁢,⁢2⁢) 一对一指标⁢2⁢ ⁢(⁢2⁢,⁢2⁢) 在双标签分配中一对多分支提供比一对一分支更丰富的监控信号。两个分支之间的监督差距可以通过不同分类目标的 1-Wasserstein 距离得出即可以观察到随着 ⁢2⁢, 的增加差距减小即在 Ω 中排名更高。当 ⁢2⁢, ∗ 时达到最小值即是 Ω 中最好的正样本如图 2 所示(a)。为了实现这一点提出一致的匹配度量即 ⁢2⁢ ⋅⁢2⁢ 和 ⁢2⁢ ⋅⁢2⁢。如图2(b)所示 3.2 Holistic Efficiency-Accuracy Driven Model Design—整体效率-精度驱动的模型设计翻译除了后处理之外YOLO 的模型架构也对效率与准确性的权衡提出了巨大的挑战。尽管之前的工作探索了各种设计策略但仍然缺乏对 YOLO 中各种组件的全面检查。因此模型架构表现出不可忽略的计算冗余和受限能力这阻碍了其实现高效率和高性能的潜力。在这里目标是从效率和准确性的角度全面地进行 YOLO 的模型设计。效率驱动的模型设计 YOLO 中的组件由茎、下采样层、具有基本构建块的阶段和头部组成。茎的计算成本很少因此我们对其他三个部分进行效率驱动的模型设计。 (1) 轻量化分类头。 YOLO 中的分类和回归头通常共享相同的架构。然而它们在计算开销方面表现出显著的差异。例如在YOLOv8-S中分类头5.95G/1.51M的FLOPs和参数计数是回归头2.34G/0.64M的2.5倍和2.4倍。然而在分析分类误差和回归误差的影响后见表9发现回归头对YOLO的性能具有更重要的意义。因此可以减少分类头的开销而不用担心极大地损害性能。因此简单地采用轻量级的分类头架构它由两个深度可分离卷积组成内核大小为3 × 3后面跟着一个1 × 1个卷积。 (2) 空间通道解耦下采样。 YOLO通常利用常规的3 × 3标准卷积步长为2实现空间下采样从 × 到 2×2 和通道转换从到 2同时。这引入了不可忽略的 ⁢(92⁢⁢⁢2) 计算成本和 ⁢(18⁢2) 参数计数。相反建议将空间缩减和通道增加操作解耦从而实现更有效的下采样。具体来说首先利用逐点卷积来调制通道维度然后利用深度卷积来执行空间下采样。这将计算成本减少到 ⁢(2⁢⁢⁢292⁢⁢⁢) 并将参数计数减少到 ⁢(2⁢218⁢) 。同时它最大限度地提高了下采样过程中的信息保留从而在减少延迟的同时带来有竞争力的性能。 (3) 排序引导的块设计。 YOLO 通常在所有阶段使用相同的基本构建块例如 YOLOv8 中的瓶颈块。为了彻底检查 YOLO 的这种同构设计利用内在等级来分析每个阶段的冗余。图3aYOLOv 8中各阶段和模型的内在排名。在骨干和颈部的阶段是按照模型前向过程的顺序编号的。数值秩r被归一化为y轴的r/Co其阈值默认设置为λmax/2其中Co表示输出通道的数量λmax是最大奇异值。可以观察到深阶段和大模型表现出较低的内在秩值。(b)紧凑倒置块CIB。(c)部分自我注意模块PSA。具体来说计算每个阶段最后一个基本块中最后一个卷积的数值秩即计算大于阈值的奇异值的数量。图3a展示了YOLOv8的结果表明深阶段和大型模型容易表现出更多的冗余。这一观察结果表明简单地对所有阶段应用相同的块设计对于最佳容量效率权衡来说并不是最优的。为了解决这个问题提出一种排序引导的块设计方案旨在使用紧凑的架构设计来降低被证明是冗余的阶段的复杂性。首先提出一种紧凑的反向块CIB结构它采用精简的深度卷积“cheap depthwise convolutions”不知道咋翻译好。。。进行空间混合并采用经济有效的点卷积进行通道混合如图3b所示。它可以作为高效的基本构建块例如嵌入 ELAN 结构中图 3.(b)。然后提倡采用排名引导的区块分配策略以在保持竞争能力的同时实现最佳效率。具体来说给定一个模型根据其内在排名按升序对所有阶段进行排序。进一步考察用 CIB 替换前导阶段基本块的性能变化。如果与给定模型相比没有性能下降将继续更换下一阶段否则停止该过程。因此可以跨阶段和模型规模实现自适应紧凑块设计在不影响性能的情况下实现更高的效率。精度驱动的模型设计研究者进一步探索用于精度驱动设计的大核卷积和自注意力旨在以最小的成本提高性能。 (1) 大核卷积。采用大核深度卷积是扩大感受野和增强模型能力的有效方法。然而在所有阶段简单地利用它们可能会导致用于检测小物体的浅层特征受到污染同时还会在高分辨率阶段引入显着的 I/O 开销和延迟。因此建议在深度阶段利用 CIB 中的大内核深度卷积。具体来说将 CIB 中第二个 3 × 3 深度卷积的内核大小增加到 7 × 7遵循。此外采用结构重新参数化技术带来另外 3 × 3 个深度卷积分支以减轻优化问题而无需推理开销。此外随着模型尺寸的增加其感受野自然扩大而使用大核卷积的好处逐渐减少。因此只对小模型规模采用大核卷积。 (2) 部分自注意力PSA。自注意力由于其卓越的全局建模能力而被广泛应用于各种视觉任务中。然而它表现出较高的计算复杂度和内存占用。为了解决这个问题鉴于普遍存在的注意力头冗余研究者提出一种有效的部分自注意力PSA模块设计如图3c所示。具体来说在 1 × 1 卷积之后将跨通道的特征均匀地划分为两部分。只将一部分输入到由多头自注意力模块MHSA和前馈网络FFN组成的 PSA 块中。然后两个部分通过 1 × 1 卷积连接并融合。此外将查询和密钥的维度分配为MHSA中值的一半并将LayerNorm替换为BatchNorm以实现快速推理。此外PSA 仅放置在分辨率最低的第 4 阶段之后避免了自注意力的二次计算复杂性带来的过多开销。这样可以将全局表示学习能力以较低的计算成本融入到YOLO中从而很好地增强了模型的能力并提高了性能。精读 Efficiency driven model design—效率驱动的模型设计先前工作的不足先前工作在对YOLO各部分的综合检查上仍有不足。模型存在计算冗余和性能受限问题。本文工作目的本文旨在全面优化YOLO的模型设计考虑效率和准确性。 YOLO 中的组件包括主干、下采样层、带有基本构建块的阶段和 head。作者主要对以下三个部分执行效率驱动的模型设计 1轻量级分类头设计分类头采用了一种轻量级架构它由两个深度可分离的卷积组成内核大小为3×3然后是1×1卷积。通过简化分类头架构降低计算开销而不会显著影响性能。 2空间通道解耦下采样我们首先利用逐点卷积来调制信道维度然后利用去卷积来执行空间下采样。将空间下采样和通道转换操作解耦提高了信息保留率从而实现了更高的效率和竞争力。 3基于排序引导的模块设计过去的问题以YOLOv8为例深度阶段和大型模型倾向于表现出更多的冗余。我们首先提出了一个紧凑的倒置块CIB结构它采用了cheap depthwise convolutions的空间混合和成本有效的逐点卷积的通道混合如图3b所示然后本文使用一种排序引导的模块分配策略以达到最佳的效率同时保持竞争能力。根据各个阶段的冗余程度采用不同的基本构建块以实现更高效的模型设计。 Accuracy driven model design—精度驱动的模型设计 1大核深度卷积模块在深度阶段使用大内核dependency convolutions将CIB中第二个3×3深度卷积的核大小增加到7×7以扩大感受野和增强模型能力。使用结构重新参数化技术引入另一个3×3深度卷积分支来减轻优化问题避免推理开销。仅对小模型规模采用大核卷积随模型规模增加大核卷积带来的好处减少。 2部分自我注意PSA设计提出了部分自注意PSA模块设计将通道特征均匀划分为两部分其中一部分经过MHSA和FFN组成的NPSA模块处理再与另一部分融合。将查询和键的维度分配为MHSA中值的一半并将LayerNorm替换为BatchNorm以提高推理速度。PSA模块只放置在具有最低分辨率的阶段4之后避免过多计算复杂度开销有效地融入了全局表示学习能力提升模型性能。 4 Experiments—实验 4.1 Implementation Details—实验细节翻译我们选择YOLOv 8 [20]作为我们的基线模型因为它值得称赞的延迟-准确性平衡及其在各种模型大小中的可用性。我们采用一致的双重分配进行无NMS训练并在此基础上进行整体效率-准确性驱动的模型设计这带来了我们的YOLOv 10模型。YOLOv 10具有与YOLOv 8相同的变体即N / S / M / L / X。此外通过简单地增加YOLOv 10-M的宽度比例因子我们得到了一个新的变体YOLOv 10-B。我们在相同的从头开始训练设置[205956]下在COCO [33]上验证了所提出的检测器。此外所有模型的计算都在T4 GPU上使用TensorRT FP 16进行了测试如下[71]。精读 baselineYOLOv8训练方法一致的双重分配进行无NMS训练并在此基础上进行整体效率-准确性驱动的模型设计变体 YOLOv 10具有与YOLOv 8相同的变体即N / S / M / L / X通过简单地增加YOLOv 10-M的宽度比例因子得到了一个新的变体YOLOv 10-B数据集COCO硬件设施T4 GPU上使用TensorRT FP 16进行了测试 4.2 Comparison with state-of-the-arts—与最先进技术的比较翻译如Tab中所示。1、我们的YOLOv 10在各种模型规模上实现了最先进的性能和端到端延迟。我们首先将YOLOv 10与我们的基线模型进行比较即YOLOv8.在N / S / M / L / X五种变体上我们的YOLOv 10实现了1.2% / 1.4% / 0.5% / 0.3% / 0.5%的AP改进参数减少了28% / 36% / 41% / 44% / 57%计算减少了23% / 24% / 25% / 27% / 38%乳酸菌降低70% / 65% / 50% / 41% / 37%。与其他YOLO相比YOLOv 10在精度和计算成本之间也表现出上级权衡。具体而言对于轻量级和小型模型YOLOv 10-N / S的性能优于YOLOv 6 -3.0-N / S 1.5 AP和2.0 AP参数分别减少51% / 61%计算量分别减少41% / 52%。对于中型机型与YOLOv 9-C / YOLO-MS相比YOLOv 10-B / M在相同或更好的性能下延迟分别减少了46% / 62%。对于大型模型与Gold-YOLO-L相比我们的YOLOv 10-L显示了68%的参数减少和32%的延迟降低沿着AP显著提高了1.4%。此外与RT-DETR相比YOLOv 10获得了显着的性能和延迟改善。值得注意的是YOLOv 10-S / X在性能相似的情况下推理速度分别比RT-DETR-R18 / R101快1.8倍和1.3倍。这些结果充分证明了YOLOv 10作为实时端到端检测器的优越性。我们还使用原始的一对多训练方法将YOLOv 10与其他YOLO进行了比较。在这种情况下我们考虑模型前向过程Latencyf的性能和延迟如下[562054]。如Tab中所示。YOLOv 10还在不同的模型尺度上展示了最先进的性能和效率表明了我们的架构设计的有效性。表1与现有技术的比较。延迟使用官方的预训练模型来测量。Latencyf表示模型前向过程中没有后处理的延迟。†表示使用NMS进行原始一对多训练的YOLOv10结果。下面的所有结果都没有额外的高级培训技术如知识蒸馏或PGI进行公平比较。精读比较方法对于baselineYOLOv10五个变体N / S / M / L / X 分别和对应的YOLOv8进行比较对于轻量级和小型模型以YOLOv10-N / S 与 YOLOv6-3.0-N / S相比举例对于中型模型以YOLOv10-B / M与YOLOv9-C / YOLO-MS相比举例对于大型模型以YOLOv10-L 与 Gold-YOLO-L 相比举例对于 RT-DETR 以OLOv 10-S / X与RT-DETR-R18 / R101相比举例结论YOLOv10 在各种模型规模上实现了最先进的性能和端到端延迟。 4.3 Model Analyses—模型分析 Ablation study—消融实验翻译消融研究。我们在表中提供了基于YOLOv 10-S和YOLOv 10-M的消融结果。2.可以观察到我们的无NMS训练和一致的双重分配将YOLOv 10-S的端到端延迟显著降低了4.63ms同时保持了44.3% AP的竞争性能。此外我们的效率驱动模型设计导致减少了11.8 M参数和20.8 GFlOP对于YOLOv 10-M延迟减少了0.65 ms充分显示了其有效性。此外我们的精度驱动模型设计实现了YOLOv 10-S和YOLOv 10-M的1.8 AP和0.7 AP的显着改进分别只有0.18ms和0.17ms的延迟开销这充分证明了其优越性。表2COCO上使用YOLOv 10-S和YOLOv 10-M的消融研究。精读针对 YOLOv10-S 和 YOLOv10-M 进行了消融实验证明了无 NMS 训练的一致双重分配效率驱动模型精度驱动模型的优越性。 Analyses for NMS-free training—无NMS训练分析翻译无NMS训练分析。表3双重分配。表4匹配度量双标签分配。研究者提出NMS-free YOLO 的双标签分配它既可以在训练过程中带来丰富的一对多o2m分支的监督又可以在推理过程中带来一对一o2o分支的高效率。基于 YOLOv8-S 验证其优势即表 2 中的#1。具体来说分别引入仅使用 o2m 分支和仅使用 o2o 分支进行训练的基线。如表3所示我们的双标签分配实现了最佳的 AP 延迟权衡。一致的匹配度量。引入一致的匹配度量使一对一头部与一对多头部更加和谐。基于 YOLOv8-S 验证其优势即表 2 中的#1。在不同的 ⁢2⁢ 和 ⁢2⁢ 下。如表4所示所提出的一致匹配度量即 ⁢2⁢ ⋅⁢2⁢ 和 ⁢2⁢ ⋅⁢2⁢ 可以实现最佳性能其中一对多头中的 b6 0.5 和 ⁢2⁢ 6.0。这种改进可归因于监督差距的缩小等式2这改善了两个分支之间的监督一致性。此外所提出的一致匹配度量消除了详尽的超参数调整的需要这在实际场景中很有吸引力。精读双标签分配实现了最佳的 AP 延迟权衡引入一致的匹配度量使一对一头部与一对多头部更加和谐。 Analyses for efficiency driven model design—效率驱动的模型设计分析翻译效率驱动的模型设计分析。我们进行实验逐步纳入效率驱动的设计元素的基础上YOLOv 10-S/M。我们的基线是没有效率-准确性驱动模型设计的YOLOv 10-S/M模型即表 2 中的 #2/#6。如表5所示每个设计组件包括轻量级分类头、空间通道解耦下采样和秩引导块设计都有助于减少参数计数、FLOP和延迟。重要的是这些改进是在保持竞争力的同时实现的。轻型分类头。基于表5中#1 和#2 的 YOLOv10-S 分析了预测的类别和定位误差对性能的影响。具体来说通过一对一分配将预测与实例进行匹配。然后用实例标签替换预测的类别分数从而得到没有分类错误的 AP /⁢⁢⁢ 。类似地用实例的位置替换预测位置产生没有回归错误的 AP /⁢⁢⁢ 。如表6所示AP /⁢⁢⁢ 远高于AP /⁢⁢⁢ 表明消除回归误差取得了更大的改进。因此性能瓶颈更多地在于回归任务。因此采用轻量级分类头可以在不影响性能的情况下实现更高的效率。空间通道解耦下采样。解耦下采样操作以提高效率其中通道尺寸首先通过逐点卷积PW增加然后通过深度卷积DW降低分辨率以最大程度地保留信息。将其与基于表 5 中 #3 的 YOLOv10-S 的 DW 空间缩减和 PW 通道调制的基线方法进行比较。如表7所示下采样策略通过在下采样过程中减少信息损失实现了 0.7% 的 AP 改进。紧凑型倒置块(CIB)。引入 CIB 作为紧凑的基本构建块。根据表5中#4的YOLOv10-S验证其有效性。具体来说引入倒置残差块IRB作为基线它实现了次优的 43.7% AP如表 8 所示。然后在其后附加一个 3 × 3 深度卷积DW表示为“IRB-DW”这带来了 0.5% 的 AP 改进。与“IRB-DW”相比CIB 通过以最小的开销预先添加另一个 DW进一步实现了 0.3% 的 AP 改进表明了其优越性。等级引导的块设计。为了提高模型的效率我们引入了秩引导的区组设计来自适应地整合紧凑区组设计。根据表5中#3的YOLOv10-S验证了它的好处。根据内在等级升序排列的阶段为阶段8-4-7-3-5-1-6-2如图3(a)所示。如表9所示当用高效的CIB逐渐替换每个阶段的瓶颈块时观察到从第7阶段开始性能下降。在具有较低内在等级和更多冗余的第8和4阶段可以在不妥协的情况下采用高效的块设计的表现。这些结果表明排序引导的块设计可以作为提高模型效率的有效策略。精读如下表所示每个设计组件包括轻量级分类 head、空间通道解耦下采样和排序指导的模块设计都有助于减少参数数量、FLOPs 和延迟。重要的是这些改进是在保持卓越性能的同时所实现的。 1轻量级分类头通过消除回归误差轻量级分类头实现了更高的效率而不影响性能。 2空间通道解耦下采样通过解耦下采样操作在下采样过程中减少信息损失实现了性能的改进。 3紧凑倒置块(CIB)CIB作为紧凑的基本构建块通过最小的开销预先添加另一个DW进一步提高了性能。 4等级引导的块设计根据内在等级排序逐步替换每个阶段的瓶颈块观察到在低内在等级和更多冗余的阶段采用高效的块设计的表现优越。 Analyses for accuracy driven model design—精度驱动的模型设计分析翻译基于 YOLOv10-S/M 逐步集成精度驱动设计元素的结果。基线是结合效率驱动设计后的 YOLOv10-S/M 模型即表 2 中的 #3/#7。如表13所示大核卷积和 PSA 模块的采用使得 YOLOv10-S 在最小延迟增加 0.03ms 和 0.15ms 的情况下分别获得了 0.4% AP 和 1.4% AP 的可观性能提升。请注意YOLOv10-M 未采用大核卷积参见表 12。大内核卷积。首先基于表 10中#2 的 YOLOv10-S 研究不同内核大小的影响。如表11所示性能随着内核大小的增加而提高并在内核大小 7 × 7 附近停滞表明大感知场的好处。此外在训练期间删除重参数化分支实现了 0.1% 的 AP 退化显示了其优化的有效性。此外基于YOLOv10-N / S / M检查了跨模型尺度的大内核卷积的好处。如表12所示由于其固有的广泛感受野它对大型模型即 YOLOv10-M没有带来任何改进。因此只对小模型采用大核卷积即 YOLOv10-N / S。部分自我注意PSA。引入PSA通过以最小的成本整合全局建模能力来提高性能。首先基于表 10 中的 YOLOv10-S 验证其有效性。具体来说引入了 Transformer 块即 MHSA 后跟 FFN作为基线表示为“Trans.”。如表13所示与之相比PSA带来了0.3%的AP提升和0.05ms的延迟降低。性能的增强可能归因于通过减少注意力头的冗余来缓解自注意力的优化问题。此外研究不同 PSA 的影响。如表13所示将 PSA 增加到 2 可以获得 0.2% 的 AP 改进但会带来 0.1ms 的延迟开销。因此默认将 PSA 设置为1以在保持高效率的同时增强模型能力。精读 1大核卷积YOLOv10-S中采用大核卷积带来了0.4%至1.4%的AP提升但仅增加了最小延迟。 2部分自注意力PSA引入PSA在YOLOv10-S中带来了0.3%的AP提升和0.05ms的延迟降低有效提高了模型性能。 5 Conclusion—结论翻译在本文中我们的目标是在整个检测管道的YOLO的后处理和模型架构。对于后处理我们提出了一致的双重分配用于NMS free训练实现了高效的端到端检测。在模型架构上引入了整体效率-精度驱动的模型设计策略改善了性能-效率的权衡。这带来了我们的YOLOv 10一种新的实时端到端对象检测器。大量的实验表明YOLOv 10与其他先进的检测器相比在性能和延迟方面都达到了最先进的水平充分展示了其优越性。精读 1本文提出了一个新的无 NMS 训练的一致双重分配减少了后处理对NMS的依赖导致训练时的延迟从而提高了检测速度并减少了超参数的影响。 2作者还提出了一种全面的效率和准确性驱动的设计策略该策略涵盖了多个组件包括轻量级分类头、空间通道分离下采样和排名引导块等设计以提高模型的效率和准确性。

查看全文

http://www.hkea.cn/news/14552965/