当前位置：首页 > news >正文

邯郸创建网站要多少钱腾讯云网站建设

news 2026/4/19 2:15:39

邯郸创建网站要多少钱,腾讯云网站建设,网站怎么做飘窗,王也道长古风头像摘要我们提出了一种新方法#xff0c;将目标检测视为直接的集合预测问题。我们的方法简化了检测流程#xff0c;有效消除了对许多手工设计组件的需求#xff0c;如非极大值抑制过程或锚框生成#xff0c;这些组件显式编码了我们对任务的先验知识。新框架称为检测变换器将目标检测视为直接的集合预测问题。我们的方法简化了检测流程有效消除了对许多手工设计组件的需求如非极大值抑制过程或锚框生成这些组件显式编码了我们对任务的先验知识。新框架称为检测变换器DEtection TRansformer简称DETR其主要成分是通过二分匹配强制唯一预测的基于集合的全局损失以及一个变换器编码器-解码器架构。给定一组固定的小规模学习到的目标查询DETR推理目标之间的关系和全局图像上下文以并行方式直接输出最终的预测集合。新模型概念上简单并且不需要像许多其他现代检测器那样的专用库。在具有挑战性的COCO目标检测数据集上DETR的表现与经过充分研究和高度优化的Faster RCNN基线相当。此外DETR可以轻松推广以统一的方式产生全景分割。我们证明了它显著优于竞争性的基线。训练代码和预训练模型可在https://github.com/facebookresearch/detr获取。 1 引言目标检测的目标是预测每个感兴趣目标的边界框和类别标签。现代检测器通过在一组大量的提议[37,5]、锚框[23]或窗口中心[53,46]上定义替代回归和分类问题来间接解决这个集合预测任务。它们的性能受到后处理步骤的显著影响这些步骤用于合并近似重复的预测受到锚框集设计的影响以及将目标框分配给锚框的启发式方法的影响[52]。为了简化这些流程我们提出了一种直接的集合预测方法以绕过替代任务。这种端到端的理念在复杂的结构化预测任务如机器翻译或语音识别中取得了显著进展但在目标检测中尚未实现之前的尝试[43,16,4,39]要么添加了其他形式的先验知识要么在具有挑战性的基准测试中尚未证明能与强大的基线相竞争。本文旨在弥合这一差距。我们通过将目标检测视为直接的集合预测问题来简化训练流程。我们采用基于变换器[47]的编码器-解码器架构这是一种流行的序列预测架构。变换器的自注意力机制显式建模序列中元素之间的所有成对交互这使得这些架构特别适合于集合预测的特定约束如去除重复预测。我们的检测变换器DETR见图1一次性预测所有目标并使用集合损失函数进行端到端训练该函数在预测目标和真实目标之间进行二分匹配。DETR通过去除多个编码先验知识的手工设计组件如空间锚框或非极大值抑制来简化检测流程。与大多数现有的检测方法不同DETR不需要任何定制层因此可以在包含标准CNN和变换器类的任何框架中轻松复现。图 1: DETR directly predicts (in parallel) the final set of detections by combining a common CNN with a transformer architecture. 与以往关于直接集合预测的大多数工作相比DETR的主要特点是二分匹配损失和变换器与非自回归并行解码[29,12,10,8]的结合。相比之下以往的工作侧重于使用RNN的自回归解码[43,41,30,36,42]。我们的匹配损失函数唯一地将预测分配给真实目标并且对预测目标的排列是不变的因此我们可以并行地发出它们。我们在最受欢迎的目标检测数据集之一COCO[24]上评估了DETR与非常有竞争力的Faster R-CNN基线[37]进行了比较。Faster R-CNN经历了许多设计迭代其性能自最初发表以来得到了极大的提高。我们的实验表明我们的新模型实现了相当的性能。更具体地说DETR在大目标上表现出显著更好的性能这一结果很可能是由变换器的非局部计算所实现的。然而它在小目标上的性能较低。我们预计未来的工作将像FPN[22]对Faster R-CNN的发展那样改善这一方面。 DETR的训练设置与标准的目标检测器在多个方面有所不同。新模型需要更长的训练计划并从Transformer中的辅助解码损失中获益。我们彻底探索了哪些组件对于所展示的性能至关重要。 DETR的设计理念很容易扩展到更复杂的任务。在我们的实验中我们展示了一个在预训练的DETR之上训练的简单分割头在全景分割[19]这一具有挑战性的像素级识别任务上优于有竞争力的基线。 2 相关工作我们的工作建立在多个领域的先前工作之上用于集合预测的二元匹配损失、基于Transformer的编码器-解码器架构、并行解码以及目标检测方法。 2.1 集合预测没有用于直接预测集合的规范深度学习模型。基本的集合预测任务是多标签分类例如参见[40,33]在计算机视觉背景下的参考文献对于该问题基线方法一对一剩余不适用于如检测这样存在元素间底层结构即近乎相同的框的问题。这些任务中的第一个困难是避免近乎重复的项。大多数当前的检测器使用如非极大值抑制的后处理来解决这个问题但直接集合预测是无需后处理的。它们需要全局推理方案来建模所有预测元素之间的相互作用以避免冗余。对于恒定大小的集合预测密集的全连接网络[9]是足够的但成本高昂。一种通用方法是使用如循环神经网络[48]的自回归序列模型。在所有情况下损失函数应该对预测的排列保持不变。通常的解决方案是基于匈牙利算法[20]设计损失以找到真实值和预测之间的二分匹配。这强制实现排列不变性并保证每个目标元素都有一个唯一匹配。我们遵循二分匹配损失的方法。然而与大多数先前的工作不同我们放弃了自回归模型而使用具有并行解码的Transformer我们将在下面进行描述。 2.2 Transformer和并行解码 Transformer是由Vaswani等人[47]作为机器翻译的一种新的基于注意力的构建块而引入的。注意力机制[2]是神经网络层它从整个输入序列中聚合信息。Transformer引入了自注意力层它类似于非局部神经网络[49]扫描序列的每个元素并通过从整个序列聚合信息来更新它。基于注意力的模型的主要优点之一是它们的全局计算和完美记忆这使得它们比循环神经网络更适合处理长序列。Transformer现在正在自然语言处理、语音处理和计算机视觉的许多问题中取代循环神经网络。 Transformer最初用于自回归模型遵循早期的序列到序列模型[44]逐个生成输出标记。然而高昂的推理成本与输出长度成正比且难以批量处理导致了并行序列生成的发展应用于音频[29]、机器翻译[12,10]、词表示学习[8]等领域以及最近应用于语音识别[6]。我们还结合了Transformer和并行解码因为它们在计算成本和执行集合预测所需的全局计算之间提供了合适的权衡。 2.3 目标检测大多数现代目标检测方法都是基于一些初始猜测进行预测的。两阶段检测器[37,5]根据候选区域预测边界框而单阶段方法则是根据锚点[23]或可能的对象中心的网格[53,46]进行预测。最近的工作[52]表明这些系统的最终性能很大程度上取决于这些初始猜测的设定方式。在我们的模型中我们能够去除这个手工设计的过程并通过直接预测相对于输入图像的绝对边界框的检测集来简化检测过程而不是使用锚点。基于集合的损失。几个目标检测器[9,25,35]使用了二分匹配损失。然而在这些早期的深度学习模型中不同预测之间的关系仅通过卷积层或全连接层来建模并且手工设计的非极大值抑制NMS后处理可以提高它们的性能。更近期的检测器[37,23,53]使用非唯一分配规则来匹配真实值和预测值并结合使用NMS。可学习的NMS方法[16,4]和关系网络[17]使用注意力机制显式地建模不同预测之间的关系。使用直接的集合损失它们不需要任何后处理步骤。然而这些方法使用了额外的手工设计的上下文特征如候选区域框坐标以有效地建模检测之间的关系而我们则寻求减少模型中编码的先验知识的解决方案。循环检测器。与我们的方法最接近的是用于目标检测[43]和实例分割[41,30,36,42]的端到端集合预测。与我们类似它们使用二分匹配损失并基于卷积神经网络CNN激活的编码器-解码器架构来直接生成一组边界框。然而这些方法仅在小型数据集上进行了评估并未与现代基线进行比较。特别是它们基于自回归模型更具体地说是循环神经网络RNN因此没有利用具有并行解码能力的最新Transformer模型。 3 DETR模型直接集合预测在检测中的两个关键要素是1一个集合预测损失它强制在预测的边界框和真实边界框之间进行唯一匹配2一个架构它在一次通过中预测一组对象并建模它们之间的关系。我们在图2中详细描述了我们的架构。图 2: DETR uses a conventional CNN backbone to learn a 2D representation of aninput image. 3.1 目标检测集合预测损失 DETR在一次通过解码器的过程中推断出一个固定大小的N个预测集其中N被设置为远大于图像中对象的典型数量。训练的主要困难之一是根据真实值对预测的对象类别、位置、大小进行评分。我们的损失在预测的对象和真实对象之间产生一个最优的二分匹配然后优化对象特定的边界框损失。我们用y表示真实对象集用表示N个预测的集合。假设N大于图像中的对象数量我们也将y视为大小为N的集合并用“无对象”进行填充。为了在这两个集合之间找到一个二分匹配我们搜索具有最低成本的N个元素的排列σ ∈ SN 其中是真实值yi和索引为σ(i)的预测之间的成对匹配成本。这种最优分配是通过Hungarian算法高效计算的遵循先前的工作例如[43]。匹配成本同时考虑了类别预测以及预测框和真实框之间的相似性。真实集中的每个元素i可以看作是一个yi (ci; bi)其中ci是目标类别标签可能是“无对象”bi ∈ [0,1]4是一个向量定义了真实框的中心坐标以及相对于图像大小的高度和宽度。对于索引为σ(i)的预测我们定义类别ci的概率为^ pσ(i)(ci)预测框为^bσ(i)。使用这些符号我们将定义为这种寻找匹配的过程在现代检测器中起到了与启发式分配规则相同的作用后者用于将候选区域[37]或锚点[22]与真实对象进行匹配。主要的区别在于我们需要为没有重复的直接集合预测找到一对一的匹配。第二步是计算损失函数即上一步中所有匹配对的匈牙利损失。我们定义损失函数的方式与常见目标检测器的损失函数类似即类别预测的负对数似然和稍后定义的框损失的线性组合: 其中是在第一步1中计算出的最优分配。在实践中当时我们通过因子10来降低对数概率项的权重以考虑类别不平衡。这与Faster R-CNN训练过程中通过子采样来平衡正负候选区域的方式类似[37]。请注意对象与之间的匹配成本不依赖于预测这意味着在这种情况下成本是恒定的。在匹配成本中我们使用概率pσ(i)(ci)而不是对数概率。这使得类别预测项与下面描述具有可比较性并且我们观察到了更好的经验性能。边界框损失。匹配成本的第二部分和匈牙利损失的第二部分是Lbox(·)它对边界框进行评分。与许多将边界框预测作为相对于某些初始猜测的Δw.r.t 进行的方法不同我们直接进行边界框预测。虽然这种方法简化了实现但它带来了相对损失缩放的问题。最常用的L1损失对于小框和大框即使它们的相对误差相似也会有不同的尺度。为了缓解这个问题我们使用L1损失和广义交并比IoU损失[38]的线性组合后者是尺度不变的。总的来说我们的框损定义为其中λiou, λL1 ∈ R是超参数。这两个损失由批次中的对象数量进行归一化。 3.2 DETR架构 DETR的整体架构出奇地简单如图2所示。它包含三个主要组件我们将在下面进行描述一个CNN主干网络用于提取紧凑的特征表示一个编码器-解码器变换器以及一个简单的前馈神经网络FFN用于进行最终的检测预测。与许多现代检测器不同DETR可以在任何提供通用CNN主干和变换器架构实现的深度学习框架中用仅几百行代码实现。DETR的推理代码在PyTorch[32]中可以用不到50行代码实现。我们希望我们方法的简单性能够吸引新的研究人员加入到检测领域。主干网络。从初始图像具有3个颜色通道开始一个常规的CNN主干网络生成一个低分辨率的激活图。我们使用的典型值是C2048和H, WH/32, W/32。 Transformer编码器。首先一个1x1卷积将高级激活图f的通道维度从C减小到一个更小的维度d创建一个新的特征图。编码器期望一个序列作为输入因此我们将z0的空间维度折叠成一个维度得到一个d×HW特征图。每个编码器层都具有标准架构并包含一个多头自注意力模块和一个前馈神经网络FFN。由于变换器架构是排列不变的我们用固定的位置编码[31,3]对其进行补充这些位置编码被添加到每个注意力层的输入中。我们推迟到补充材料中对架构的详细定义该定义遵循[47]中描述的架构。 Transformer解码器。解码器遵循变换器的标准架构使用多头自注意力和编码器-解码器注意力机制对N个大小为d的嵌入进行变换。与原始变换器的不同之处在于我们的模型在每个解码器层中并行解码N个对象而Vaswani等人[47]使用自回归模型该模型一次预测输出序列的一个元素。我们建议不熟悉这些概念的读者参阅补充材料。由于解码器也是排列不变的因此N个输入嵌入必须不同才能产生不同的结果。这些输入嵌入是学习到的位置编码我们称之为对象查询与编码器类似我们将它们添加到每个注意力层的输入中。N个对象查询被解码器转换为输出嵌入。然后它们被独立地解码为框坐标和类别标签由一个前馈神经网络在下一小节中描述进行处理从而产生N个最终预测。通过对这些嵌入使用自注意力和编码器-解码器注意力模型使用它们之间的成对关系全局地推理所有对象同时能够使用整个图像作为上下文。预测前馈神经网络FFNs。最终预测是通过一个具有ReLU激活函数和隐藏维度d的三层感知机以及一个线性投影层来计算的。FFN预测相对于输入图像的归一化中心坐标、高度和宽度而线性层则使用softmax函数预测类别标签。由于我们预测了一个固定大小的N个边界框集合其中N通常远大于图像中感兴趣对象的实际数量因此我们使用了一个额外的特殊类别标签“无对象”来表示某个槽位内未检测到对象。这个类别在标准目标检测方法中起着与“背景”类别类似的作用。辅助解码损失。我们发现在训练期间在解码器中使用辅助损失[1]很有帮助特别是帮助模型输出每个类别的正确对象数量。我们在每个解码器层之后添加了预测前馈神经网络FFN和匈牙利损失。所有预测FFN共享它们的参数。我们使用额外的共享层归一化来归一化来自不同解码器层的预测FFN的输入。 4 实验我们展示了DETR在COCO数据集上与Faster R-CNN相比的定量评估结果具有竞争力。然后我们对架构和损失进行了详细的消融研究提供了见解和定性结果。最后为了证明DETR是一个通用且可扩展的模型我们在一个固定的DETR模型上仅进行了小范围的扩展展示了全景分割的结果。我们提供了代码和预训练模型以便在https://github.com/facebookresearch/detr上重现我们的实验。数据集。我们在COCO 2017检测和全景分割数据集[24,18]上进行了实验该数据集包含118k张训练图像和5k张验证图像。每张图像都带有边界框和全景分割的标注。平均每张图像有7个实例训练集中单张图像最多有63个实例范围从小到大不等。除非另有说明否则我们报告的AP是指bbox AP即多个阈值上的积分度量。与Faster R-CNN的比较我们报告了最后一个训练周期时的验证AP对于消融研究我们报告了最后10个周期验证结果的中位数。技术细节。我们使用AdamW[26]训练DETR将初始变换器的学习率设置为10^-4主干网络的学习率设置为10^-5权重衰减设置为10^-4。所有变换器权重均使用Xavier初始化[11]主干网络使用来自torchvision的预训练ResNet模型[15]并冻结批归一化层。我们报告了使用两种不同主干网络的结果ResNet-50和ResNet-101。相应的模型分别称为DETR和DETR-R101。根据[21]我们还通过在主干网络的最后阶段添加扩张来增加特征分辨率并从该阶段的第一个卷积中移除步长。相应的模型分别称为DETR-DC5和DETR-DC5-R101扩张的C5阶段。这种修改将分辨率提高了两倍从而提高了小对象的性能但代价是编码器自注意力的计算成本增加了16倍导致总体计算成本增加了两倍。这些模型与Faster R-CNN的浮点运算数FLOPs完整比较见表1。表1: Comparison with Faster R-CNN with a ResNet-50 and ResNet-101 backbones on the COCO validation set. 我们使用尺度增强将输入图像的大小调整为最短边至少为480像素最多为800像素最长边最多为1333像素[50]。为了帮助学习编码器自注意力中的全局关系我们还在训练期间应用了随机裁剪增强性能大约提高了1 AP。具体来说以0.5的概率对训练图像进行随机矩形裁剪然后再次调整大小至800-1333像素。变换器使用默认丢弃率为0.1进行训练。在推理时一些槽位预测为空类别。为了优化AP我们使用相应置信度的第二高评分类别覆盖这些槽位的预测这比过滤掉空槽位提高了2 AP。其他训练超参数见第A.4节。对于我们的消融实验我们使用300个训练周期的训练计划在200个周期后学习率下降10倍其中单个周期是指所有训练图像通过一次。在16个V100 GPU上训练基线模型300个周期需要3天时间每个GPU有4张图像因此总批大小为64。为了与Faster R-CNN进行比较我们使用了一个更长的训练计划训练了500个周期并在400个周期后降低学习率。与较短的训练计划相比这个计划增加了1.5 AP。 4.1 与Faster R-CNN的比较变换器通常使用Adam或Adagrad优化器进行训练训练周期很长并应用了dropoutDETR也是如此。然而Faster R-CNN通常使用SGD进行优化且数据增强较少并且我们尚未了解到Adam或dropout在Faster R-CNN中的成功应用案例。尽管存在这些差异我们仍尝试增强Faster R-CNN基线。为了使其与DETR对齐我们在边界框损失中添加了广义交并比IoU[38]应用了相同的随机裁剪增强并采用了已知可以提高结果的长期训练[13]。结果如表1所示。在表1的上部我们展示了来自Detectron2模型库[50]的Faster R-CNN结果这些模型使用3x训练计划进行训练。在中部我们展示了相同模型的结果带有“”但这些模型使用了9x训练计划109个周期和上述增强功能总共增加了1-2 AP。在表1的最后部分我们展示了多个DETR模型的结果。为了在参数数量上进行比较我们选择了一个具有6个变换器层和6个解码器层、宽度为256、具有8个注意力头的模型。与具有FPN的Faster R-CNN类似该模型具有4130万个参数其中2350万个在ResNet-50中1780万个在变换器中。尽管Faster R-CNN和DETR都有可能通过更长的训练进一步提高性能但我们可以得出结论具有相同参数数量的DETR可以与Faster R-CNN相媲美在COCO验证子集上达到了42 AP。DETR通过提高APL7.8来实现这一点但请注意该模型在APS方面仍然落后-5.5。具有相同参数数量和类似浮点运算数FLOPs的DETR-DC5模型具有更高的AP但在APS方面仍然显著落后。具有ResNet-101主干的Faster R-CNN和DETR也显示了可比的结果。 4.2 消融研究 Transformer解码器中的注意力机制是关键组件用于建模不同检测特征表示之间的关系。在我们的消融分析中我们探讨了架构和损失的其他组件如何影响最终性能。为此我们选择了基于ResNet-50的DETR模型具有6个编码器层和6个解码器层宽度为256。该模型具有4130万个参数在短期和长期训练计划下分别达到了40.6和42.0 AP运行速度为每秒28帧与具有相同主干的Faster R-CNN-FPN相似。编码器层数。我们通过改变编码器层的数量来评估全局图像级自注意力的重要性表2。没有编码器层时总体AP下降了3.9点其中大对象的AP下降了6.0点。我们假设通过使用全局场景推理编码器对于区分对象很重要。在图3中我们可视化了训练好的模型最后一个编码器层的注意力图重点关注图像中的几个点。编码器似乎已经区分了实例这可能简化了解码器中的对象提取和定位。 Table 2: Effect of encoder size. 解码器层数。我们在每个解码层之后应用辅助损失见第3.2节因此预测前馈神经网络FFN被设计为从每个解码层的输出中预测对象。我们通过分析在每个解码阶段预测的对象来评估每个解码层的重要性图4。每增加一层AP和AP50都有所提高在第一层和最后一层之间总共提高了8.2/9.5 AP。由于基于集合的损失DETR在设计上不需要非极大值抑制NMS。为了验证这一点我们对每个解码器输出后的预测运行了标准NMS程序使用了默认参数[50]。NMS改善了第一个解码器预测的性能。这可以解释为变换器的一个解码层无法计算输出元素之间的任何互相关因此容易对同一对象做出多个预测。在第二层和后续层中通过激活的自注意力机制允许模型抑制重复预测。我们观察到随着层数的增加NMS带来的改进逐渐减少。在最后一层我们观察到AP略有下降因为NMS错误地移除了真正正样本的预测。图. 4: AP and AP50 performance after each decoder layer. 与可视化编码器注意力类似我们在图6中可视化了解码器注意力用不同的颜色为每个预测对象的注意力图着色。我们观察到解码器注意力相当局部化意味着它主要关注对象的末端部分如头部或腿部。我们假设在编码器通过全局注意力分离实例后解码器只需要关注末端部分即可提取类别和对象边界。 FFN的重要性。变换器中的FFN可以看作是1x1卷积层这使得编码器类似于注意力增强的卷积网络[3]。我们尝试完全移除FFN只留下变换器层中的注意力。通过减少网络参数数量从4130万到2870万变换器中仅保留1080万性能下降了2.3 AP因此我们得出结论FFN对于实现良好结果很重要。位置编码的重要性。在我们的模型中有两种位置编码空间位置编码和输出位置编码对象查询。我们尝试了各种固定和学习的编码组合结果如表3所示。输出位置编码是必需的不能移除因此我们尝试在解码器输入时传递它们或者在每个解码器注意力层中将它们添加到查询中。在第一个实验中我们完全移除了空间位置编码仅在输入时传递输出位置编码有趣的是模型仍然达到了32 AP以上但与基线相比损失了7.8 AP。然后我们传递固定的正弦空间位置编码并在输入时仅传递一次输出编码如原始变换器[47]中所做的那样并发现与直接在注意力中传递位置编码相比这导致AP下降了1.4。将学习的空间编码传递给注意力得到了类似的结果。令人惊讶的是我们发现不在编码器中传递任何空间编码仅导致AP轻微下降了1.3。当我们将编码传递给注意力时它们在所有层之间共享并且输出编码对象查询始终是学习的。根据这些消融研究我们得出结论变换器组件编码器中的全局自注意力、FFN、多个解码器层以及位置编码都对最终的目标检测性能做出了显著贡献。损失消融研究。为了评估匹配成本和损失中不同组件的重要性我们训练了几个模型来打开和关闭它们。损失有三个组件分类损失、L1边界框距离损失和GIoU[38]损失。分类损失对于训练是必不可少的不能关闭因此我们训练了一个没有边界框距离损失的模型和一个没有GIoU损失的模型并与具有所有三个损失的基线进行了比较。结果如表4所示。仅GIoU损失就占模型性能的大部分与具有组合损失的基线相比仅损失了0.7 AP。仅使用L1而不使用GIoU显示结果较差。我们只研究了不同损失的简单消融每次使用相同的权重但其他组合方式可能会产生不同的结果。 4.3 分析解码器输出槽位分析。在图7中我们可视化了COCO 2017验证集中所有图像的不同槽位预测的边界框。DETR为每个查询槽位学习了不同的专业化。我们观察到每个槽位都有几种操作模式专注于不同的区域和边界框大小。特别是所有槽位都有预测整个图像边界框的模式在图的中间可见为红色点对齐。我们假设这与COCO中对象的分布有关。推广到未见过的实例数量。COCO中的一些类别在同一图像中具有多个相同类别的实例时并未得到很好的表示。例如训练集中没有包含超过13只长颈鹿的图像。我们创建了一个合成图像来验证DETR的泛化能力见图5。我们的模型能够在图像中找到所有24只长颈鹿这明显超出了分布。该实验证实了每个对象查询中没有强烈的类别专业化。 4.4 DETR用于全景分割全景分割[19]最近在计算机视觉界引起了广泛关注。与将Faster R-CNN[37]扩展到Mask R-CNN[14]类似DETR可以自然地通过在解码器输出上添加一个掩码头来进行扩展。在本节中我们证明了这样的头部可以以统一的方式处理“stuff”和“thing”类别从而生成全景分割[19]。我们在COCO数据集的全景注释上进行了实验该数据集除了80个“thing”类别外还有53个“stuff”类别。我们训练DETR来预测COCO中“stuff”和“thing”类别的边界框使用相同的方法。预测边界框是训练成为可能的必要条件因为匈牙利匹配是使用边界框之间的距离来计算的。我们还添加了一个掩码头为每个预测的边界框预测一个二进制掩码如图8所示。它接受变换器解码器对每个对象的输出并计算该嵌入对编码器输出的多头具有M个头注意力分数以在低分辨率下为每个对象生成M个注意力热图。为了进行最终预测并提高分辨率我们使用了一个类似FPN的架构。我们在补充材料中更详细地描述了该架构。掩码的最终分辨率步长为4每个掩码都使用DICE/F-1损失[28]和Focal损失[23]独立进行监督。掩码头可以联合训练也可以分两步进行即我们先训练DETR仅用于边界框预测然后冻结所有权重仅训练掩码头25个周期。实验上这两种方法给出了相似的结果我们报告了使用后者方法的结果因为它导致总挂钟时间更短。为了预测最终的全景分割我们只需在每个像素上对掩码分数使用argmax并将相应的类别分配给生成的掩码。此过程保证了最终掩码之间没有重叠因此DETR不需要通常用于对齐不同掩码的启发式方法[19]。训练细节。我们按照边界框检测的配方训练DETR、DETR-DC5和DETR-R101模型以预测COCO数据集中“stuff”和“thing”类别的边界框。新的掩码头被训练了25个周期有关详细信息请参阅附录。在推理期间我们首先过滤掉置信度低于85%的检测然后计算每个像素的argmax以确定每个像素属于哪个掩码。然后我们将同一“stuff”类别的不同掩码预测合并为一个并过滤掉空的掩码小于4个像素。主要结果。定性结果如图9所示。在表5中我们将统一的全景分割方法与几种不同的方法进行了比较这些方法以不同的方式处理“thing”和“stuff”。我们报告了全景质量PQ以及“thing”PQth和“stuff”PQst的细分。我们还报告了在任何全景后处理之前在我们的情况下是在逐像素argmax之前的掩码平均精度AP在“thing”类别上计算。我们表明DETR在COCO-val 2017上的表现优于已发表的结果也优于我们强大的PanopticFPN基线为了公平比较使用与DETR相同的数据增强进行训练。结果细分表明DETR在“stuff”类别上尤其占主导地位我们假设编码器注意力所允许的全局推理是这一结果的关键因素。对于“thing”类别尽管在掩码AP计算上与基线相比存在高达8 mAP的严重赤字但DETR获得了具有竞争力的PQth。我们还在COCO数据集的测试集上评估了我们的方法并获得了46 PQ。我们希望我们的方法将激发未来工作中对全景分割完全统一模型的探索。 5 结论我们提出了DETR这是一种基于变换器和二分匹配损失的直接集合预测的新型目标检测系统。该方法在具有挑战性的COCO数据集上与优化的Faster R-CNN基线相比取得了可比的结果。DETR实现起来很简单具有灵活的架构可以轻松扩展到全景分割并具有竞争力的结果。此外由于自注意力进行的全局信息处理DETR在大对象上的表现明显优于Faster R-CNN。这种新型检测器设计也带来了新的挑战特别是在训练、优化和小对象性能方面。当前的检测器经过了几年的改进才解决了类似的问题我们预计未来的工作将成功解决DETR的这些问题。

查看全文

http://www.hkea.cn/news/14322088/