开锁都在什么网站做,怎么宣传自己的店铺,站长做什么网站赚钱,潍坊昌大建设集团有限公司网站文章目录 摘要1、引言2、相关工作2.1、学习实例级关联2.2、Segment and Track Anything 模型 3、方法3.1、预备知识#xff1a;SAM3.2、通过分割任何事物来匹配任何事物3.2.1、MASA流程3.2.2、MASA适配器3.2.3、推理 4、实验4.1、实验设置4.2、与最先进技术的比较4.3、消融研究… 文章目录 摘要1、引言2、相关工作2.1、学习实例级关联2.2、Segment and Track Anything 模型 3、方法3.1、预备知识SAM3.2、通过分割任何事物来匹配任何事物3.2.1、MASA流程3.2.2、MASA适配器3.2.3、推理 4、实验4.1、实验设置4.2、与最先进技术的比较4.3、消融研究与分析 5、结论附录A. 在其他主干网络上的有效性B. 在YoutubeVIS上的零次学习评估C. 实例嵌入的可视化D. 领域差异与适应E. 光度增强的影响F. 提案多样性的比较G. 与自监督方法的比较H. 与基于视频对象分割VOS的方法的比较I. 更多定性结果I.1. 快速候选区域生成I.2. 开放词汇跟踪I.3. 联合分割和跟踪所有内容 J. 实现细节J.1. 架构细节J.2. 更多训练细节J.3. 使用给定观测的推理J.4. 推理细节 K. 局限性 摘要
https://matchinganything.github.io/
在复杂场景中跨视频帧稳健地关联相同对象是许多应用的关键特别是多目标跟踪MOT。当前方法主要依赖于标注的特定领域视频数据集这限制了学习到的相似度嵌入的跨域泛化能力。我们提出了MASA一种新颖的方法用于稳健的实例关联学习该方法能够在不同领域内的视频中匹配任何对象而无需跟踪标签。MASA利用Segment Anything ModelSAM丰富的对象分割结果通过详尽的数据变换来学习实例级别的对应关系。我们将SAM的输出视为密集的对象区域提案并从庞大的图像集合中学习匹配这些区域。我们进一步设计了一个通用的MASA适配器它可以与基础的分割或检测模型协同工作并使它们能够跟踪任何检测到的对象。这些组合在复杂领域中表现出强大的零次学习跟踪能力。在多个具有挑战性的MOT和MOTS基准测试上的广泛测试表明所提出的方法仅使用未标记的静态图像在零次学习关联中其性能甚至超过了使用完全标注的域内视频序列训练的最新方法。我们的代码已公开在github.com/siyuanliii/masa。
1、引言
多目标跟踪MOT是计算机视觉中的一个基本问题。它在许多机器人系统中扮演着关键角色如自动驾驶。跟踪不仅需要检测视频中的感兴趣对象还需要跨帧关联这些对象。尽管最近视觉基础模型[33,35,40,47,70,78]的进展已经展示了检测、分割和感知任何对象深度的卓越能力但在视频中关联这些对象仍然是一个挑战。最近成功的多目标跟踪方法[36,66]已经强调了学习判别性实例嵌入以进行准确关联的重要性。一些方法[46]甚至认为除了检测之外它是唯一的必要跟踪组件。
然而学习有效的对象关联通常需要大量的标注数据。虽然收集一组多样化图像的检测标签是繁琐的但在视频上获得跟踪标签则更具挑战性。因此当前的MOT数据集主要关注来自特定领域的对象具有少量固定类别或有限数量的标注帧。
在这些数据集上进行训练限制了跟踪模型对不同领域和新颖概念的泛化能力。尽管最近的研究[35,40,78]已经成功地尝试解决了对象检测和分割模型的泛化问题但学习一个能够跟踪任何对象的通用关联模型的路径仍然不明确。
我们的目标是开发一种能够匹配任何对象或区域的方法。我们旨在将这种可泛化的跟踪能力与任何检测和分割方法相结合以帮助它们跟踪已检测到的任何对象。一个主要的挑战是在不产生大量标注成本的情况下为不同领域的一般对象获取匹配监督。
为此我们提出了通过分割任何事物MASA来学习任何领域未标记图像中的对象级关联的管道。图1展示了我们的MASA管道的概述。我们利用基础分割模型SAM编码的丰富对象外观和形状信息结合广泛的数据变换来建立强大的实例对应关系。
对同一张图像应用不同的几何变换可以在两个视图之间自动生成像素级的对应关系。SAM的分割能力允许自动将来自同一实例的像素进行分组从而促进了从像素级到实例级的对应关系的转换。这一过程为学习判别性对象表示提供了自我监督信号利用视图对之间的密集相似性学习。我们的训练策略使我们能够使用来自不同领域的丰富原始图像集合展示了这种在多样化原始图像上的自动自我训练提供了出色的零次学习多目标跟踪性能甚至超过了依赖于领域内视频标注进行关联学习的模型。
除了自我训练管道之外我们进一步构建了一个通用的跟踪适配器——MASA适配器用于为任何现有的开放世界分割和检测基础模型如SAM[35]、Detic[78]和GroundingDINO[40]赋能使它们能够跟踪已检测到的任何对象。为了保持它们原始的分割和检测能力我们冻结了它们的原始主干网络并在其顶部添加了MASA适配器。
此外我们提出了一个多任务训练流程该流程同时执行SAM检测知识的蒸馏和实例相似性学习。这种方法使我们能够学习SAM的对象位置、形状和外观先验知识并在对比相似性学习中模拟真实的检测建议。这个流程进一步提高了我们跟踪特征的泛化能力。另外我们学习的检测头将原始SAM的密集均匀点建议用于分割所有内容的速度提高了十倍以上这对于跟踪应用至关重要。
我们在多个具有挑战性的基准测试中评估了MASA包括TAO MOT[17]、开放词汇MOT[37]、BDD100K上的MOT和MOTS[71]以及UVO[55]。广泛的实验表明与在完全领域内标注视频上训练的最先进对象跟踪方法相比我们的方法使用具有相同模型参数的单一模型并在零次学习关联设置中测试达到了相当甚至更好的关联性能。
2、相关工作
2.1、学习实例级关联
学习鲁棒的实例级对应关系对于目标跟踪至关重要。现有的方法可以分为自监督[58]和监督[9, 36, 44, 46, 57, 63, 65, 66, 72, 76]策略。具体而言作为一种典型的自监督方法UniTrack[58]试图直接使用现成的自监督表示[11, 64]进行关联。尽管在某些基准测试[45]上取得了具有竞争力的结果但这些方法无法充分利用实例级训练数据从而限制了它们在挑战性场景下的性能。相反监督方法通过对比学习在帧对上训练具有区分性的实例嵌入。尽管这些方法在挑战性基准测试[17, 37, 41, 50, 71]上取得了优越的性能但它们依赖于大量的领域内标注视频数据。一些方法[2, 20, 37, 77, 79]从静态图像中学习跟踪信号但仍然需要在特定领域中进行大量的细粒度实例标注或在测试时进行后适应[53]这限制了它们的跨域泛化能力。为了解决这些问题我们利用SAM编码的详尽对象形状和外观信息来学习通用的实例匹配完全依赖于未标记的图像。我们学到的表示在跨不同领域时显示出卓越的零次学习关联能力。
2.2、Segment and Track Anything 模型
Deva [14]、TAM [67] 和 SAM-Track [15] 将 SAM [35] 与视频对象分割VOS方法如 XMem [13] 和 DeAOT [69]相结合以实现任何对象的交互式跟踪流程。在这些方法中SAM 主要用于掩码的初始化和修正而 XMem/DeAOT 负责跟踪和预测。SAM-PT [49] 将 SAM 与点跟踪方法如 [24, 29, 54]相结合来执行跟踪。然而所有这些方法都面临一些限制如由于领域差异导致的掩码传播质量不佳以及无法处理多个多样化对象或快速进入和离开场景的对象这在自动驾驶等场景中很常见。我们的工作关注于不同的方向。我们不构建交互式跟踪流程或使用现成的 VOS 或基于点的跟踪器而是专注于通过学习通用关联模块来利用 SAM 丰富的实例分割知识。
3、方法
3.1、预备知识SAM
SAM [35] 由三个模块组成(a) 图像编码器一个基于 ViT 的重型骨干网络用于特征提取。(b) 提示编码器对交互式点、框或掩码提示中的位置信息进行建模。© 掩码解码器一个基于 Transformer 的解码器它接收提取的图像嵌入和连接的输出以及提示令牌以进行最终的掩码预测。为了生成所有可能的掩码提议SAM 采用密集采样的规则网格作为点锚点并为每个点提示生成掩码预测。完整的流程包括基于贪心框的 NMS 的补丁裁剪、三步过滤和对掩码的重度后处理。关于 SAM 的“万物模式”的更多详细信息我们参考 [35]。
3.2、通过分割任何事物来匹配任何事物
我们的方法由两个关键组件组成。首先基于 SAM我们开发了一个新的流程MASA第 3.2.1 节。通过这个流程我们从丰富的未标记图像集合中构建密集实例级别的对应关系的全面监督。这使得我们能够学习强大的区分性实例表示来跟踪任何对象而无需任何视频注释。其次我们引入了一个通用的 MASA 适配器第 3.2.2 节以有效地将从冻结的检测或分割骨干网络中提取的特征转换为可学习泛化实例外观表示的特征。作为副产品MASA 适配器的蒸馏分支也可以显著提高分割所有事物的效率。此外我们还构建了一个统一模型以联合检测/分割和跟踪任何事物第 3.2.3 节。我们的完整训练流程如图 2 所示。
3.2.1、MASA流程
为了学习实例级别的对应关系以前的工作[36, 46, 65, 66, 76]严重依赖于手动标记的领域内视频数据。然而当前的视频数据集[6, 45, 71]仅包含有限范围的固定类别。数据集中的这种有限多样性导致学习到的外观嵌入是针对特定领域的这对其通用泛化提出了挑战。
UniTrack[58]表明可以通过对比自监督学习技术[8, 11, 64]从原始图像或视频中学习通用外观特征。这些表示利用了大量未标记图像的多样性可以在不同的跟踪领域中泛化。然而它们通常依赖于干净的、以对象为中心的图像如ImageNet[52]中的图像或DAVIS17[48]等视频并侧重于帧级别的相似性。这种关注导致它们无法充分利用实例信息从而在具有多个实例的复杂领域中学习有区分度的实例表示时遇到困难如表7所示。
为了解决这些问题我们提出了MASA训练流程。我们的核心思想是从两个角度增加多样性训练图像多样性和实例多样性。如图1所示我们首先从不同领域构建丰富的原始图像集合以防止学习特定领域的特征。这些图像还包含复杂环境中的大量实例以增强实例的多样性。给定图像 I I I我们通过对同一图像采用不同的增强来模拟视频中的外观变化。通过应用强数据增强 φ ( I ) \varphi(I) φ(I)和 ϕ ( I ) \phi(I) ϕ(I)我们构造了 I I I的两种不同视图 V 1 V_{1} V1和 V 2 V_{2} V2从而自动获得像素级别的对应关系。如果图像是干净的且仅包含一个实例如ImageNet中的图像则可以应用帧级别的相似性如[11, 64, 74]中所述。但是当存在多个实例时我们需要进一步挖掘这些原始图像中包含的实例信息。基础分割模型SAM[35]为我们提供了这种能力。SAM自动将属于同一实例的像素分组并提供检测到的实例的形状和边界信息这对于学习有区分度的特征非常有价值。
由于我们通过选择包含多个实例的图像来构建数据集SAM对整个图像的详尽分割自动产生了一个密集且多样的实例提议集合 Q Q Q。在建立了像素级别的对应关系后对 Q Q Q应用相同的 ϕ ( ⋅ ) \phi(\cdot) ϕ(⋅)和 φ ( ⋅ ) \varphi(\cdot) φ(⋅)将像素级别的对应关系转移到密集的实例级别对应关系。这种自监督信号使我们能够使用来自[34, 36, 46]的对比学习公式来学习一个具有区分度的对比嵌入空间 L C − ∑ q ∈ Q log e sim ( q , q ) τ e sim ( q , q ) τ ∑ q − ∈ Q − e sim ( q , q − ) τ , \mathcal{L}_{\mathcal{C}}-\sum_{q \in Q} \log \frac{e^{\frac{\operatorname{sim}\left(q, q^{}\right)}{\tau}}}{e^{\frac{\operatorname{sim}\left(q, q^{}\right)}{\tau}}\sum_{q^{-} \in Q^{-}} e^{\frac{\operatorname{sim}\left(q, q^{-}\right)}{\tau}}}, LC−∑q∈Qlogeτsim(q,q)∑q−∈Q−eτsim(q,q−)eτsim(q,q),
在这里 q q^{} q和 q − q^{-} q−分别表示 q q q的正样本和负样本。正样本是应用不同 ϕ ( ⋅ ) \phi(\cdot) ϕ(⋅)和 φ ( ⋅ ) \varphi(\cdot) φ(⋅)的相同实例提议。负样本来自不同的实例。此外 sim ( ⋅ ) \operatorname{sim}(\cdot) sim(⋅)表示余弦相似度 τ \tau τ是一个温度参数在我们的实验中设置为0.07。
这种对比学习公式将属于同一实例的对象嵌入推得更近同时将来自不同实例的嵌入距离拉远。如现有作品[10, 46]所示负样本对于学习有区分度的表示至关重要。在对比学习范式下SAM生成的密集提议自然地提供了更多的负样本从而增强了学习更好的实例表示以进行关联。
3.2.2、MASA适配器
我们引入了MASA适配器旨在将开放世界分割和检测模型如SAM[35]、Detic[78]和Grounding-DINO[40]扩展到跟踪任何检测到的对象。MASA适配器与这些基础模型的冻结主干特征一起工作确保其原始的检测和分割能力得以保留。然而由于并非所有预训练特征都天生具有跟踪区分度因此我们首先将这些冻结的主干特征转换为更适合跟踪的新特征。
鉴于物体形状和大小的多样性我们构建了一个多尺度特征金字塔。对于像Detic和Grounding DINO中使用的Swin Transformer[42]这样的层次化主干我们直接采用FPN[39]。对于使用普通ViT[18]主干的SAM我们使用转置卷积和最大池化来对步长为 16 × 16 \times 16×的单尺度特征进行上采样和下采样以产生比例尺分别为 1 4 , 1 8 , 1 16 , 1 32 \frac{1}{4}, \frac{1}{8}, \frac{1}{16}, \frac{1}{32} 41,81,161,321的层次化特征。为了有效地学习不同实例的区分性特征位于一个位置的物体需要了解其他位置实例的外观。因此我们使用可变形卷积来生成动态偏移并在空间位置和特征层级间聚合信息如[16]所述 F ( p ) 1 L ∑ j 1 L ∑ k 1 K w k ⋅ F j ( p p k Δ p k j ) ⋅ Δ m k j , F(p)\frac{1}{L} \sum_{j1}^{L} \sum_{k1}^{K} w_{k} \cdot F^{j}\left(pp_{k}\Delta p_{k}^{j}\right) \cdot \Delta m_{k}^{j}, F(p)L1∑j1L∑k1Kwk⋅Fj(ppkΔpkj)⋅Δmkj,
其中 L L L表示特征层级 K K K是卷积核的采样位置数量 w k w_{k} wk和 p k p_{k} pk分别是第 k k k个位置的权重和预定义偏移而 Δ p k j \Delta p_{k}^{j} Δpkj和 Δ m k j \Delta m_{k}^{j} Δmkj是第 j j j个特征层级上第 k k k个位置的可学习偏移和调制因子。对于基于SAM的模型我们额外使用了Dyhead[16]中的任务感知注意力和尺度感知注意力因为检测性能对于如图3(b)所示的准确自动掩码生成很重要。在获得转换后的特征图后我们通过将RoI-Align[26]应用于视觉特征 F F F来提取实例级特征然后通过一个包含4个卷积层和1个全连接层的轻量级跟踪头进行处理以生成实例嵌入。
此外我们在训练过程中引入了一个对象先验蒸馏分支作为辅助任务。该分支使用标准的RCNN[51]检测头来学习紧密包围SAM为每个实例的掩码预测的边界框。它有效地从SAM中学习详尽的对象位置和形状知识并将这些信息蒸馏到转换后的特征表示中。这种设计不仅加强了MASA适配器的特征提高了关联性能还通过直接提供预测的边界框提示来加速SAM的“万物模式”。
MASA适配器使用第3.2.1节中定义的检测和对比损失的组合进行优化 L L det L C \mathcal{L}\mathcal{L}_{\text {det }}\mathcal{L}_{C} LLdet LC。检测损失与[51]中的相同。
3.2.3、推理
图3展示了使用我们的统一模型的测试流程。当我们将MASA适配器与对象检测器集成时我们在测试时移除了训练期间学习的MASA检测头。然后MASA适配器仅作为跟踪器使用。检测器预测边界框然后这些边界框被用来提示MASA适配器MASA适配器检索相应的跟踪特征以进行实例匹配。我们使用一个简单的双softmax最近邻搜索来进行准确的实例匹配如附录第J.4节所示。
使用SAM进行“Segment and Track Anything”时我们保留了检测头。我们使用它来预测场景中的所有潜在对象并将边界框预测作为提示转发给SAM掩码解码器和MASA适配器以便分割和跟踪所有内容。预测的边界框提示省去了原始SAM“万物模式”中繁重的后处理步骤因此显著加快了SAM的自动掩码生成速度。
使用给定观测结果的测试 当检测来自MASA适配器所基于的源以外的其他来源时我们的MASA适配器作为跟踪特征提供者。我们直接使用提供的边界框作为提示通过ROI-Align[26]操作从MASA适配器中提取跟踪特征。
4、实验
我们在多个具有不同领域的具有挑战性的MOT/MOTS基准上进行了实验。
4.1、实验设置
TAO MOT。 TAO数据集[17]旨在跟踪多种类型的对象涵盖了超过800个类别是目前类别收集最广泛、最多样化的MOT数据集。它包含500,988个训练视频、1,419个验证视频和测试视频均以每秒1帧的速率进行标注。我们报告了验证集的性能。TAO包括几个基准每个基准都强调不同的特性和要求。TAO TETA基准[36]通过奖励产生无重叠清晰轨迹的跟踪器来强调关联性。相反TAO Track mAP基准[17]特别重视轨迹的分类并不对重叠轨迹进行严厉惩罚。开放词汇MOT基准[37]要求跟踪器避免使用新类别的注释进行训练专注于跟踪新类别的泛化能力。
BDD100K MOT [71] 要求跟踪器在自动驾驶场景中跟踪常见对象。该数据集以每秒5帧的速率进行标注验证集中包含200个视频。BDD100K MOTS 与BDD100K MOT不同BDD100K MOTS [71] 要求跟踪器同时跟踪和分割对象在掩码上评估跟踪性能。它包含154个训练视频、32个验证视频和37个测试视频。
UVO [55] 是视频中开放世界实例分割的一个具有挑战性的基准。与之前的视频级对象分割数据集[68]相比它标注了更多样化的实例。UVO有两个评估轨道一个图像轨道和一个视频轨道。我们在UVOv0.5验证集上评估了所有方法。
评估指标 如先前工作[36]所分析传统跟踪指标如mMOTA[71]和track mAP[17]可能具有误导性特别是在长尾场景中因为它们对分类的高度敏感性。为了解决这个问题[36]引入了TETA这一新的跟踪指标它分解为三个独立的部分AssocA、LocA和ClsA分别反映了关联、定位和分类的准确性。在标准的MOT基准测试中为了确保公平比较跟踪器的关联能力我们采用了领先的最先进跟踪器所使用的相同检测观测值。因此我们的主要关注点是与关联相关的指标如AssocA、mIDF1和IDF1。此外在评估我们的统一模型时我们考虑了全面的指标以捕捉它们的综合能力。特别是对于UVO上的开放世界分割我们关注的是图像和视频级别的AR100和Track AR100指标。这是因为SAM经常分割对象的每个部分而UVO缺乏这样的详细标注使得传统的AP评估不够准确。
训练数据SA-1B [35] 包含 1100 万张多样化、高分辨率的图像这些图像涵盖了复杂环境中具有多个对象交互的多样化场景。我们从 SA-1B 的原始图像中抽样构建了包含 500 K 500\text{ K} 500 K 张图像的训练集即 SA-1B-500K。
实现细节对于我们的模型我们利用了 SAM [35]、Detic 和 Grounding-DINO 的官方权重确保在训练阶段这些模型的所有组件都保持不变即冻结。具体来说我们使用了带有 ViT-Base 和 ViT-Huge 主干的 SAM而 Detic 和 Grounding-DINO 则使用了 SwinB 主干。我们以每个 epoch 200,000 张图像的方式进行模型训练批次大小为 128。我们使用带有初始学习率 0.04 的 SGD随机梯度下降算法并结合阶梯策略step policy进行学习率衰减。动量momentum和权重衰减weight decay参数分别设置为 0.9 和 1 e − 4 1e-4 1e−4。我们的训练过程跨越 12 个 epoch并在第 8 和第 11 个 epoch 时降低学习率。在数据增强方面除了标准的翻转、颜色抖动和随机裁剪等实践外我们还使用了随机仿射变换、MixUp [73] 和大规模抖动 [21]。更多细节请参考附录的 J 部分。
4.2、与最先进技术的比较
我们通过两种方式评估我们的方法。首先为了准确评估我们方法的关联能力我们总是在标准的多目标跟踪MOT基准测试中提供与当前最先进技术相同的检测观测值。其次为了评估我们统一模型的集成能力我们遵循以下协议对于基于SAM的模型我们在开放世界的视频分割数据集UVO上进行评估。对于基于检测器的模型我们在开放词汇的多目标跟踪基准[37]上进行评估。我们还报告了在TAO TETA和TAO TrackmAP基准上的得分。请注意我们对所有变体都进行了零次学习关联测试并在所有基准测试中都使用了相同的权重。
TAO TETA 我们使用了与TETerSwinT [36]相同的观测值。如表1所示我们的方法使用Grounding-DINO的主干在零次学习设置下表现最佳无需在任何域内标记的视频上进行训练在AssocA和TETA两个指标上都取得了最佳成绩。我们还测试了我们的统一Detic模型该模型同时输出检测和跟踪结果。它显著优于所有其他方法并达到了新的最先进性能。这表明我们的方法可以很好地与当前的检测基础模型相结合并将其强大的检测能力转移到跟踪任务中。
开放词汇多目标跟踪类似于开放词汇目标检测任务[22]开放词汇多目标跟踪[37]规定方法只能使用LVIS[23]中的频繁和常见类别的注释进行训练将稀有类别视为新类别。我们评估了我们的统一“检测和跟踪任何事物”模型Detic该模型仅使用基本类别的注释进行训练。如表2所示我们的统一Detic模型在基本和新颖分割的所有指标上都优于现有模型尽管我们的跟踪器仅使用域外未标记的图像进行训练但它仍然取得了显著的领先。
TAO Track mAP我们使用与GTR[79]相同的观测值。如表3所示在给定相同检测的情况下我们的方法使用SAM-B主干取得了最佳性能Track mAP50为23.9。我们的大多数模型都优于当前最先进的GTR后者是一种离线方法利用未来信息进行关联。相比之下我们的方法以在线方式进行跟踪并在零次学习设置下进行测试。我们的统一Detic模型再次以较大优势超越了GTR达到了新的最先进性能。
BDD100K MOTS我们使用与最先进方法UNINEXT-H[66]相同的观测值并在BDD100K MOTS基准上进行零次学习关联测试。如表4所示我们的方法在所有方法中取得了最佳的关联性能mIDF1为49.7AssocA为54.5。这证明了我们的方法学习到的实例嵌入的优越性。
BDD100K MOT 如表5所示在给定与ByteTrack[75]相同的观测值的情况下我们的方法达到了最佳的IDF1分数71.7和AssocA分数52.9。与最先进的ByteTrack[75]相比我们的方法也取得了更好的关联性能IDF1和AssocA都高出约1.4%且未使用任何BDD图像进行训练。ByteTrack额外选择了低置信度的边界框并将它们添加到轨迹中从而获得了更好的mMOTA分数该分数优先考虑检测性能[43]。
UVO VIS 我们对我们的基于SAM的统一“分割和跟踪任何事物”模型进行了零次学习测试。我们直接使用MASA检测头中的框提示来快速分割所有内容。如图4a所示我们的方法在图像和视频轨迹上都取得了最佳性能大幅超越了其竞争对手。此外我们还将我们的方法与SAM的默认自动掩码分割进行了比较。如图4b所示随着推理时间的增加由于蒸馏检测分支的存在我们的方法的AR100增长速度远快于SAM。使用ViT-Base主干的我们的方法的AR100上限甚至超过了SAM的10%。此外当达到相同的AR100时我们的方法比SAM快约10倍。这源于我们的方法学习了一个强大的对象先验通过少量的稀疏提案来捕获潜在对象。然而为了分割所有内容SAM必须均匀地采样约1k个点这种方法既不灵活也不高效同时还依赖于复杂的手工后处理方法。
与VOS方法比较我们评估了基于VOS的方法Deva[14]该方法集成了XMem[13]用于跟踪多个对象以及使用点跟踪的SAM-PT[49]。为了确保公平比较我们在BDD MOTS、TAO TETA和UVO基准上提供了相同的观测值。对于UVO我们首先使用SAM的自动掩码生成来生成掩码然后按照Deva[14]中的启发式方法解决重叠掩码问题并使用Deva生成每帧观测值。
表6显示我们的方法在所有基准上都优于Deva。值得注意的是在自动驾驶BDD100K基准上由于物体频繁进出场景基于VOS的方法如Deva容易导致误报显著增加。这反映在TETA分数上此类错误会受到严厉惩罚。此外Deva在处理重叠预测时遇到困难这是当前检测模型的常见问题。我们在附录的H节中提供了更深入的分析。
与自监督方法比较我们进一步将我们的方法与旨在从原始图像或视频中学习通用外观特征的自监督方法进行了比较。为了确保公平比较我们使用BDD和COCO原始图像的混合数据来训练所有方法。具体来说对于VFS我们使用了来自BDD的原始视频。我们为VFS[64]和MoCov2[11]采用了ResNet-50模型为DINO[8]采用了ViTB模型并遵循UniTrack[58]中概述的关联跟踪策略。此外我们确保所有模型的检测观测值都是相同的。表7表明我们的方法明显优于其他自监督方法。这种优势源于传统的自监督学习主要关注帧级相似性这限制了它们在利用实例信息方面的有效性并在训练包含多个对象的图像时导致困难。附录的G节提供了对此的进一步分析。 4.3、消融研究与分析
为了降低训练成本我们在消融实验中使用了较少的原始图像 40 K 40 \mathrm{~K} 40 K进行训练。除非特别说明否则我们使用包含来自[71]的 70 k 70 \mathrm{k} 70k原始图像和来自[38]训练集的 110 k 110 \mathrm{k} 110k图像的图像集合来训练模型。我们采用Ours-SAM-B模型并在BDD MOT和TAO TETA基准上进行测试。
训练策略和模型架构的影响表8表明直接使用现成的SAM特征第1行进行关联会产生较差的结果。主要原因是SAM的原始特征是为分割而优化的而不是为了实例级别的区分。然而通过整合我们的MASA训练方法和添加一个轻量级的跟踪头可以显著提高性能在BDD MOT上AssocA提高了 15.6 % 15.6\% 15.6%mIDF1提高了 14.4 % 14.4\% 14.4%。这突出了我们训练策略的有效性。融入动态特征融合块进一步将性能提高了 1.6 % 1.6\% 1.6%。此外与对象先验蒸馏分支的联合训练使AssocA提高了 1.8 % 1.8\% 1.8%mIDF1提高了 1.6 % 1.6\% 1.6%显示了这些架构设计的效果。
提案多样性的影响我们评估了关联学习中不同的提案生成机制。我们使用BDD检测任务训练集的原始图像进行训练。通过在我们的MASA管道中将SAM替换为在COCO上预训练的Mask2former-SwinL[12]。如表9a所示我们发现使用SAM提案训练的模型显著提高了BDD上的域内性能和TAO上的零次学习跟踪性能。这强调了SAM的密集、多样化的对象提案对于出色的对比相似性学习的重要性。
提案数量的影响为了研究SAM提案数量对学习的影响我们尝试了每批64、128和256个提案的不同上限。如表9b所示随着提案数量的增加BDD和TAO上的AssocA指标均有一致的改进这表明丰富的实例集合有助于培养更具辨别力的跟踪特征。
数据增强的影响如表9c所示随机仿射变换、Mixup[73]和LSJ[21]的组合给出了最佳性能。方法1表示包括翻转、调整大小、颜色抖动和随机裁剪在内的基础数据增强。如果没有强烈的数据增强方法1其在BDD MOT上的mIDF1下降了 6.7 % 6.7\% 6.7%远差于方法5的结果。这些结果说明了仅在静态图像上进行训练时强烈增强的必要性。
定性结果在图14中我们展示了我们的统一方法Grounding-DINO和SAM-H的定性结果。我们的方法能够准确检测、分割和跟踪多个对象甚至是它们在不同领域的部分。这包括包含许多相似外观角色的动画电影场景和复杂环境内的驾驶场景。
5、结论
我们提出了MASA一种新颖的方法该方法利用SAM提供的广泛实例级别的形状和外观信息从未标记的图像中学习可泛化的实例关联。MASA在各种基准测试中展示了卓越的零次学习关联性能消除了对昂贵特定领域标签的需求。此外我们的通用MASA适配器可以添加到任何现有的检测和分割模型中使它们能够在不同领域有效地跟踪任何对象。
附录
在本补充材料中我们提供了关于我们快速提案生成和关联的额外消融研究和定性结果。同时我们也详细阐述了我们的实验设置、方法细节以及训练和推理的超参数。
补充材料的结构如下 A节在其他主干网络上的有效性 B节在YoutubeVIS上的零次学习评估 C节实例嵌入的可视化 D节领域差异和适应性 E节额外光度增强的影响 F节提案多样性的更详细比较 G节与自监督方法的比较 H节与基于VOS方法的比较 I节更多定性结果 J节更多实现细节 K节限制
A. 在其他主干网络上的有效性
在我们的主论文中我们介绍了四种方法变体每种方法都是基于基础检测和分割模型构建的SAM-ViT-B、SAM-ViT-H、Grounding-DINO和Detic。值得注意的是后两种变体利用了Swin-B主干网络。我们的MASA训练流程和适配器展现出了对多种变量的高度适应性这些变量包括主干结构的差异、预训练方法如检测或分割以及用于训练这些基础模型的多样化数据集。
我们研究中的一个关键观察是这些变体对大型、复杂主干网络的依赖以及它们在广泛数据集上的预训练。这种依赖提出了一个关于可扩展性和效率的重要问题当应用于更小、更精简的主干网络如ResNet-50特别是使用标准的ImageNet预训练时我们的方法能否保持其有效性为了探索这一点我们设计了一个新的变体“Ours-R50”它集成了在ImageNet分类任务IN-Sup R50上预训练的ResNet-50主干网络。这个新变体保持了我们主要研究中MASA适配器的架构并遵循我们最初四个变体所建立的相同训练协议。
我们已经评估了Ours-R50在各种基准测试上的性能包括BDD MOTS、BDD MOT和TAO TETA。表10、11和12中详细列出了定量结果这些结果证明了Ours-R50的有效性。这些发现具有重要意义因为它们表明我们的方法可以有效地适应更小的主干网络为检测和分割任务提供了更高效和可扩展的解决方案的潜力。
BDD MOTS在BDD MOTS表10中配备ResNet-50主干网络的Ours-R50结合我们的MASA训练方法不仅在mIDF1上比UNINEXT-H模型高出 0.2 0.2 0.2在AssocA上也高出 0.4 0.4 0.4而且与表现最强的变体Ours-SAM-H相比性能下降微乎其微mIDF1降低 − 1 -1 −1AssocA降低 − 0.9 -0.9 −0.9。这突出了我们方法即使在没有大型、专业模型提供的先进特征的情况下也能产生具有竞争力的实例嵌入的能力。
BDD MOT在BDD MOT基准测试表11中Ours-R50在IDF10.9和AssocA0.2得分方面超越了ByteTrack。其性能与其他变体相当与OursDetic相比仅有轻微下降mIDF1降低 − 1 -1 −1AssocA降低 − 1.2 -1.2 −1.2。这些结果再次证明了我们方法在各种主干架构和预训练环境下的适应性。
TAO TETA在TAO TETA表12上进行评估时配备标准ResNet-50主干网络的Ours-R50继续表现出稳健的性能。它与完全监督的TETer模型相差无几仅在AssolcA上略有下降 − 1 -1 −1。这一性能与我们其他变体一致进一步验证了我们MASA方法在不同主干和预训练方法之间的泛化能力。
B. 在YoutubeVIS上的零次学习评估
在本节中我们在Youtube-VIS 2019[68]基准测试中评估了我们的关联方法在零次学习设置下的性能。具体来说我们直接在Youtube-VIS 2019上测试了我们的MASA适配器其中SAM-ViT-B作为基础模型用于关联。 我们的方法使用了与最先进的VIS方法UNINEXT-R50[66]相同的对象检测观测结果。如表13所示我们的方法与使用域内YoutubeVIS数据训练的SOTA UNINEXT方法性能相当同时显著优于所有其他方法。这一结果强调了我们的方法具有稳健的零次学习关联能力凸显了其在没有特定领域训练的场景下的有效性。
C. 实例嵌入的可视化
在图6中我们使用t-SNE来可视化以不同方式学习的实例嵌入。我们比较了自监督方法如MoCo-v2[11]、VFS[64]和DINO[8]以及两个基础模型SAM ViT-B[35]最初在SA-1B上针对分割任务进行预训练以及IN-Sup R50[25]最初在ImageNet上进行图像分类的预训练。此外我们还展示了来自完全监督的域内视频模型[36]的嵌入以及使用我们的MASA适配器增强的相同基础模型的嵌入。在这些可视化中具有相同真实ID的实例用相同的颜色表示。我们使用BDD 100K序列作为数据源。
D. 领域差异与适应
除了之前提到的应用之外MASA还可以作为实例关联的有用领域适应方法。具体来说由于领域差异如对象类别、场景和光照条件在领域A上训练的跟踪器在领域B上评估时可能会遇到性能下降。例如与BDD[71]相比TAO[17]涵盖了更多样化的场景和对象类别。因此我们选择BDD100K[71]作为源领域TAO[17]作为目标领域。然后我们使用BDD和LVISTAO[17,23]的标记数据分别训练了两个具有与TETer[36]相同架构的单独模型。这两个模型在图7中用蓝色和绿色条表示。请注意当在TAO上评估它们的关联能力时它们使用了相同的对象检测观测结果。
如图7所示直接将在BDD上训练的嵌入应用于TAO蓝色条会导致较差的AssocA比直接在TAO领域内训练的模型绿色条低 6.5 % 6.5\% 6.5%。为了缓解这种性能差距我们使用MASA训练流程对蓝色条表示的原始TETer模型的跟踪头进行微调同时冻结所有其他参数橙色条。具体来说我们只使用LVIS和TAO的无标签图像对模型进行微调而不使用任何原始TAO标注。如图7所示与蓝色条相比橙色条在AssocA上实现了 3.9 % 3.9\% 3.9%的改进将领域差距减少了 60 % 60\% 60%。这表明MASA能够有效地提高在领域外场景中的关联性能仅需要来自目标领域的无标签图像。
E. 光度增强的影响
在我们的主论文的第4.3节中我们专注于各种几何增强包括随机仿射变换和大规模抖动。我们还使用MixUp来增强实例的多样性并模拟遮挡效果。本节深入探讨了额外光度增强的影响。我们特别检查了运动模糊、高斯噪声、雪、雾和亮度调整的效果。光度增强以修改图像中像素值的能力为特点。这些改变通常模拟了如光照和天气等环境因素的变化影响了相机如何捕获场景。与通过旋转、缩放或裁剪来改变像素空间排列的几何增强不同光度增强不会改变图像中物体的结构完整性。图8直观地展示了这些增强。
我们保持了与主论文中消融研究相同的训练方案并使用SAM-ViT-B作为我们实验的基础模型。表14展示了结果表明包含光度增强仅带来了适度的改进。我们在BDD数据集上观察到mIDF1和AssocA分别增加了 0.1 0.1 0.1和 0.2 0.2 0.2在TAO数据集上AssocA增加了 0.1 0.1 0.1。因此为了在性能提升和可能增加的计算复杂性之间实现更好的平衡这些方法并没有作为我们方法的默认选项。
F. 提案多样性的比较
在我们的主论文中我们评估了关联学习背景下不同的提案生成机制。具体来说我们关注于使用BDD数据集的原始图像进行训练。我们尝试将MASA流程中的SAM替换为在COCO数据集上预训练的Mask2former-SwinL参见[12]。如主论文表9c所示使用SAM提案的模型展示了增强的性能。无论是在BDD数据集上的领域内跟踪还是在TAO数据集上的零次学习跟踪场景中这一点都显而易见。这些发现强调了SAM的密集且多样化的对象提案在促进有效的对比相似性学习中发挥的关键作用。
此外我们在图9中展示了Mask2former和SAM生成的提案的视觉比较。这些比较可视化清晰地展示了SAM提案相对于Mask2former生成的提案具有更高的多样性。SAM显示出在原始图像中识别更广泛实例的增强能力提供了具有更大多样性的提案。这种多样性在实例相似性学习中至关重要并对学习到的实例表示的跨领域泛化能力做出了重大贡献。
G. 与自监督方法的比较
从纯无标签图像中提取有意义的信息是一项非常具有挑战性的任务。UniTrack [58] 已经展示了自监督训练表示如MoCo [11] 和 VFS [64]在跨不同域的各种跟踪任务中泛化的潜力。然而如图10所示当前的自监督方法主要使用清洁的、以对象为中心的图像或视频进行对比训练。特别是VFS在Kinetics数据集上进行训练而MoCo和DINO则利用ImageNet。
然而这些方法主要关注帧级别的相似性未能有效地利用实例信息。因此在多个实例同时出现的复杂域中学习准确的实例表示时它们显得力不从心表现出在提取鲁棒和泛化表示方面的明显弱点。
对象中心训练数据的可视化 我们将VFS [64] 的训练数据——Kinetics数据集——进行了可视化并将其与BDD100K中的驾驶视频进行了比较如图11所示。作为动作识别数据集Kinetics通过关注包含的动作来确保在整个视频中实例的存在。Kinetics视频中的中心实体通常在时间上保持一致这使得VFS的采样策略适用于Kinetics。相比之下BDD100K的驾驶视频呈现了一个更加动态和不可预测的环境。这些视频经常包含进入和退出帧的对象导致不同帧中实例的存在发生显著变化。BDD 100K的这一特性构成了一个挑战因为从同一视频中抽取的两帧可能不包含相同的实例突显了这两个数据集训练数据的本质区别。
为了公平比较在主论文的表6中当将我们的方法与其他自监督方法进行比较时我们使用相同的原始训练图像BDD和COCO对所有方法进行了训练。这些图像不是以对象为中心的并且通常在复杂环境中包含多个实例。在本节中我们还展示了使用原始以对象为中心的训练数据的自监督方法的跟踪性能。如下表所示在BDD和COCO图像上训练的MoCo的AssocAAssociation Accuracy相对于其在ImageNet上训练的原始版本相对稳定仅在BDD MOT数据集上略有下降。然而对于VFS使用包含多个实例的图像进行训练会导致在BDD MOT上AssocA显著下降15.9个百分点在TAO上下降12.7个百分点。原因如下
VFS将来自同一视频的帧视为正样本将来自不同视频的帧视为负样本。这种策略对于Kinetics数据集是合理的但对于BDD数据集则不然如图11所示。具体来说Kinetics视频中的中心实体通常不会随时间变化但在BDD视频中对象经常进出帧。来自同一BDD视频的两帧可能根本不包含相同的实例。
最后在DINO的训练过程中它强制要求来自同一图像的两个增强视图的表示相似而没有明确使用负样本。然而对于BDD和COCO中的图像考虑到这两个数据集的复杂场景两个增强视图可能包含许多不同的实例。这种训练策略可能导致学习到的嵌入表示不太具有区分性。
我们的方法通过利用预训练SAM中的实例级别知识超越了帧级别的相似性采纳了更加微妙的实例级别相似性。所获得的显著结果突显了我们提出的方法在学习用于跟踪目的的鲁棒表示方面的有效性。
H. 与基于视频对象分割VOS的方法的比较
最近的分割基础模型SAM已显示出对任何对象进行分割的非凡能力。然而在视频中同时跟踪SAM生成的所有实例仍然是一项具有挑战性的任务。当前的方法通常将SAM用作视频第一帧的掩码生成器然后应用现成的视频对象分割VOS方法将初始化的掩码传播到后续帧[13-15, 69]。一种显著的方法Deva[14]利用XMem[13]进行掩码传播以同时跟踪多个实例。然而这些方法遇到了几个关键的缺点。
掩码传播质量不足这些方法在相对较小规模的视频分割数据集上进行训练当被要求在任何域中跟踪任何对象时会遇到较大的域差距导致掩码传播质量不足。我们的主要论文表明我们的方法在零次学习测试中在各种多目标跟踪基准测试中特别是在Deva和我们的方法都未知的驾驶场景中显著优于Deva[14]。我们还在图12中提供了定性比较。在提供的视频文件中可以找到更多的视频比较。在驾驶域中测试Deva这与它的训练数据存在显著差异导致掩码质量较差且随时间累积误差。此外没有有效的机制来处理场景中对象的快速进入和退出这在自动驾驶等现实世界应用中很常见。相比之下我们的方法在此类场景中表现出稳定的性能。
管理像素的多粒度难题此外这些方法主要是为视频对象分割VOS任务开发的这些任务通常涉及单个而非多个多样化对象的视频和标注。因此大多数基于VOS的方法设计用于一次只跟踪一个实例。虽然最近的一些进展如[14,69]中的方法允许同时跟踪多个实例但它们通常基于每个像素都属于单个实例的前提工作。这忽略了像素粒度的复杂性即一个像素可能根据粒度级别属于多个实例——这是SAM输出中的常见情况如图13所示。这个问题在UVO数据集中得到了进一步说明该数据集仅包含粗略的对象级别标注经常省略对象部分的更细节信息。
我们应用SAM为UVO数据集中的每一帧生成掩码预测对于两种方法都是如此。为了跟踪SAM分割出的对象基于VOS的方法如Deva必须解决重叠问题将每个像素分配给唯一的实例。例如如果一组像素属于对象的一部分它必须决定是跟踪部分还是整个对象。将像素分配给部分意味着相应的对象部分被排除在外如图13中的汽车所示。相反将像素分配给对象会导致部分掩码的移除。我们在表16中展示了UVO数据集中这些场景的定量结果。跟踪部分会导致UVO上对象掩码的不完整表示从而对性能产生负面影响。相比之下我们的方法能够处理多粒度同时跟踪整个对象及其部分而不影响UVO数据集上的性能。 I. 更多定性结果
我们提供了一个视频文件其中包含我们在多个领域上的定性跟踪结果。这里我们提供关于快速候选区域生成和密集对象关联的可视化结果。
I.1. 快速候选区域生成
在图14中我们将我们的快速候选区域生成与SAM的原始everything模式在COCO验证集的原始图像上的分割质量进行了比较。默认情况下我们每张图像输出300个边界框并在推理期间仅使用0.5阈值的边界框非极大值抑制NMS作为后处理。结果显示尽管我们的快速候选区域生成使用了更少的时间但它仍然可以达到与SAM的everything模式相似的分割质量。
I.2. 开放词汇跟踪
我们在图15中展示了开放词汇跟踪的定性结果。我们观察到我们的方法在跟踪方面表现良好并且能够泛化到非常特殊的类别如小黄人minions。更多结果可以在提供的视频中找到。
I.3. 联合分割和跟踪所有内容
我们提供了关于我们的联合分割和跟踪模型的定性结果。由于我们以联合的方式学习候选区域生成和关联这使得我们的模型能够分割和关联视频中的任何内容。图16展示了使用我们自生成的候选区域的定性关联性能。我们注意到尽管我们可以使用MASA学习强大的关联但在不同帧之间生成一致的候选区域是非常困难的。例如在第二行的左侧建筑物上我们可以看到缺失的分割。这些不一致的检测在视频上可视化结果时会导致严重的闪烁效果。这表明我们仍需要在一致的候选区域生成方面付出更多努力以实现视频中对象的稳健检测。
J. 实现细节
我们提供了有关模型架构、训练和推理的更多细节。
J.1. 架构细节
MASA适配器 MASA适配器包括两个主要部分。第一部分涉及特征金字塔的构建和动态特征融合。第二部分是用于对象蒸馏前的FasterRCNN基础检测头和用于产生跟踪特征的跟踪头。特征金字塔的构建过程取决于所使用的骨干网络。这些变化在各模型的相应部分中有详细说明。动态特征融合采用[80]中概述的标准可变形卷积以聚合跨空间位置和特征级别的信息。此外对于基于SAM的模型还利用了来自[16]的任务感知注意力和尺度感知注意力。总共为特征融合过程建立了三个融合块。
基于FasterRCNN的检测头包括一个区域建议网络和一个与类别无关的框回归头。跟踪头包括四个卷积层和一个全连接层用于生成实例嵌入。
Ours-Detic 我们使用预训练的Detic[78]模型并以Swin-B[42]为骨干网络。预训练模型遵循[22]中描述的开放词汇对象检测设置其中LVIS中的稀有类别被排除在训练之外。我们冻结了Detic Swin-B骨干网络并采用标准FPN来构建特征金字塔。具体来说我们从Swin-B骨干网络的第 4 th 4^{\text {th }} 4th 、 2 2 nd 22^{\text {nd }} 22nd 和 2 4 th 24^{\text {th }} 24th 块中提取特征。随后我们在特征金字塔之上集成了动态特征融合以通过学习检测蒸馏和实例对比来学习跟踪特征。
Ours-Grounding-DINO 我们采用预训练的Grounding-DINO[40]模型并以Swin-B[42]为骨干网络。Swin-B骨干网络被冻结我们使用标准的FPN特征金字塔网络来构建特征金字塔。除了Swin骨干网络的预训练方式和窗口大小不同外所有可学习的组件与Ours-Detic模型相同。
Ours-SAM-B 该模型基于SAMScale-Aware Model构建所有原始的SAM组件都被冻结。为了从SAM的纯ViTVision Transformer骨干网络中获取多层次的层次化特征我们从第 3 rd 3^{\text {rd }} 3rd 、 6 th 6^{\text {th }} 6th 、 9 th 9^{\text {th }} 9th 和 1 2 th 12^{\text {th }} 12th 个块的输出中提取特征图。我们使用转置卷积将第 3 rd 3^{\text {rd }} 3rd 个块的特征图放大 4 × 4 \times 4×将第 6 th 6^{\text {th }} 6th 个块的特征图放大 2 × 2 \times 2×。我们保持第 9 th 9^{\text {th }} 9th 个特征图不变并使用MaxPooling将第 1 2 th 12^{\text {th }} 12th 个块的特征图缩小 1 / 2 1/2 1/2。这种方法产生了具有 1 4 \frac{1}{4} 41、 1 8 \frac{1}{8} 81、 1 16 \frac{1}{16} 161、 1 32 \frac{1}{32} 321比例尺的层次化特征。模型的其余部分与上述两个模型相似。
Ours-SAM-H 可学习的部分在很大程度上与Ours-SAM-B相似。唯一的区别在于我们从第 8 th 8^{\text {th }} 8th 、 1 6 th 16^{\text {th }} 16th 、 2 4 th 24^{\text {th }} 24th 和 3 2 nd 32^{\text {nd }} 32nd 个块的输出来提取特征以构建特征金字塔。
J.2. 更多训练细节
对于基于SAM的模型我们在最后两个epoch中关闭MixUp增强。之后我们冻结了除跟踪头以外的所有部分并对所有增强进行了6个epoch的微调以调整基于SAM的模型的跟踪头。
对于使用任何原始图像集合训练我们的模型采用了以下流程。首先使用SAM的“everything”模式在原始图像上离线生成训练数据使用SAM-ViTH模型以确保更高的质量。我们遵循默认的SAM设置这包括在图像的每一侧使用32个采样点。此外应用了一个交并比Intersection over UnionIoU预测阈值0.88来过滤掉低质量的预测。随后移除了小的不连通区域和掩码中的空洞。还使用了边界框非极大值抑制Non-Maximum SuppressionNMS来消除阈值为0.7的重叠预测。在我们的消融研究中这一流程被应用于在原始的COCO和BDD100K图像上生成数据。
J.3. 使用给定观测的推理
值得注意的是在UVO上进行测试时除了使用我们快速分割的“everything”模式生成的候选框外我们还纳入了与[14]中相同的每帧掩码观测。这一纳入旨在最小化SAM在视频上的掩码预测中的时间不一致性。
J.4. 推理细节
总体来说我们的推理方案如算法1所示。在相似度计算方面我们提供了所使用的公式 s 1 ( τ , r ) 1 2 [ exp ( q r ⋅ q τ ) ∑ r ′ ∈ P exp ( q r ′ ⋅ q τ ) exp ( q r ⋅ q τ ) ∑ τ ′ ∈ T exp ( q r ⋅ q τ ′ ) ] s 2 ( τ , r ) q r ⋅ q τ ∥ q r ∥ ∥ q τ ∥ s ( τ , r ) 1 2 ( s 1 ( τ , r ) s 2 ( τ , r ) ) \begin{array}{c} s_{1}(\tau, r)\frac{1}{2}\left[\frac{\exp \left(\mathbf{q}_{r} \cdot \mathbf{q}_{\tau}\right)}{\sum_{r^{\prime} \in P} \exp \left(\mathbf{q}_{r^{\prime}} \cdot \mathbf{q}_{\tau}\right)}\frac{\exp \left(\mathbf{q}_{r} \cdot \mathbf{q}_{\tau}\right)}{\sum_{\tau^{\prime} \in \mathcal{T}} \exp \left(\mathbf{q}_{r} \cdot \mathbf{q}_{\tau^{\prime}}\right)}\right] \\ s_{2}(\tau, r)\frac{\mathbf{q}_{r} \cdot \mathbf{q}_{\tau}}{\left\|\mathbf{q}_{r}\right\|\left\|\mathbf{q}_{\tau}\right\|} \\ s(\tau, r)\frac{1}{2}\left(s_{1}(\tau, r)s_{2}(\tau, r)\right) \end{array} s1(τ,r)21[∑r′∈Pexp(qr′⋅qτ)exp(qr⋅qτ)∑τ′∈Texp(qr⋅qτ′)exp(qr⋅qτ)]s2(τ,r)∥qr∥∥qτ∥qr⋅qτs(τ,r)21(s1(τ,r)s2(τ,r))
其中 s ( τ , r ) s(\tau, r) s(τ,r) 表示轨迹 τ \tau τ 和目标候选 r r r 之间的相似度分数。在这里 q r \mathbf{q}_{r} qr 表示目标候选 r r r 的检测嵌入包含了其外观特征而 q τ \mathbf{q}_{\tau} qτ 表示轨迹 τ \tau τ 的轨迹嵌入捕获了被跟踪对象的特征。 s 1 ( τ , r ) s_{1}(\tau, r) s1(τ,r) 使用指数函数计算这两个嵌入的点积反映了目标候选与轨迹之间的相似程度。这个相似度分数被双重归一化首先对于给定的轨迹 τ \tau τ在集合 P P P 中的所有目标候选 r ′ r^{\prime} r′ 之间进行归一化其次对于给定的目标候选 r r r在集合 T \mathcal{T} T 中的所有轨迹 τ ′ \tau^{\prime} τ′ 之间进行归一化。这种双重归一化确保了相似度的平衡和全面评估有助于在动态视频序列中准确地进行对象关联。 s 2 ( τ , r ) s_{2}(\tau, r) s2(τ,r) 计算了余弦相似度。最终的 s ( τ , r ) s(\tau, r) s(τ,r) 分数是 s 1 ( τ , r ) s_{1}(\tau, r) s1(τ,r) 和 s 2 ( τ , r ) s_{2}(\tau, r) s2(τ,r) 的平均值。
K. 局限性
我们方法的一个关键局限性在于处理视频帧之间检测或分割结果的时间不一致性。这个问题在像SAM这样的开放世界对象检测和分割模型中很常见当一帧中检测到的对象在下一帧中丢失时就会在视频可视化中出现闪烁效果这在我们的演示中可以观察到。虽然我们的MASA适配器在学习关联方面表现出色但它无法纠正基础模型的检测或分割错误。跨帧生成一致性的提议的挑战突显了未来研究的一个重要方向即增强动态视频环境中对象检测的鲁棒性和稳定性。
另一个局限性是缺乏长期记忆系统这对于处理遮挡至关重要。我们仅学习了一个通用的实例外观模型可以直接被不同的检测器使用。然而跟踪策略和内存管理仍然依赖于双softmax匹配和一个队列来存储每个实例的外观嵌入。这种简单的策略在严重遮挡的情况下容易失败。开发一个更复杂的长期记忆系统和改进的跟踪策略将是解决这一局限性的关键。