旅游响应式网站建设,宜昌网站开发,今天上海新闻,seo搜狗排名点击通过联合学习检测和描述关键点增强可变形局部特征
摘要
局部特征提取是计算机视觉中处理图像匹配和检索等关键任务的常用方法。大多数方法的核心理念是图像经历仿射变换#xff0c;忽略了诸如非刚性形变等更复杂的效果。此外#xff0c;针对非刚性对应的新兴工作仍然依赖于…通过联合学习检测和描述关键点增强可变形局部特征
摘要
局部特征提取是计算机视觉中处理图像匹配和检索等关键任务的常用方法。大多数方法的核心理念是图像经历仿射变换忽略了诸如非刚性形变等更复杂的效果。此外针对非刚性对应的新兴工作仍然依赖于为刚性变换设计的特征点检测器这由于检测器的局限性而限制了性能。我们提出了DALFDeformation-Aware Local Features可变形感知局部特征一种新颖的可变形感知网络用于联合检测和描述关键点以处理匹配可变形表面的挑战性问题。所有网络组件通过特征融合方法协同工作确保描述子的独特性和不变性。使用真实变形物体的实验展示了我们方法的优势它在匹配分数上提供了 8 % 8\% 8% 的改进与之前最佳结果相比。我们的方法还增强了两个现实世界应用的性能可变形物体检索和非刚性3D表面注册。训练、推理和应用的代码在 ver1ab.dcc.ufmg.br/descriptors/dalf_cvpr23 公开可用。
1. 引言
在计算机视觉领域寻找描绘同一表面的图像之间的像素级对应是一个长期存在的问题。除了光照变化、视点变化和与感兴趣物体的距离之外现实世界场景还带来了额外的挑战。文献中绝大多数对应算法假设我们的世界是刚性的但这一假设远非事实。值得注意的是社区在新型架构和训练策略上投入了大量努力以改善刚体场景的图像匹配 [ 6 , 19 , 26 , 34 , 37 , 42 ] \left\lbrack {6,{19},{26},{34},{37},{42}}\right\rbrack [6,19,26,34,37,42]但忽略了这样一个事实现实世界中的许多物体可以以比仿射变换更复杂的方式进行形变。 图1. 形变下的图像匹配。我们提出了DALF一种形变感知的关键点检测器和描述符用于匹配可形变表面。DALF顶部使得在可形变场景中进行局部特征匹配并比现有技术水平提高了匹配得分MS如图中用DISK [37]所示。绿色线条表示正确的匹配红色标记表示错误的匹配。
许多工业、医学和农业应用需要跟踪、检索和监控任意变形的对象和表面需要一个通用匹配算法以获得准确结果。由于标准仿射局部特征在强光照变化和变形等场景下的性能显著下降已经提出了考虑更广泛变换类别的几项工作 [ 24 , 25 , 30 ] \left\lbrack {{24},{25},{30}}\right\rbrack [24,25,30]。然而所有考虑变形的方法都忽略了关键点检测阶段限制了它们在挑战性变形中的应用。尽管关键点检测和描述的问题可以分开处理但最近同时进行特征检测和描述的工作 [ 4 , 26 ] \left\lbrack {4,{26}}\right\rbrack [4,26] 表明这两项任务之间存在相互影响因为关键点检测可能会影响描述符的性能。反过来描述符可以用来确定针对特定目标优化的可靠点。在这项工作中我们提出了一种新的方法用于联合学习对变形、视点和光照变化具有鲁棒性的关键点和描述符。我们证明了检测阶段对于在变形下获得鲁棒匹配是至关重要的。图1展示了一对具有挑战性变形的图像我们的方法可以从中提取可靠的关键点并正确匹配它们与最近的最先进方法DISK [37]相比显著提高了匹配得分。
贡献。1我们的第一个贡献是一种名为DALF形变感知局部特征的新端到端方法该方法通过相互协助策略共同学习检测关键点和提取描述符以处理显著的非刚性形变。我们的方法通过仅使用合成扭曲作为监督提高了这类特征匹配的最新技术水平 8 % 8\% 8%显示出强大的泛化能力。我们利用强化学习算法进行统一训练并结合空间变换器来学习影响图像的上下文先验捕捉形变2其次我们引入了一种特征融合方法这是与之前方法的主要区别它允许模型通过来自主干网络和空间变换模块的互补特征具有区分性和不变性属性来应对具有挑战性的形变。这种方法在性能上相比非融合特征有显著提升3最后我们在非刚性局部特征应用方面展示了最先进的结果包括可变形对象检索和非刚性3D表面配准。我们还将在社区公开代码和这两个应用。
2. 相关工作
关键点检测。传统的图像关键点检测方法旨在提取图像中的重复区域即在不同观察条件下稳定的局部点。经典的Harris检测器[10]使用图像导数来计算角点分数而最常用的手工制作检测器之一SIFT[14]例如使用高斯差分检测斑点。Key.Net[13]表明通过结合手工滤波器和学习滤波器可以提高关键点检测的性能。最近学习关键点检测的趋势是将描述和检测结合在同一流程中 [ 7 , 26 , 34 , 42 ] \left\lbrack {7,{26},{34},{42}}\right\rbrack [7,26,34,42]因为在计算和匹配精度方面同时解决这两个任务是有利的。同样地我们提出的方法有一个主干网络它同时计算关键点和描述符同时使用一个形变感知模块。
局部斑块描述。直到最近检测和描述还是被分开处理的。尽管有些工作同时关注这两个问题比如SIFT[14]和ORB[28]的开创性工作但检测和描述是解耦的。SIFT和ORB描述符采用手工梯度分析来提取具有尺度和旋转不变性的描述符。基于CNN的最近描述方法 [ 8 , 15 , 19 , 34 , 39 ] \left\lbrack {8,{15},{19},{34},{39}}\right\rbrack [8,15,19,34,39]假设一个预定义的关键点检测器使用局部斑块。这些方法在图像匹配基准测试中使用了SIFT关键点达到了最先进的性能[12]。网络通过度量学习 [ 9 , 39 ] \left\lbrack {9,{39}}\right\rbrack [9,39]进行训练。由于基于斑块的方法依赖于可能在不稳定或模糊区域产生关键点的预定义关键点检测器因此由于检测和描述步骤的解耦噪声很容易被引入。与基于斑块的方法不同我们的网络被训练以产生优化的可靠描述和非刚性对应的关键点。我们的描述还通过一种融合策略进行了增强该策略将互补特征结合到一个单一的学特征表示中。
联合检测与描述。DELF [22] 和 DELG [4] 的研究展示了通过使用基于高层图像语义的关注机制来选择关键点将检测与描述阶段结合在一起可以显著提高检索性能。局部特征提取已经转向联合学习局部特征的检测与描述 [ 7 , 16 , 26 , 37 , 42 ] \left\lbrack {7,{16},{26},{37},{42}}\right\rbrack [7,16,26,37,42]。大多数方法遵循相似的架构采用全卷积网络FCN布局来生成密集特征图方法之间的主要区别在于训练方案和损失设计。最新的描述与检测方法目前在标准基准测试中处于最先进水平 [ 2 , 12 ] \left\lbrack {2,{12}}\right\rbrack [2,12]。与现有方法不同我们的架构和训练设计明确地处理检测与描述阶段中的形变精心设计了一个专用的变形处理网络。
形变感知方法。最早提出的用于可变形表面的图像描述符之一是 DaLI [30]。DaLI 将图像块解释为局部三维表面并计算该三维表面的尺度不变热核签名 [3]以编码对非刚性形变和光照变化具有鲁棒性的特征。尽管与当代作品相比DaLI 实现了匹配性能的提升但它仍然受到高计算和存储需求的影响。与 DaLI 类似GeoBit [21] 和 GeoPatch [24] 描述符将计算几何的思想引入计算机视觉利用 RGB-D 图像提取测地线感知的视觉特征。然而这些测地线感知方法需要 RGB-D 图像并且对噪声敏感这大大限制了它们的适用性。为了去除估计测地线块时对深度图像的需求DEAL 描述符 [25] 通过一个非刚性变形模块隐式地处理单目图像的形变。DEAL 的主要缺点是它依赖于现有的关键点检测器这限制了其性能。 图 2. DALF 架构。我们的架构共同优化非刚性关键点检测和描述并在训练过程中显式建模局部形变以进行描述符提取。一个沙漏型 CNN 计算一个密集的热图提供用于 Warper Net 提取形变感知匹配的专用关键点。一个特征融合层平衡了最终描述符的不变性和独特性之间的权衡。
由于大多数现有检测器在形变变化的情况下关键点位置缺乏等变性导致描述符性能下降。相比之下我们的方法在同一个框架中学习检测和描述实现了显著的性能提升。
3. 方法论
DALF 联合学习检测和描述对非刚性形变、透视和光照变化具有鲁棒性的点。检测器和描述符都是通过一个合作方案进行训练旨在特征表示的不变性。具体来说关键点检测器使用策略梯度进行训练旨在增加既可重复又可靠检测的概率同时描述符提取器学习从局部区域去形变并提取区分性强且不变的特征。该模型只训练在合成形变上即不需要昂贵的人工标注也不需要可能包含错误和偏见的伪地面真实值例如在几项工作中使用的 SfM 管道的输出 [ 7 , 16 , 26 , 29 , 37 ] \left\lbrack {7,{16},{26},{29},{37}}\right\rbrack [7,16,26,29,37]。图 2 概述了提出的方法。
3.1. 关键点检测器
关键点检测架构使用了一个类似于U-net[27]的骨干沙漏型CNN网络 f ( ⋅ ) \mathbf{f}\left( \cdot \right) f(⋅)。该网络能够在原始图像分辨率下有效地计算关键点热图同时产生有助于描述关键点的高级特征表示。我们在编码器部分使用了三个降采样块在解码器部分使用了三个升采样块并带有跳接每个块由两个卷积层组成包含一个2D卷积后跟ReLU和批量归一化。设 I ∈ R h × w × c I \in {\mathbb{R}}^{h \times w \times c} I∈Rh×w×c 为大小为 h × w h \times w h×w 的输入图像具有 c c c 个通道 f ( I ) \mathbf{f}\left( I\right) f(I) 输出两个特征图中级表示 X ∈ R h / 8 × w / 8 × d \mathbf{X} \in {\mathbb{R}}^{h/8 \times w/8 \times d} X∈Rh/8×w/8×d 和检测热图 H ∈ R h × w \mathbf{H} \in {\mathbb{R}}^{h \times w} H∈Rh×w其中 d d d 是特征的数量。
变形图像中的关键点检测。一个有效的检测器必须在非刚性场景中输出响应高的热图 H ∈ R h × w \mathbf{H} \in {\mathbb{R}}^{h \times w} H∈Rh×w这些场景包含视图和光照变化使得区域可以很好地匹配。因此在检测分支的训练过程中我们使用类似于DISK[37]的策略来优化 H \mathbf{H} H但仅将概率框架应用于学习检测热图。与DISK相比一个关键的区别是我们通过惩罚即使关键点可重复但匹配错误的点来强化检测到的关键点的可靠性。概率方法有几个优点比如处理稀疏关键点检测的内在离散性并且可以使用更简单直观的损失函数来更好地收敛和规正检测热图这与需要精心设计的手工损失函数的工作 [ 7 , 16 , 26 ] \left\lbrack {7,{16},{26}}\right\rbrack [7,16,26] 形成对比。
我们希望在置信度高的区域获得高响应不仅用于检测也用于匹配。为了用策略梯度解决这个问题我们将热图划分为二维网格单元如图3中的检测热图并考虑网络代理可以选择的一组动作来选取关键点。每个单元 c i {\mathbf{c}}_{i} ci 有 m × n m \times n m×n 像素网络可以在每个单元内学习检测关键点的概率。给定一对在相同场景下经过不同辐射和几何变换的图像 ( A , B ) \left( {A,B}\right) (A,B) 以及关联这两幅图像的地面真实流场对于每个单元 c i ∈ H {\mathbf{c}}_{i} \in \mathbf{H} ci∈H我们考虑单元格上的概率分布 c ∈ R m × n \mathbf{c} \in {\mathbb{R}}^{m \times n} c∈Rm×n。单元格内的每个逻辑值都有成为关键点的概率。通过应用Softmax函数计算单元格 c i {\mathbf{c}}_{i} ci 上的概率质量函数 p c i {\mathbf{p}}_{{\mathbf{c}}_{i}} pci。
因此为了训练检测分支我们使用了Reinforce算法 [32]。在网络的前向传播过程中我们根据概率质量函数 c i {\mathbf{c}}_{i} ci 在每个单元内随机采样一个单独的关键点以及关键点的空间坐标、其概率 p c i {\mathbf{p}}_{{\mathbf{c}}_{i}} pci 和其逻辑值 p s i {p}_{s}^{i} psi。请注意每个单元只能有一个关键点然而在实际操作中低纹理和模糊区域常常导致低质量的关键点这些关键点在其他图像中无法可靠地匹配或检测。因此我们接受单元格中关键点提议的概率 l s i {l}_{s}^{i} lsi其中 σ ( l s i ) \sigma \left( {l}_{s}^{i}\right) σ(lsi) 是Sigmoid激活函数。这样网络可以在训练过程中学会过滤掉不可靠的关键点提议。图像 σ \sigma σ 的最终检测概率由集合 I I I P I { σ ( l s i ) ⋅ p s i } , ∀ c i ∈ {P}_{I} \left\{ {\sigma \left( {l}_{s}^{i}\right) \cdot {p}_{s}^{i}}\right\} ,\forall {\mathbf{c}}_{i} \in PI{σ(lsi)⋅psi},∀ci∈ 给出使得 H \mathbf{H} H我们只采样了热图中值为正的关键点。由于我们希望 图3. 训练策略用于学习检测和描述在形变中关键点的意识。DALF网络用于生成每个图像的检测热图和一组局部特征。在检测路径中通过REINFORCE算法优化热图考虑关键点在形变下的重复性。在描述符路径中通过硬三元组损失学习特征空间。采用图像对的孪生设置来优化网络。注意在第二个训练阶段我们惩罚无法准确描述的关键点因此关键点和组合描述符被联合优化以对形变具有鲁棒性。
为了使关键点具有重复性我们奖励在图像 A A A 和 B B B 中都能检测到的点。因此给定检测点 j j j 在图像 A A A 上的像素坐标 p A j ∈ R 2 {\mathbf{p}}_{A}^{j} \in {\mathbb{R}}^{2} pAj∈R2我们定义奖励函数 R ( . ) a s f o l l o w s : R\left( \text{.}\right) {asfollows} : R(.)asfollows:。 R ( p A j ) { 1 if ∃ p B ( . ) s.t. ∥ T ( p A j ) − p B ( . ) ∥ τ , 0 otherwise, (1) R\left( {\mathbf{p}}_{A}^{j}\right) \left\{ \begin{array}{ll} 1 \text{ if }\exists {\mathbf{p}}_{B}^{\left( .\right) }\text{ s.t. }\begin{Vmatrix}{T\left( {\mathbf{p}}_{A}^{j}\right) - {\mathbf{p}}_{B}^{\left( .\right) }}\end{Vmatrix} \tau , \\ 0 \text{ otherwise,} \end{array}\right. \tag{1} R(pAj){10 if ∃pB(.) s.t. T(pAj)−pB(.) τ, otherwise,(1)
其中 T ( . ) t r a n s f o r m s p i x e l s c o o r d i n a t e s o f t m a g e A t o T\left( \text{.}\right) {transformspixelscoordinatesoftmageAto} T(.)transformspixelscoordinatesoftmageAto 是根据真实流场映射到图像 B B B 的位置 τ \tau τ 是一个像素阈值用于确定在 A A A 中检测到的关键点在图像 B B B 中是否有对应点。
一旦我们得到概率集 P A {P}_{A} PA 和 P B {P}_{B} PB我们就得到了参数向量 θ \theta θ 关于所有成对关键点预期奖励的梯度其中 × \times × 表示笛卡尔积见图3。使用梯度上升法来最大化预期奖励的总和 ∇ θ E K [ R ( . ) ] ∑ ( x , y ) ∈ K ∇ θ ( log p ( x ; θ ) log p ( y ; θ ) ) R ( . ) , (2) {\nabla }_{\theta }{\mathbb{E}}_{\mathcal{K}}\left\lbrack {R\left( .\right) }\right\rbrack \mathop{\sum }\limits_{{\left( {x,y}\right) \in \mathcal{K}}}{\nabla }_{\theta }\left( {\log p\left( {x;\theta }\right) \log p\left( {y;\theta }\right) }\right) R\left( .\right) , \tag{2} ∇θEK[R(.)](x,y)∈K∑∇θ(logp(x;θ)logp(y;θ))R(.),(2)
其中 p ( . ; θ ) p\left( {.;\theta }\right) p(.;θ) 表示根据由 θ \theta θ 参数化的网络采取该动作的概率。变量 x x x 和 y y y 是成对关键点组合的检测概率。
在不变特征学习阶段训练进程的 70 % {70}\% 70% 之后如果关键点的描述符不可靠我们将关键点的奖励归零。关于关键点惩罚项的详细信息在第3.5节中描述。
3.2. 关键点描述符
我们观察到从沙漏编码器中提取的中层特征并没有明确地建模对任何类型变形的不变性但它们在小到中等的光度学和几何变化上例如光照变化和平面扭曲表现出高度的独特性。因此监督中层特征是有益的因为在推理过程中我们无需额外成本即可获得信息丰富的描述符。为此在第一个训练阶段我们在检测到的关键点位置对特征图 X \mathbf{X} X 进行双线性插值以获得每个关键点坐标的特征向量 f d ∈ R D {\mathbf{f}}_{d} \in {\mathbb{R}}^{D} fd∈RD。设 F A ∈ R N × D {\mathbf{F}}_{A} \in {\mathbb{R}}^{N \times D} FA∈RN×D 和 F B ∈ R N × D {\mathbf{F}}_{B} \in {\mathbb{R}}^{N \times D} FB∈RN×D 是由沙漏解码器在关键点位置提取的对应描述符 f d {\mathbf{f}}_{d} fd 的 N N N L2-归一化特征向量矩阵分别来自图像 A A A 和 B B B以及 D N × N 2 − 2 F A F B T {\mathbf{D}}_{N \times N} \sqrt{2 - 2{\mathbf{F}}_{A}{\mathbf{F}}_{B}^{T}} DN×N2−2FAFBT 距离矩阵。为了优化描述符的嵌入空间我们在矩阵 D 中采用硬挖掘策略 [19] 并最小化边缘排序损失 L d ( δ ( . ) , δ h ( . ) ) 1 N ∑ i 1 N max ( 0 , μ δ ( i ) − δ h ( i ) ) , (3) {\mathcal{L}}_{d}\left( {{\delta }_{ }^{\left( .\right) },{\delta }_{h}^{\left( .\right) }}\right) \frac{1}{N}\mathop{\sum }\limits_{{i 1}}^{N}\max \left( {0,\mu {\delta }_{ }^{\left( i\right) } - {\delta }_{h}^{\left( i\right) }}\right) , \tag{3} Ld(δ(.),δh(.))N1i1∑Nmax(0,μδ(i)−δh(i)),(3)
其中 μ \mu μ 是边缘 δ ∥ F ( p ) − F ( p ′ ) ∥ 2 {\delta }_{ } {\begin{Vmatrix}\mathbf{F}\left( p\right) - \mathbf{F}\left( {p}^{\prime }\right) \end{Vmatrix}}_{2} δ F(p)−F(p′) 2 是相应特征之间的距离 δ h {\delta }_{h} δh ∥ F ( p ) − F ( h ) ∥ 2 \parallel \mathbf{F}\left( p\right) - \mathbf{F}\left( h\right) {\parallel }_{2} ∥F(p)−F(h)∥2 是批次中最难负样本的距离。
3.3. 非刚性变形模块
CNNs的平移等价性属性使得局部描述符对图像平移不变多尺度策略增加了描述符提取对平面内尺度变化的鲁棒性 [ 7 , 26 , 37 ] \left\lbrack {7,{26},{37}}\right\rbrack [7,26,37] 。然而当非刚性形变出现时局部纹理的外观可能会显著变化引入了匹配歧义。DEAL [25] 证明了薄板样条TPS与空间变换器结合使用可以用于对局部特征描述任务中的形变进行建模。受到DEAL的启发我们采用TPS形变来学习对影响补丁的非刚性变换的局部不变性。 1 {}^{1} 1 对于每一行的最难负样本 h i j {h}_{i}^{j} hij 是通过 min D j , i j { 1 , … , N } \min {D}_{j},i j \{ 1,\ldots ,N\} minDj,ij{1,…,N} 使得 i ≠ j i \neq j ij 计算得到的 j j j 。
空间变换网络。我们使用主干网络的中层特征来学习TPS的参数而额外的开销很小。TPS参数张量 M θ ∈ R h / 16 × w / 16 × 2 d {\mathbf{M}}_{\theta } \in {\mathbb{R}}^{h/{16} \times w/{16} \times {2d}} Mθ∈Rh/16×w/16×2d 包含一个中间表示有助于估计关键点处的局部非刚性变换。为了获得TPS方程中使用的参数向量首先我们通过双线性插值从 M θ {\mathbf{M}}_{\theta } Mθ 中关键点的空间位置得到一个特征向量得到一个中间参数向量 ∈ R 2 d \in {\mathbb{R}}^{2d} ∈R2d 。然后使用一个MLP来估计TPS变换中使用的参数向量 μ θ {\mu }_{\theta } μθ 。参数向量 μ θ {\mu }_{\theta } μθ 分别编码仿射矩阵 A ∈ R 2 × 3 \mathbf{A} \in {\mathbb{R}}^{2 \times 3} A∈R2×3 和非刚性组件 w k ∈ R 2 {\mathbf{w}}_{k} \in {\mathbb{R}}^{2} wk∈R2 表示从仿射组件的偏移。给定一个齐次2D点 q ∈ R 3 \mathbf{q} \in {\mathbb{R}}^{3} q∈R3 权重系数和控制点 c k , ∈ R 2 {\mathbf{c}}_{k}, \in {\mathbb{R}}^{2} ck,∈R2 我们使用 μ θ {\mu }_{\theta } μθ 中包含的参数将TPS变换应用于关键点中心的固定极坐标网格 p A q ∑ k 1 n c ρ ( ∥ q − c k ∥ 2 ) w k (4) \mathbf{p} \mathbf{{Aq}} \mathop{\sum }\limits_{{k 1}}^{{n}_{c}}\rho \left( {\begin{Vmatrix}\mathbf{q} - {\mathbf{c}}_{k}\end{Vmatrix}}^{2}\right) {\mathbf{w}}_{k} \tag{4} pAqk1∑ncρ( q−ck 2)wk(4)
其中 n c {n}_{c} nc 是控制点的数量 q \mathbf{q} q 是从关键点周围的固定极坐标网格归一化的空间图像坐标 p \mathbf{p} p 是其变换后的坐标。图 2Warper Net展示了修补变形和采样步骤。由于我们使用的是 TPS 径向基函数因此使用了 ρ r 2 log r \rho {r}^{2}\log r ρr2logr。极坐标网格变换后使用可微的双线性采样器 [11] 来获取变换后的图像修补该修补被一个类似于 L2-Net 架构 [34] 的 CNN 用于计算不变特征向量该向量受限于边缘排序损失等式 (3)。在我们的实现中与原始 L2-Net 的主要区别在于在最后一个卷积块中我们在极修补的角轴方向上添加了一个平均池化实现了完全的旋转不变性。
3.4. 特征融合层
独特性和不变性是局部特征描述符的两个期望属性。尽管不变性对于处理如旋转和缩放等外观变化较大的任务至关重要但它通常意味着独特性损失 [38]。通过考虑两种互补特征即来自具有较大感受野的主干网络且对强烈几何变换更敏感的独特特征以及来自变形和旋转具有鲁棒性的设计原则的修补模块的不变特征我们提议通过特征融合步骤结合这两种信息。
融合是通过一个基于注意力的多层感知器MLP执行的该感知器预测权重系数。首先将两个描述符向量连接起来如图2所示然后输入到融合层。之后连接的描述符通过预测的注意力权重进行加权并进行L2归一化以产生最终的描述符。在训练过程中我们分别优化每个描述符的损失并同时优化融合描述符的损失以强制网络学习如何融合特征向量以实现更好的特征表示。在实验中我们证明了结合特征使得最终描述符能够处理强烈的图像变换同时保持其独特性。
3.5. 训练策略和模型优化
分阶段训练。在实验中我们观察到在单一阶段端到端训练网络导致模型专注于不变特征并忽略了来自主干网络的特征的独特性即使重新加权损失项也是如此。为了解决这个问题我们进行了两阶段的训练。在第一个训练阶段我们只训练主干网络。与Warper Net特征相比主干特征具有更大的感受野和更高级的语义但对旋转和低级形变的不变性较小。在第二个训练阶段优化了解码器、Warper Net和融合层其中最终的特征表示通过融合步骤同时考虑两种表示进行优化。此外网络的解码器进一步细化并鼓励检测对融合描述符最优的关键点。
最终损失。对于检测分支我们定义关键点损失为 L k − E K [ R ( . ) ] a n d a d d a r e g u l a r i z a t i o n {\mathcal{L}}_{k} - {\mathbb{E}}_{\mathcal{K}}\left\lbrack {R\left( \text{.}\right) }\right\rbrack {andaddaregularization} Lk−EK[R(.)]andaddaregularization 项用于训练期间检测到的所有关键点 L p {\mathcal{L}}_{p} Lp − ∑ x log p ( x ) ⋅ c - \mathop{\sum }\limits_{x}\log p\left( x\right) \cdot c −x∑logp(x)⋅c其中 c c c 是一个小的负常数用以阻止网络检测低质量点。我们使用在第3.2节中描述的边缘排序损失来处理网络计算的所有描述符向量。最终损失计算为 L L k L p λ L d \mathcal{L} {\mathcal{L}}_{k} {\mathcal{L}}_{p} \lambda {\mathcal{L}}_{d} LLkLpλLd 其中 λ \lambda λ 是一个权重项用于平衡三元组损失和政策梯度损失的大小。
4. 实验
训练和实施细节。我们开发了一条精心设计的合成数据生成管道以创建表面合理的非刚性形变来监督训练。我们对从大规模结构从运动数据集 [41] 获得的真实图像进行光度测量和几何变化。我们只使用原始图像不使用任何关于对应关系或注释标签的信息。在训练过程中我们添加随机光度变化、随机单应投影和随机TPS扭曲以获得图像对之间地面真实密集流的基线。训练从较简单的样本开始逐渐变得更加困难在 60 % {60}\% 60% 的训练迭代中达到最难的难度。在实验中我们使用以下超参数值三元组损失中的 μ 0.5 \mu {0.5} μ0.5像素阈值 τ 1.5 \tau {1.5} τ1.5用于平衡损失项的 λ 0.005 \lambda {0.005} λ0.005关键点惩罚 c − 7 e − 5 c - 7{e}^{-5} c−7e−5单元大小 m n 8 m n 8 mn8 像素控制点的数量 n c 64 {n}_{c} {64} nc64。如第3.5节详细所述我们进行了两阶段的训练。在更新权重之前我们使用了四次前向传播的梯度累积。我们在第一阶段训练网络80,000次迭代在第二阶段训练100,000次迭代。在推理过程中我们使用大小为 3 × 3 3 \times 3 3×3 像素的非最大值抑制以从 H \mathbf{H} H 中提取关键点坐标。我们的网络在PyTorch上实现具有大约 1 M {1M} 1M 可训练参数并在GeForce GTX Titan X GPU上训练需要48小时。
基线和评估指标。我们将我们的方法与几种基于补丁的描述符 [ 1 , 8 , 20 , 28 , 35 , 36 , 39 ] \left\lbrack {1,8,{20},{28},{35},{36},{39}}\right\rbrack [1,8,20,28,35,36,39] 进行比较使用相同的 SIFT [14] 关键点集遵循图像匹配基准 [12] 的协议。我们还使用适合非刚性对应 [17] 的检测器与变形感知描述符 DEAL [25] 配合进行了测试。最后我们还将当前最先进的检测与描述方法 [ 6 , 7 , 16 , 23 , 26 , 37 , 42 ] \left\lbrack {6,7,{16},{23},{26},{37},{42}}\right\rbrack [6,7,16,23,26,37,42] 纳入比较。对于每种评估的方法我们检测出前 2,048 个关键点并使用最近邻搜索匹配描述符。除了标准的比较之外我们将图像匹配的金标准定为 SuperPoint [6] 配合 SuperGlue [29] 匹配器它在假定场景刚性的情况下为立体和多视角相机注册 [12] 保持当前最先进水平。如表 1 所示方法分为三类(i) 仅需要 RGB 输入 ( R G B ) \left( {RGB}\right) (RGB) 的方法与需要额外信息如深度的方法相对(ii) 检测与描述 (DD) 方法在单个流程中同时提供检测和描述以及 (iii) 变形感知 ( D − A ) \left( {D - A}\right) (D−A) 方法这些方法在计算描述符时考虑了变形。注意一种方法可能同时满足多个类别。
我们使用了匹配分数MS [18] 来评估检测到的关键点和描述符的匹配性能。给定一个真实变换和一个像素级的阈值我们计算正确匹配集合 S g t {\mathbf{S}}_{gt} Sgt 并为图像对 ( i , j ) \left( {i,j}\right) (i,j) 获得分数 M S ∣ S g t ∣ / min ( ∣ keypoints i ∣ , ∣ keypoints j ∣ ) {MS} \left| {\mathbf{S}}_{gt}\right| /\min \left( {\left| {\text{keypoints}}_{i}\right| ,\left| {\text{keypoints}}_{j}\right| }\right) MS∣Sgt∣/min(∣keypointsi∣, keypointsj )。此外还报告了平均匹配准确度MMA它关注的是描述符在阈值 K g t {\mathbf{K}}_{gt} Kgt 下成功检测到两图像上的关键点匹配的准确性计算方式为 M M A ∣ S g t ∣ / ∣ K g t ∣ {MMA} \left| {\mathbf{S}}_{gt}\right| /\left| {\mathbf{K}}_{gt}\right| MMA∣Sgt∣/∣Kgt∣。关于关键点重复性的额外结果可以在补充材料中找到。为了进行评估我们采用了两个现有的可变形物体数据集 [ 24 , 40 ] \left\lbrack {{24},{40}}\right\rbrack [24,40]。
4.1. 现实世界基准测试
与现有最佳方法的比较。表1显示了所有比较方法实现的MS和MMA分数。DALF在MS和MMA指标上平均优于所有描述符包括那些使用额外的深度信息来提取变形不变特征的方法将匹配分数的现有最佳水平提高了 8 % 8\% 8% p.p.。此外我们的方法在真实变形上显示出有希望的一般化特性。DISK在MS上取得了第二好的结果但MMA表明其描述符对非刚性变形更为敏感。DEAL凭借其变形感知模块在MMA上取得了第二好的结果但在MS分数上表现不佳。值得注意的是DEAL依赖于SIFT关键点而SIFT关键点并非为非刚性变换而设计。
SuperGlue由SuperPoint描述符与图神经网络匹配而成表现出良好的性能但与顶级方法相比分数下降明显因为SuperPoint和SuperGlue没有显式地建模场景形变。我们强调我们的方法可以轻松地与学习到的匹配器如SuperGlue结合并进行训练。我们使用户外的预训练权重报告SuperGlue的结果因为我们观察到户外权重在所有数据集上的表现都更好。所有其他方法由于无法应对更强的形变以及光照和仿射变换得分显著更低。
旋转和缩放稳健性。除了形变之外平面内旋转和缩放变化是两种重要的几何变换。因此我们使用[24]中的Simulation序列进行了一项研究该序列包含具有挑战性的旋转和缩放变化。图4清楚地表明与五个更强的竞争者相比我们的方法在图像平面内旋转以及形变变化方面具有最佳的不变性。我们的技术在缩放变化方面也显示出相当大的稳健性优于SuperPoint并提供与SuperGlue相似的稳健水平。
时间效率。DALF是联合检测和描述架构中最具时间效率的方法之一。虽然我们的方法在NVIDIA GeForce RTX 3060 GPU上以9 FPS的速度运行提取 1024 × 768 {1024} \times {768} 1024×768图像中的2,048个关键点但DISK的运行速度为5 FPSR2D2为2 FPS。 图4. 对旋转和缩放的不变性。我们评估了在Simulation数据集的图像对之间进行旋转和缩放变化时各方法的匹配性能。图像空间中的物体同时进行形变、旋转和缩放。
4.2. 抽象研究
我们的抽象研究包括我们方法的五种不同配置(i) 仅使用U-net骨干网络不包含非刚性变形模块这与DISK类似除了描述符损失项(ii) 仅使用非刚性变形模块计算描述符(iii) 分别融合非刚性变形模块和骨干网络的不变特征和独特特征(iv) 执行阶段训练首先优化骨干网络然后优化非刚性变形模块最后(v) 我们执行带有额外注意力层的阶段训练以融合不变和独特的描述符而不是简单的串联。
从表2中我们可以观察到非刚性变形器在实现更准确匹配方面贡献显著与仅使用卷积骨干网络相比通过特征融合可以得到一个既不变异又具有互补特性的改进描述符。两阶段训练提供了与端到端训练相似的匹配分数和略微降低的平均精度。然而根据补充材料中更详细的分析我们发现分阶段训练是有益的。在训练过程中不变部分往往支配了独特部分使得独特部分在实际应用中变得不那么有用这对于需要更多独特特征的应用如图像检索以及没有显著变形的数据集来说是不希望看到的。最后我们测试了基于注意力的融合层是否能在融合步骤中提供比描述符连接更好的结果。根据结果可以通过几乎可以忽略的计算成本略微提高准确性。因此我们选择具有分阶段训练的模型作为最终架构。
局限性。尽管我们的网络可以通过学习关键点和变形感知特征来提高整体分数但从单张图像中估计变形参数是一个模糊的问题。因此物理变形可能使得不同物体的纹理看起来相似从而损害我们方法的性能。尽管如此学到的变形展示了由于关键点提取器、变形模块和特征融合步骤的强大组合对真实变形具有良好的泛化特性。 图5. 可变形对象检索。我们的方法在检索变形对象的图像方面取得了最佳结果。第一列显示了图像查询行显示了不同查询的结果。绿色图像与查询属于同一物体红色图像则不是。黑色方块意味着对于该查询没有更多对象可用。
变形展示了由于关键点提取器、变形模块和特征融合步骤的强大组合对真实变形具有良好的泛化特性。
4.3. 应用
为了进一步展示我们的检测与描述方法潜在的应用价值我们在两个互补的任务——对象检索和3D注册上进行了评估。
可变形对象检索。我们考虑一个包含各种变形对象图像的数据库。每个对象以不同的变形多次出现。检索数据库中与查询图像对应的顶部 K \mathrm{K} K 图像。为了评估方法我们使用不同 K \mathrm{K} K 值的检索精度。K-最近邻与视觉世界包Bag-of-Visual-Worlds方法结合用于描述符作为检索引擎。我们将我们的方法与表1中展示了顶级性能的最新描述方法进行比较此外还有专门为图像检索设计和训练的最新描述符DELF [33]。我们计算了每种方法在 K { 1 , … , 20 } K \{ 1,\ldots ,{20}\} K{1,…,20} 下的归一化曲线下面积。DALF在 99.49 % {99.49}\% 99.49% 下实现了最准确的检索能力而DELF、DEAL、SuperPoint和DISK分别达到了98.57%、98.34%、97.92%和96.12%。图5展示了某些定性结果 2 {}^{2} 2。
非刚性3D表面注册。除了检索应用之外我们还在具有挑战性的现实世界任务——表面注册上验证了方法的性能。为此我们使用尽可能刚体As-Rigid-As-PossibleARAP[31] 注册方法对每种方法获得的对应点进行表面对齐。在这些实验中由于ARAP无法处理注册过程中的异常值因此首先使用异常值移除方法 [5] 对对应点进行过滤。非刚性注册的一个挑战是无法使用RANSAC通过最小样本拟合全局几何变换。
经过过滤阶段后使用ARAP方法对相应图像对的网格进行对齐。然后使用数据集提供的像素单位的真实TPS变换计算2D误差。我们还估计了残差3D误差假设两个对应的表面必须在3D空间中完美调整因为它们的网格是预先知道的。表3显示了在不同阈值下2D和3D误差的最优方法的性能考虑了表1中使用的所有数据集其中我们的方法脱颖而出在 3 3 3的 3 D 3\mathrm{D} 3D配准精度上比当前最佳方法SuperGlue在最严格的阈值 0.5 c m {0.5}\mathrm{\;{cm}} 0.5cm下提高了p.p.。 3 D 3\mathrm{D} 3D配准的视觉结果可以在补充材料中找到。
5. 结论
本文介绍了DALF方法该方法考虑了在非刚性几何变换的挑战性情况下关键点的检测和描述。通过广泛的实验和两个使用真实可变形物体的应用我们得出以下结论i与基于变形感知特征的标准图像匹配方法相比标准方法的结果较差ii优化关键点检测阶段和变形感知描述符一起比现有的依赖仿射关键点检测器的变形感知方法带来了显著的性能提升iii特征融合组件是一种简单但有效的方法可以提高网络对变形的表达性同时保持特征的区别性。