网站建设论坛首页,驻马店北京网站建设,东莞网站建设 胶粘包装材料,广州培训做网站区域多人姿态估计
ICCV 2017 论文链接 代码链接 摘要#xff1a; 野外多人姿态估计具有挑战性。sota人体检测器不可避免存在定位和识别误差#xff0c;这些误差可能导致依赖人体检测器的单人姿态估计器#xff08;SPPE#xff09;的失败。本文提出了一种新的区域多人姿态估…区域多人姿态估计
ICCV 2017 论文链接 代码链接 摘要 野外多人姿态估计具有挑战性。sota人体检测器不可避免存在定位和识别误差这些误差可能导致依赖人体检测器的单人姿态估计器SPPE的失败。本文提出了一种新的区域多人姿态估计RMPE框架以在存在不准确人体边界框的情况下进行姿态估计该框架由三个组件组成Symmetric Spatial Transformer NetworkSSTN、Parametric Pose NonMaximum-SuppressionNMS和 Pose-Guided Proposals GeneratorPGPG。我们的方法能够处理不准确的边界框和冗余检测在MPII数据集上实现76.7 mAP。 文章目录区域多人姿态估计1. Introduction2. Related Work3. Regional Multi-person Pose Estimation3.1. Symmetric STN and Parallel SPPE3.2. Parametric Pose NMS3.3. Pose-guided Proposals Generator4. Experiments4.3. Results4.4. Ablation studies4.5. Failure cases5. Conclusion1. Introduction
two-step 姿态估计框架的准确度高度依赖于 bboxpart-based框架在多个人彼此靠近时难以准确组合单人姿态此外part-based框架仅利用 second-order body parts dependence二阶身体部位相关性因此无法从全局姿态视图识别身体部位。 我们的方法遵循 two-step 框架即使在给定不准确 bbox 的情况下也能准确预测姿态。我们应用 sota 目标检测器 Faster-RCNN 和 单人姿态估计器 Stacked Hourglass 来说明问题图1和图2显示了两个主要问题定位误差和冗余检测。事实上SPPE 易受错误边界框的影响IoU0.5时边界框被认为是正确但检测到的人体姿态可能是错误的。由于SPPE为每个给定的边界框生成一个姿态因此冗余检测会导致冗余姿态。
图1。边界框定位错误问题。红色框是 gt 边界框黄色框是IoU0.5的检测边界框。热图是对应于两个边界框的SPPE输出。从图中可看出对应于黄色框的热图未检测到相应的身体部位。注意当IoU0.5时黄色框被视为“正确”检测但即使使用“正确”的边界框也无法检测人体姿态。 图2:冗余人体检测问题。左侧图像为检测到的边界框右图为估计的人体姿态。因为每个边界框都是独立操作的所以会为一个人检测多个姿态。 为了解决上述问题我们提出了一种区域多人姿态估计RMPE框架提高了基于SPPE的人体姿态估计算法的性能。我们设计了一个新的 symmetric spatial transformer networkSSTN连接到SPPE 上来从不准确的边界框中提取高质量的单人区域引入一种新的 Parallel SPPE 分支来优化该网络。为了解决冗余检测问题引入了一种 parametric Pose NMS通过使用新的姿态距离度量比较姿态相似性来消除冗余姿态应用数据驱动方法来优化姿态距离参数。最后我们提出了一种新的 pose-guided human proposal generatorPGPG来增加训练样本通过学习人体检测器对不同姿态的输出分布模拟人体边界框的生成从而生成大量训练数据样本。RMPE框架是通用的适用于不同的人体检测器和单人姿态估计器。
2. Related Work
略
3. Regional Multi-person Pose Estimation
RMPE pipeline 如图3所示人体检测器获得的人体边界框喂给 “Symmetric STN SPPE” 模块来自动生成姿态proposal之后通过 “parametric Pose NMS” 细化姿态proposal 来估计人体姿态。训练期间引入 “Parallel SPPE” 来避免局部最小值并进一步利用SSTN的力量。设计一个pose-guided proposals generator (PGPG) 来增加现有的训练样本。下面将介绍框架的三个主要组成部分。 图3。RMPE框架 pipeiline。Symmetric STN 由 STN和SDTN组成分别连接在SPPE之前和之后STN接收人体 proposalSDTN生成姿态 proposal。Parallel SPPE 在训练阶段充当额外的调节器。最后执行 parametric Pose NMSp-Pose NMS来消除冗余姿态估计。不同于传统训练我们使用PGPG生成的图像训练SSTNSPE模块。 3.1. Symmetric STN and Parallel SPPE
人体检测器提供的人体 proposal 不太适合 SPPE因为SPPE专门针对单人图像进行训练因此对定位错误非常敏感人体 proposal 微小的 translation 或 cropping 都会显著影响 SPPE 性能。引入 symmetric STN parallel SPPE 在给定不完美人体 proposal 时增强SPPE。symmetric STN parallel SPPE 模块如图4所示。 图4。symmetric STN 架构和 parallel SPPE 训练策略的阐述。使用由Jaderberg等人开发的STN。SDTN采用由定位网生成的参数θ并计算 de-transformation 的 γ。使用 grid generator and sampler 来提取 human-dominant 区域。对 parallel SPPE 分支指定位于中心的姿态标签。冻结parallel SPPE 所有层的权重来鼓励STN提取占主导的单人proposal。 STN and SDTN. STN 在自动选择 RoI 方面性能优异本文使用STN来提取高质量的 dominant human proposals。数学上STN执行2D仿射变换可以表示为 SPPE 生成的姿态被匹配给原始的 human proposal 图像自然地需要一个spatial detransformer networkSDTN将估计的人体姿态重新映射回原始图像坐标。SDTN计算 de-transformation 的 γ并基于γ生成网格 由于SDTN是STN的逆过程可以获得以下结果 为了通过SDTN反向传播由下列公式推导 ∂J(W,b)∂θ\frac{\partial J(W,b)}{\partial θ}∂θ∂J(W,b) 提取出高质量的 dominant human proposal regions 后我们可以利用现成的SPPE进行精确的姿态估计。训练时SSTN与SPPE 进行了微调。
Parallel SPPE. 为了进一步帮助STN提取良好的 dominant human proposal regions我们在训练阶段添加了一个 Parallel SPPE 分支。该分支和 SPPE 共享相同的 STN但不使用 SDTN。该分支的人体姿态标签指定为居中具体而言该SPPE分支的输出直接与中心定位的 gt 姿态标签进行比较。训练阶段冻结该并行SPPE 所有层的权重权重固定以将中心位置的姿态误差反向传播给 STN 模块若 STN 提取的姿态不位于中心则并行分支将反向传播大的误差。这种方式可以帮助 STN 聚焦正确的区域并提取高质量的 dominant human proposal regions。测试阶段不使用并行SPPE分支。
Discussions. 训练阶段Parallel SPPE可被视为正则化器它有助于避免STN 没有将姿态转换到提取的人体区域中心局部最小值。来自SDTN的补偿将使网络产生更少的误差因此达到局部最小值的可能性增加这些误差对训练STN是必要的。利用 Parallel SPPE训练STN将人移动到提取区域的中心以便于SPPE进行准确的姿态估计。 用一个 center-located poses regression loss 在 SPPE 的输出阶段SDTN之前代替 parallel SPPE 似乎很直观但该方法会降低我们系统的性能。虽然STN可以部分转换输入但不可能将人完美放置在与标签相同的位置SPPE 输入和标签间的坐标空间差异将极大削弱其学习姿态估计的能力这将导致 SPPE 主分支的性能下降。因此为确保 STN 和 SPPE 都能充分利用各自的力量冻结权重的Parallel SPPE 是必要的。Parallel SPPE 总是对非中心姿态产生较大误差以推动STN生成中心定位姿态而不影响主分支SPPE的性能。
3.2. Parametric Pose NMS
本文提出一种 parametric pose NMS 方法来消除冗余具有 m 个关节的姿态 PiP_iPi 被表示为 {ki1,ci1,...,kim,cim}kij和cij\{k^1_i , c^1_i, . . . , k^m_i , c^m_i\}k^j_i 和 c^j_i{ki1,ci1,...,kim,cim}kij和cij 分别表示 j-th 关节的位置和置信度。
NMS scheme. 我们重新审视姿态NMS如下首先选择置信度最高的姿态作为参考并通过应用消除准则消除与之接近的一些姿态。对剩余的姿态集重复此过程直到消除冗余姿态并仅留唯一姿态。
Elimination Criterion 消除准则. 需要定义姿态相似性来消除彼此过于接近和过于相似的姿态。我们定义了姿态距离度量 d(Pi,Pj∣Λ)d(P_i, P_j|Λ)d(Pi,Pj∣Λ) 来测量姿态相似性并定义阈值 η 作为消除标准Λ 是函数 d(·) 的参数集消除标准可以写成如下 若 d(·) 比 η 更小 f(·) 的输出为 1表示 Pi对于参照姿态PjP_i 对于参照姿态 P_jPi对于参照姿态Pj 冗余应被消除。
Pose Distance 姿态距离. 现在我们给出距离函数 dpose(PiPj)d_{pose}(P_iP_j)dpose(PiPj)假设 Pi的框是BiP_i的框是B_iPi的框是Bi定义一个 soft matching 函数: tanh操作过滤掉低置信度姿态。当两个对应的关节都具有较高置信度时输出将接近1。该距离 softly 计算姿态间匹配的关节数。 部位间的空间距离可以写成 通过组合等式(8)和(9)最终距离函数可以写成: λ是平衡两个距离的权重Λ{σ1σ2λ}。注意先前的姿态 NMS 手动设置姿态距离参数和阈值而我们的参数姿态NMS以数据驱动方式确定距离参数和阈值。
Optimization. 给定检测到的冗余姿态消除准则 f(Pi,Pj∣Λ,η)f(P_i, P_j|Λ, η)f(Pi,Pj∣Λ,η) 中的四个参数被优化以实现验证集的最大mAP。由于4D空间难以穷举搜索因此通过迭代方式固定两个参数一次优化另外两个参数。一旦收敛参数将固定并在测试阶段使用。
3.3. Pose-guided Proposals Generator
Data Augmentation. 两阶段姿态估计需要适当的数据增强以使SSTNSPE模块适应由人体检测器生成的 “不完美” 人体proposal否则人体检测器测试阶段模块可能无法正常工作。直观的方法是在训练阶段直接使用由人体检测器生成的边界框但人体检测器只能为每个人生成一个边界框。通过使用 proposal 生成器可以大大增加此数量。由于我们已经为每个人提供了 gt 姿态和目标检测边界框因此可以生成与人体检测器输出分布相同的大量训练 proposal 样本。这种技术能够进一步提高系统性能。
Insight. 我们发现预测边界框和 gt 边界框间相对偏移的分布在不同姿态间有所不同。 具体而言存在一个分布 P(δB|P)其中 δB 是预测边界框的坐标与 gt 边界框坐标间的偏移P是 gt 姿态。若能建模这种分布就能够生成许多与人体检测器生成的人体 proposal 相同的训练样本。
Implementation. 由于不同的人体姿态很难直接学习分布 P(δB|P)因此我们试图学习分布P(δB| atom§)其中 atom§ 表示 P 的 atomic 姿态。为从人体姿态标注中导出原子姿态先对齐所有姿态使其 torsos 躯干长度相同。然后使用 k-means 算法聚类对齐的姿态计算出的聚类中心形成了 atomic 姿态。现在对共享相同 atomic 姿态 a 的每个人体实例计算其 gt 边界框和预测边界框间的偏移然后通过该方向上 gt 边界框的相应边长对偏移进行归一化。之后偏移量形成频率分布我们将数据拟合为高斯混合分布。不同的atomic 姿态使用不同的高斯混合参数。图5可视化了一些分布及其对应的聚簇人体姿态。
图5。几种不同 atomic 姿态的边界框偏移的高斯分布。 Proposals Generation. SSTNSPE训练阶段对于训练样本中的每个姿态标注首先查找对应的 atomic 姿势 a然后根据 P(δB|a)通过密集采样生成额外的偏移以生成增强的训练 proposal。
4. Experiments
使用 VGG-based SSD-512 作为人体检测器为了确保提取出整个人体区域检测的人体 proposal 沿高度和宽度方向各扩展30%。使用 stacked hourglass 作为姿态估计器。对于STN网络采用ResNet-18 作为我们的 localization 网络。考虑到存储效率使用较小的4层沙漏网络作为 Parallel SPPE。 为证明框架的通用性我们还使用基于 ResNet152 的 Faster-RCNN 作为人体检测器使用PyraNet 作为姿态估计器在这种情况下对人体检测采用多尺度测试并对 PyraNet 使用 320x256 大小的输入。
4.3. Results
MPII dataset 结果表1图6
表1。MPII multi-person test set 结果mAP。“” 表示使用具有 softnms 的 Faster-RCNN 作为人体检测器使用输入大小为320x256的 PyraNet 作姿态估计器。 图6。模型预测结果的可视化。 MSCOCO Keypoints dataset 的结果如表2 所示 表2。MSCOCO Keypoint Challenge 数据集结果AP。MSCOCO网站仅提供技术概述。我们的结果是在没有 ensembling 的情况下得到的。“” 表示使用具有 softnms 的 Faster-RCNN 作为人体检测器使用输入大小为320x256的 PyraNet 作姿态估计器。我们只比较单个模型的结果。 4.4. Ablation studies 表3。验证集上的消融实验。“w/o X” 表示 pipeline 中没有 X 模块。“random jittering*” 表示通过抖动定位和预测人体边界框的纵横比来生成训练 proposals。“PoseNMS[x]”报告使用论文[x]中开发的 PoseNMS 算法。 4.5. Failure cases
图7展示了一些失败案例。可以看出SPPE无法处理很少出现的姿态例如第一张图像中表演“Human Flag” 的人。两个高度重叠的人体会迷惑系统如第二张图像左侧的两个人。人体检测器的缺失也会导致人体姿态的缺失检测例如第三张图像中躺下的人。最后类人体可能会欺骗人体检测器和 SPPE从而导致检测到错误姿态例如第四幅图像中的背景物体。 图7。我们模型的失败案例。 5. Conclusion
在本文中提出了一种新的有效的 regional multi-person pose estimationRMPE框架验证了 two-step 框架的潜力。RMPE框架由三个新组件组成具有 parallel SPPE 的 symmetric STNparametric pose NMS 和 pose-guided proposals generator (PGPG)。PGPG 通过学习给定人体姿态边界框 proposal 的条件分布来扩充训练数据。symmetric STN 和 parallel SPPE 有助于 SPPE 处理人体定位错误。parametric pose NMS 用于减少冗余检测。我们将在未来工作中探索以端到端的方式联合训练我们的框架与人体检测器。