江苏省建设厅八大员考试报名网站,广州建站网络公司,杭州网页设计,婚庆公司赚钱吗文章目录DiffusionInst: Diffusion Model for Instance Segmentation摘要介绍任务介绍实例分割的几种方法想法来源贡献方法整体结构Mask RepresentationDiffusionInst组成TrainingInference不足之处感悟DiffusionInst: Diffusion Model for Instance Segmentation
代码#x…
文章目录DiffusionInst: Diffusion Model for Instance Segmentation摘要介绍任务介绍实例分割的几种方法想法来源贡献方法整体结构Mask RepresentationDiffusionInst组成TrainingInference不足之处感悟DiffusionInst: Diffusion Model for Instance Segmentation
代码chenhaoxing/DiffusionInst: This repo is the code of paper DiffusionInst: Diffusion Model for Instance Segmentation. (github.com)
摘要
扩散框架已经实现了与以前最先进的图像生成模型相当的性能。由于其强大的噪声到图像去噪管道研究人员对其在判别任务中的变体感到好奇。本文提出了 DiffusionInst一种将实例表示为实例感知过滤器并将实例分割制定为噪声到过滤器去噪过程的新颖框架。该模型经过训练可以在没有来自 RPN 的任何归纳偏差的情况下反转嘈杂的基本事实。在推理过程中它以随机生成的过滤器作为输入和输出掩码进行一步或多步去噪。在 COCO 和 LVIS 上的大量实验结果表明与具有各种主干的现有实例分割模型例如 ResNet 和 Swin Transformers相比DiffusionInst 实现了具有竞争力的性能。我们希望我们的工作可以作为一个强有力的基线这可以激发设计更有效的扩散框架来挑战判别任务。
介绍
任务介绍
实例分割旨在用二进制掩码表示对象与对象检测的边界框相比这是一种更细粒度的表示。实例分割旨在为每个图像中呈现的每个实例预测具有类标签的像素级实例掩码。
实例分割的几种方法
Two-stage方法首先检测物体然后通过 RoI 对齐裁剪它们的区域特征以进一步对每个像素进行分类。single-stage方法主要是基于anchor我的理解是边界box。query-based方法使用随机生成的查询来替换 RPN 和锚点
想法来源
1query-based方法很像一种noise-to-mask的策略这点和diffusion模型很相似文中认为这是diffusion模型的一种特殊案例。
2一幅图像中的实例掩码可以由具有公共掩码特征的**实例感知过滤器向量**表示。
由此本文提出了一个noise-to-filter的扩散视图的新颖实例分割框架。基本结构借鉴了#DiffusionDet# 不同点在于
除了边界框还在扩散过程中生成噪声滤波器。我们引入掩码分支以从FPN获取多尺度信息以进行全局mask重建。
它同query-based方法相比的优点
可以执行多步推理query-based方法仅通过解码器的一次前向传递直接对对象的随机查询进行降噪生成的噪声过滤器可能包含以随机选择的时间为条件的不同分布噪声这对模型的鲁棒性和性能有很大贡献
贡献
我们提出了 DiffusionInst这是用于实例分割的扩散模型的第一个工作将其视为生成噪声到滤波器的扩散过程。我们没有预测局部掩码而是利用实例感知过滤器和公共掩码分支特征来表示和重建全局实例掩码。在 COCO 和 LVIS 基准上进行了综合实验。与现有的精心设计的方法相比DiffusionInst 取得了有竞争力的结果显示了扩散模型在判别任务中的广阔前景。
方法
整体结构 Mask Representation
参考文章CondInst
实例mask的产生方式
其中Fmask表示与实例无关不是针对某个实例的mask特征图θ表示特定于实例的过滤器m是预测的二进制mask。 是mask head它含有3个1*1的卷积层这些卷积层以过滤器θ作为卷积核。
使用filter代表实例mask的好处
直接对整个mask图形进行随机噪声去噪这比向量复杂得多。用动态mask head替换了广泛使用的box-to-mask预测方案即将 RoI 特征解码为局部掩码用于预测全局掩码。RoI特征因为是从下采样特征中裁剪的部分因此实例边缘的细节是丢失了的而实例掩码对实例边缘的更高要求因此它需要更大的感受野。
DiffusionInst
组成
CNNResNet-50或 SwinSwin-B主干它通过使用 FPN 提取紧凑的视觉特征表示mask branch用于融合来自 FPN 的不同尺度信息输出掩码特征Decoder借鉴DiffusionDet将一组与filter关联的嘈杂边界框作为输入来细化框和filter作为去噪过程reconstruct the instance mask
Training
我们倾向于依赖相应的边界框来构建从 groundtruth 到噪声filter的扩散过程。
过程1给groundtruth box添加噪声对应第一个公式。注意方式跟DiffusionDet里面一致先padding然后加噪声。
2生成噪声实例filter它使用加噪的的box特征和一个全连接层n来生成对应第二个公式
3获得预测的mask。
使用的损失函数
其中Ldet是DiffusionDet中所使用的损失函数。
Inference
从采样自高斯分布的box bT开始 不足之处
由于难以获得真值滤波器我们的噪声到滤波器过程仍然依赖于边界框需要多步去噪获得更高的性能增益判别任务中的noise-to-filter过程需要更准确的实例上下文作为条件而实例上下文严重依赖于代表性的backbone特征和大的感受野。与现有方法相比需要更多的epoch才能达到相同的性能且速度比它们慢
感悟
其实创新性一般吧很多都是借鉴别人的但是它有这个能力把这些想法用在一个新任务上。