当前位置：首页 > news >正文

网站建设哪家服务周到云南网站开发网络公司前10

news 2026/5/7 6:44:20

网站建设哪家服务周到,云南网站开发网络公司前10,珠海视窗网,网站开发可以学吗目录【长尾学习】【人脸防伪】【图像分割】【长尾学习】 [2024综述] A Systematic Review on Long-Tailed Learning 论文链接#xff1a;https://arxiv.org/pdf/2408.00483 长尾数据是一种特殊类型的多类不平衡数据#xff0c;其中包含大量少数/尾部类别#xff0c;这些类… 目录【长尾学习】【人脸防伪】【图像分割】【长尾学习】 [2024综述] A Systematic Review on Long-Tailed Learning 论文链接https://arxiv.org/pdf/2408.00483 长尾数据是一种特殊类型的多类不平衡数据其中包含大量少数/尾部类别这些类别具有非常显著的综合影响。长尾学习旨在在具有长尾分布的数据集上构建高性能模型能够高准确度地识别所有类别特别是少数/尾部类别。这是一个前沿研究方向在过去几年中吸引了大量的研究努力。文中提供了关于长尾视觉学习最新进展的全面综述。首先提出了一个新的长尾学习分类法包括八个不同的维度如数据平衡、神经网络架构、特征增强、logits调整、损失函数、附加功能、网络优化以及后处理技术。基于提出的分类法对长尾学习方法进行了系统回顾讨论了它们的共性和可比较的差异。同时还分析了不平衡学习和长尾学习方法之间的差异。最后讨论了这个领域的前景和未来方向。【人脸防伪】 [2024] DeCLIP: Decoding CLIP representations for deepfake localization 论文链接https://arxiv.org/pdf/2409.08849 代码链接https://github.com/bit-ml/DeCLIP 生成模型可以创建全新的图像但它们也可以以人类肉眼无法察觉的方式部分修改真实图像。文中解决了自动检测这种局部操纵的挑战。深度伪造检测中最紧迫的问题之一仍然是模型对不同生成器类别的泛化能力。对于完全操纵的图像从大型自监督模型如CLIP中提取的表示提供了朝向更健壮检测器的有希望的方向。这里引入了DeCLIP——这是首次尝试利用这些大型预训练特征来检测局部操作。文中展示了当与足够大的卷积解码器结合使用时预训练的自监督表示能够执行定位并提高现有方法的泛化能力。与之前的工作不同所提方法能够在具有挑战性的扩散模型情况下执行定位其中整个图像都受到生成器的影响。此外作者观察到这种结合了局部语义信息和全局的数据类型相比其他生成方法类别提供了更稳定的泛化性能。 [2024] MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection 论文链接https://arxiv.org/pdf/2409.09724 逼真的面部生成方法的迅速发展在社会和学术界引发了重大担忧凸显了对鲁棒且可泛化的面部伪造检测FFD技术的迫切需求。尽管现有方法主要使用图像模态捕捉面部伪造模式但其他模态如细粒度噪音和文本尚未被充分探索这限制了模型的泛化能力。此外大多数FFD方法倾向于识别由GAN生成的面部图像但难以检测未见过的扩散合成图像。为了克服这些局限性文中旨在利用尖端的基础模型——对比语言-图像预训练CLIP实现可泛化的扩散面部伪造检测DFFD。本文中提出了一种新颖的多模态细粒度CLIPMFCLIP模型通过语言引导的面部伪造表示学习挖掘全面的细粒度伪造痕迹以促进DFFD的发展。具体而言设计了一种细粒度语言编码器FLE从层次化文本提示中提取精细的全局语言特征。设计了一个多模态视觉编码器MVE以捕获全局图像伪造嵌入以及从最丰富的补丁中提取的细粒度噪音伪造模式并将它们整合起来以挖掘通用的视觉伪造痕迹。此外构建了一种创新的即插即用样本对注意力SPA方法以强调相关的负样本对并抑制不相关的负样本对使跨模态样本对能够进行更灵活的对齐。广泛的实验和可视化结果表明所提模型在不同设置下如跨生成器、跨伪造和跨数据集评估均优于现有技术。【图像分割】 [2024] Resolving Inconsistent Semantics in Multi-Dataset Image Segmentation 论文链接https://arxiv.org/pdf/2409.09893 利用多个训练数据集来扩展图像分割模型可以增强其鲁棒性和语义理解能力。单个数据集具有明确定义的真值这些真值具有非重叠的掩码布局和互斥的语义。然而将它们合并用于多数据集训练会破坏这种和谐并导致语义不一致。例如一个数据集中“人”类与另一个数据集中“脸”类在特定像素上需要处理多标签。现有方法在这种设置下表现不佳特别是在评估混合了各个单独训练集的标签空间时。为了解决这些挑战作者引入了一种简单而有效的多数据集训练方法通过整合基于语言的类名嵌入和特定于标签空间的查询嵌入。所提方法在保持高性能的同时不受训练数据集之间潜在不一致性的影响。值得注意的是在四个具有标签空间不一致性的基准数据集上进行推理时在语义分割上的mIoU提升了1.6%在全景分割上的PQ提升了9.1%在实例分割上的AP提升了12.1%并在新提出的PIQ指标上提升了3.0%。 [ITM2024] Towards Semi-supervised Dual-modal Semantic Segmentation 论文链接https://arxiv.org/pdf/2409.13325 随着3D和2D数据采集技术的发展同时获取场景的点云和图像变得容易这进一步促进了双模态语义分割。大多数现有方法在进行点云和图像的同时分割时严重依赖于标注训练数据的量与质。然而大规模的逐点和逐像素标注程序既费时又费力。为了解决这一问题作者提出了一种并行双流网络来处理半监督双模态语义分割任务称为PD-Net它联合利用少量的标注点云、大量的未标注点云以及未标注图像。所提出的PD-Net包含两个并行流分别称为原始流和伪标签预测流。伪标签预测流预测未标注点云及其对应图像的伪标签。然后未标注数据被发送到原始流进行自训练。每个流都包含两个用于3D和2D数据的编码器-解码器分支。在每个流中探索了多个双模态融合模块以融合双模态特征。此外还探索了一个伪标签优化模块以优化由伪标签预测流输出的伪标签。在两个公共数据集上的实验结果表明所提出的PD-Net不仅优于比较的半监督方法而且在大多数情况下也达到了一些全监督方法的竞争性能。

查看全文

http://www.hkea.cn/news/14565029/