佛山网站建设的大品牌,手机网站适配代码,域名转发网站,品牌创意网站建设前言 这里介绍一篇笔者在去年ACL上发表的一篇文章#xff0c;使用了空间语义约束来提高多模态分类的效果#xff0c;类似的思路笔者也在视频描述等方向进行了尝试#xff0c;也都取得了不错的效果。这种建模时对特征进行有意义的划分和约束对模型还是很有帮助的#xff0c;… 前言 这里介绍一篇笔者在去年ACL上发表的一篇文章使用了空间语义约束来提高多模态分类的效果类似的思路笔者也在视频描述等方向进行了尝试也都取得了不错的效果。这种建模时对特征进行有意义的划分和约束对模型还是很有帮助的在这里主要分享一下这个思路。本文选择的方向是多模态情感检测是一个标准的多模态分类场景。有已有方法主要关注特征融合忽视了模态异质性带来的挑战。模态异质性可能导致以下问题1引入冗余视觉特征2特征转移3数据标注不一致增加情感理解的难度。由于第三点和这个任务强相关不具备通用性故省略。为了解决这些问题我们设计了一个带有稀疏注意力的文本引导融合模块减少冗余视觉特征的影响。其次我们通过情感一致性约束任务校准特征转移。大量实验表明我们得改进有效并取得最佳结果。 论文https://aclanthology.org/2023.acl-long.287.pdf代码直接邮箱就行一直没顾上整理https://github.com/airsYuan/Tackling-Modality-Heterogeneity 1. 引言 多模态情感检测旨在从文本、图像等多模态内容中探索情感见下图。随着社交媒体的快速发展这项技术在理解个体、人物或主题的情感方面应用广泛吸引了学术界和工业界的关注。本文聚焦于在社交媒体中检测多模态帖子的情感。 现有研究主要集中在模态融合但忽视了模态异质性带来的问题。模态异质性主要由模态差距引起可能导致冗余视觉特征、特征转移和标注不一致等问题增加了情感理解的难度。为了系统解决这些问题我们提出了多视角校准网络MVCN从三个不同视角出发1文本引导融合模块减少冗余视觉特征2情感一致性约束任务校准特征转移3自适应损失校准策略处理不一致的标注标签。 2. 方法 MVCN的架构如下图所示主要包括文本引导融合模块和两个并行子任务情感分类和基于情感一致性约束。 2.1 文本引导融合模块 该模块由单模态编码器、文本引导单元和归约单元组成。我们使用预训练的BERT模型作为文本编码器ViT模型作为图像编码器。文本引导单元通过稀疏注意力机制消除冗余视觉特征捕获与情感相关的图像关键部分。具体来说文本引导融合模块包含以下组件 单模态编码器使用BERT模型提取文本特征使用ViT模型提取图像特征。文本引导单元TGU通过自注意力生成文本感知特征再通过稀疏注意力获取文本引导的视觉稀疏特征最后应用前馈神经网络处理这些特征。这里用了两个注意力机制 利用文本特征来关注视觉特征从而获取由文本引导的视觉特征。采用sparsemax进行注意力权重的归一化以获得稀疏的后验注意力权重使得冗余的视觉特征权 归约单元RU通过堆叠注意力层和全连接层对多模态特征进行降维得到情感分类的多模态表示。 2.2 情感一致性约束SCC SCC任务通过聚集多模态特征来校准特征转移。我们提出相对L2损失来度量距离避免数据分布完全消除。此外累积校准策略扩大计算空间减少样本变化确保训练稳定性。 具体步骤包括 估计情感中心利用标签信息计算正面、中性和负面情感中心。采用相对L2优化距离我们设计了相对距离来优化SCC任务将语义一致的数据彼此拉近。注意这里不能直接用L2损失不然会让模型失去泛化性导致效果非常差。累积校准策略为了进一步优化SCC任务我们提出了一种累积校准策略。Batch更新的局限性在于计算中心点会频繁更新而Batch的样本数量N16不足以估计准确的中心点导致训练非常不稳定。为了解决这个问题我们使用一个辅助的表征模块来提前生成足够的表示N3600作为估计中心点的候选样本。然后通过一个队列来存储所有的特征表示。该队列在训练过程中也会动态更新通过用当前Batch替换队列中最早的一个Batch来实现速度较慢的中心点更新这样训练起来非常稳定。 实验 在本节中我们将介绍实验设置和结果并进行消融研究和可视化分析。实验在三个公共数据集上进行MVSA-Single、MVSA-Multiple和HFM。 3.1 基线模型 为了充分验证MVCN的性能我们选择了单模态和多模态基线模型。 单模态基线对于文本模态我们选择CNN、Bi-LSTM和BERT作为基线模型。对于图像模态选择了ResNet和ViT。多模态基线对于MVSA数据集比较的基线模型包括MultiSentiNet、HSAN、Co-MN-Hop6、MGNNS和CLMLF。对于HFM数据集我们比较了Concat的两个变体、MMSD以及DR Net。 3.4 主要结果 实验结果如上表所示。多模态模型由于融合了更多信息超越了单模态模型。总体而言MVCN比其他方法有显著的性能提升这表明了从不同角度解决模态异质性的必要性。特别地我们发现MVCN在MVSA-Single数据集上的表现优于其他两个数据集可能是由于数据多样性不足小数据集更容易受到模态异质性问题的影响。 3.5 消融研究 为了研究每个模块的有效性我们在上表中进行了消融研究。首先与均等融合图像和文本特征的MFS模型相比TGF模块显著提升了情感检测性能。情感一致性约束SCC模型显著提升了整体效果验证了这一方法的重要性。通过将SCC与更准确稳定的质心相结合的累积校准AC策略性能进一步得到了持续提升。然而需要注意的是SCC的优化不能使用绝对距离否则效果会大幅下降这一点在论文中已有讨论。 分析 4.1 可视化 稀疏注意力可视化 为了验证TGF模块中Sparse-Attention的优势我们进行了注意力热图的可视化分析。结果显示Sparse-Attention能够捕捉与情感相关的图像关键部分同时减弱冗余视觉特征的负面影响。例如图a中模型更加关注图像中的“生病的狗”因为它反映了负面情感。这证明了模型可以聚焦于图像中的情感区域避免无关对象的干扰进一步强调了消除冗余视觉特征的必要性。 特征分布可视化 为了直观展示具有AC策略的SCC任务的优越性我们在MVSA-Single数据集上进行了特征分布的可视化分析。通过T-SNE2算法对特征进行降维我们得到了二维特征向量的分布图上图。从图b可以看出SCC任务使同一类别的样本聚集在其对应的质心周围。而图a显示当移除SCC任务时数据聚集程度明显下降。这表明SCC任务通过考虑情感标签从更全局的角度约束分布更好地校准特征偏移从而提升了模型性能。 结论 在本文中我们通过采用特征约束方法显著提升了多模态分类的性能。在笔者的探索过程中这一思路不仅在多模态分类任务中表现出色还具有广泛的应用潜力。这类方法可以同样适用于其他需要强特征表示的任务从而增强模型的效果为这类任务的性能优化提供了一个可能的思路。