重庆企业网站推广流程,学院 网站 两学一做,指点成金网发帖推广,网站开发 app系列文章目录 文章目录 系列文章目录 在电子商务产品的跨模态检索中#xff0c;电子商务图像和电子商务语言都有许多独特的特点。如图所示#xff0c;一个电子商务产品图片通常只包含一个简单的场景#xff0c;有一个或两个前景物体和一个普通的背景。同时#xff0c;电子商…系列文章目录 文章目录 系列文章目录 在电子商务产品的跨模态检索中电子商务图像和电子商务语言都有许多独特的特点。如图所示一个电子商务产品图片通常只包含一个简单的场景有一个或两个前景物体和一个普通的背景。同时电子商务语言通常由一组元数据标签实体)组成包括产品名称/描述、品牌、类别、成分等。之前的工作,如FashionBERT 表明时尚领域的跨模态检索需要更细粒度的特征,比如如短袖和圆领。 在电子商务中单词标记经常会产生特殊的含义而[103872]中的预训练语言模型部分尽管有大规模的预训练语料库但仍有偏见。例如在预训练的CLIP模型中实体“diesel”与概念“fuel”紧密相关而在电子商务时尚领域中“diesel”被标记为品牌实体。其他例子包括“canada goose品牌“、“golden goose品牌”、“top类别等 介绍一下因果学习和分布外的问题根据应用场景的不同Causal learning 的最终目的是不同的其中一个比较重要的目的就是想解决Machine learning的Out-of-Distribution GeneralizationOODG的问题。假设我们想分类骆驼和奶牛的图片, 我们获得的图片中大概率是下图的情形。 。比如我们的训练数据中骆驼大多数出现在沙化的土地背景偏黄奶牛大多数出现在长有植被的土地背景偏绿。这样一来由于背景往往占据图片的主要内容我们的模型学到的很可能是背景相关的特征比如背景颜色然后使用背景颜色对图片进行分类。即使我们在训练集上得到比较好的效果但是如果测试集的分布和训练集不一样那就出问题了。也就是说如果新的测试集也是骆驼大多数背景偏黄奶牛大多数背景偏绿那么我们的模型可能还是会有比较好的表现。但如果不是这种情形而是下图中的情形那么模型很可能表现很糟糕 上图中我们可以看到骆驼出现在了绿化草地而奶牛出现在了沙化草地这种情形在现实生活中还是可能存在的。如果我们新的数据中这种类型的图片较多数据分布和之前的不同而我们之前的模型又是根据背景色进行预测可想而知预测结果肯定不好。更有甚者我们可以随意的进行PS把背景换成任意的形式比如下图中的情形。 介绍一下混杂因素或者叫干扰因子。多模态微调中存在分布外问题,Zhang等人将图像和语言之间的这种不受欢迎的虚假相关性表述为从预训练数据集学习的“混杂因素”。Zhang等人通过使用结构因果模型SCM图建模通过后门干预进行硬干预以消除数据集偏倚。在SCM图中每个节点代表一个变量有向边表示因果影响。例如如果变量 AA 影响变量 BB则会有一条从 AA 到 BB 的有向边。也就是说他们通过硬干预也就是主动改变模型中某个变量的值以观察其对其他变量的影响来得出结论这个变量是不是真正的因然后消除数据集偏倚使得模型泛化能力强数据集偏差就指训练数据未能准确代表目标人群或模型应用时的条件。这可能导致模型的泛化能力差和预测偏差。 Zhang等人的缺点遵循传统的BERT令牌词汇表将每个实体视为一组子单词令牌。这忽略了电子商务中大量的特殊含义实体不可避免地使不同的实体与共享的混淆子单词令牌诸如“Canada Goose”和“Golden Goose”相互干扰。假设我们有两个品牌Canada Goose一个知名的冬季服装品牌以其高质量的羽绒服著称。Golden Goose一个意大利品牌以其独特设计的运动鞋而闻名。在BERT模型中这两个品牌名可能被拆分成以下子词令牌“Canada Goose” 可能被拆分为 “Canada” 和 “Goose”。“Golden Goose” 可能被拆分为 “Golden” 和 “Goose”。这两个品牌都包含“Goose”这个子词令牌。这意味着在模型的词汇中“Goose”可能被视为一个普通的词汇而不是特定于某个品牌的标识。 共享的子词令牌这两个品牌都包含“Goose”这个子词令牌。这意味着在模型的词汇中“Goose”可能被视为一个普通的词汇而不是特定于某个品牌的标识。 当模型处理与“Canada Goose”相关的图像或文本时它可能会错误地将某些特征与“Golden Goose”关联起来因为它们共享“Goose”这个子词令牌。 Meta数据的多样性导致了 动机2Meta数据对跨模态检索的贡献是不均匀的。具体来说以前的方法通常将所有元数据连接在一起以形成长句。然而这种简单的解决方案平等地对待每个Meta信息是不对的有些元数据甚至可能对检索有害 这是文章的整体框架相比CLIP他多了两个模块EA-学习者CE选择者。 首先我们把CLIP放到因果观中。最后分类分类就变成了第二个公式。 首先这个CE选择者就是根据动机2设计首先把品牌季节类别等这些标签分别作为一个实体我们选择一部分实体放入模型中进行训练。让模型自己选择哪些标签也就是说实体是有助于分类的。 EA学习者模块旨在明确捕获每个个体实体信息而无需担心通用和电子商务领域之间的模糊实体语义或由于共享子单词标记而交织的实体表示。 也就是针对之前的动机-1也就是将之前的那个公式给参数化了。EjI就是图像的特征EiD就是文本的特征然后EiA就是元数据、标签的特征这里比如加拿大鹅两个单词不会再拆分而是一体的。