网站域名都需要备案吗,优秀手机网站模板图片,798艺术区个人拍照图片及价格,王野摩托车官方网站CLIP简介
CLIP#xff08;Contrastive Language–Image Pre-training#xff09;是由OpenAI在2021年提出的一种多模态机器学习模型。它旨在通过大量的文本-图像对进行训练#xff0c;从而学会理解图像内容#xff0c;并能将这些内容与相应的自然语言描述相匹配。CLIP的核心…CLIP简介
CLIPContrastive Language–Image Pre-training是由OpenAI在2021年提出的一种多模态机器学习模型。它旨在通过大量的文本-图像对进行训练从而学会理解图像内容并能将这些内容与相应的自然语言描述相匹配。CLIP的核心思想是利用对比学习contrastive learning这是一种无监督或弱监督的学习方法通过最小化正样本之间的距离同时最大化负样本之间的距离来学习表示。 CLIP的工作原理 数据集CLIP使用了大规模的互联网抓取数据包括图像和它们相关的文本描述。这些数据集通常非常庞大包含数十亿的样本这有助于模型学习到广泛的概念和关联。 模型结构CLIP实际上由两个部分组成——一个用于处理图像的视觉编码器和一个用于处理文本的语言编码器。这两个编码器分别将输入的图像和文本转换成固定长度的向量表示这些向量位于同一高维空间中使得图像和文本可以在这个空间中直接比较。 损失函数CLIP使用了一个特殊的对比损失函数该函数鼓励当图像和文本描述匹配时它们的向量表示在高维空间中的距离更近而不匹配的图像-文本对则距离更远。这种机制帮助模型学会了如何区分相关与不相关的图像-文本对。 应用场景 图像分类给定一张图像CLIP可以生成多个可能的标签并根据与这些标签相关的文本描述来选择最合适的标签。 图像-文本检索用户可以输入一段文字来搜索与之最匹配的图像或者上传一张图片来查找相关的文本描述。 零样本学习由于CLIP是在大量多样化的数据上训练的因此它能够执行那些它在训练过程中没有见过的任务即实现零样本学习或少样本学习。 优势 泛化能力CLIP能够在未见过的数据和任务上表现出色这是因为其训练过程涉及了大量的数据和广泛的任务。 灵活性CLIP可以轻松地适应多种视觉识别任务而不需要为每个特定任务重新训练模型。 挑战与限制
尽管CLIP展示了强大的性能和灵活性但它也面临着一些挑战比如对于训练数据的依赖性较高可能会反映出数据集中存在的偏见以及模型的计算资源需求较大等。 对上面的对进行简单介绍 1. 标准图像模型 联合训练标准图像模型通常联合训练一个图像特征提取器和一个线性分类器以预测某个标签。 图像特征提取器负责从输入图像中提取有用的特征。 线性分类器基于提取的特征预测图像的标签。 2. CLIP模型 联合训练CLIP模型联合训练一个图像编码器和一个文本编码器以预测一批图像文本训练样例的正确配对。 图像编码器负责从输入图像中提取特征。 文本编码器负责从输入文本中提取特征。 目标预测一批图像文本对中的正确配对。 3. 测试阶段 零样本分类在测试阶段CLIP的文本编码器通过嵌入目标数据集的类别名称或描述合成一个零样本线性分类器。 文本编码器将类别名称或描述嵌入到一个向量表示中。 零样本线性分类器使用这些嵌入向量作为分类器的权重对新图像进行分类。 详细解释 1. 标准图像模型 训练过程 输入图像通过图像特征提取器生成图像特征向量。 图像特征向量通过线性分类器预测图像的标签。 模型通过反向传播优化图像特征提取器和线性分类器的参数以最小化预测标签与真实标签之间的误差。 2. CLIP模型 训练过程 输入图像通过图像编码器生成图像特征向量。 输入文本通过文本编码器生成文本特征向量。 模型通过优化目标函数使正确的图像文本对的特征向量在联合嵌入空间中的相似度最大化同时使错误的配对的相似度最小化。 优化过程中图像编码器和文本编码器的参数同时更新。 3. 测试阶段 零样本分类 对于目标数据集的每个类别使用文本编码器将类别名称或描述嵌入到一个向量表示中。 这些嵌入向量可以用作零样本线性分类器的权重。 对于一个新的图像通过图像编码器生成其特征向量然后计算该特征向量与每个类别嵌入向量的相似度选择相似度最高的类别作为预测结果。 示例 假设有一个目标数据集包含三个类别猫、狗和鸟。 训练阶段 输入一批图像文本对例如猫的图像猫的文本。 图像编码器生成猫的图像特征向量文本编码器生成猫的文本特征向量。 模型优化目标函数使猫的图像特征向量和猫的文本特征向量在联合嵌入空间中的相似度最大化。 测试阶段 使用文本编码器将类别名称猫、狗和鸟分别嵌入到向量表示中。 对于一个新的图像通过图像编码器生成其特征向量。 计算该特征向量与猫、狗和鸟的嵌入向量的相似度选择相似度最高的类别作为预测结果。 总结 标准图像模型联合训练图像特征提取器和线性分类器预测图像标签。 CLIP模型联合训练图像编码器和文本编码器预测图像文本对的正确配对。 零样本分类在测试阶段通过嵌入类别名称或描述合成零样本线性分类器对新图像进行分类。 0 Abstract
最先进的计算机视觉系统通常被训练来预测一组预定义的对象类别。这种受限的监督形式限制了它们的通用性和可用性因为要指定任何其他视觉概念就需要额外的标注数据。 比如它们可以识别“猫”、“狗”、“汽车”等。但是这种做法有一个明显的局限性如果你想让系统识别一个新的类别比如说“独角兽”你就必须提供大量带有“独角兽”标签的图片来训练系统。这不仅耗时费力而且限制了系统的灵活性和广泛适用性。 直接从原始文本中学习关于图像的信息是一种很有前途的替代方案因为它利用了更广泛的监督来源。作者证明了简单的预训练任务——预测哪张图像与哪个标题匹配——是一种高效且可扩展的方法可以从头开始学习最先进的图像表示。作者使用从互联网收集的4亿个图像文本对的数据集来进行这项预训练。预训练完成后自然语言被用来引用已学的视觉概念或描述新的概念从而实现模型向下游任务的零样本迁移。 作者通过在30多个现有的计算机视觉数据集上进行基准测试研究了这种方法的性能这些数据集涵盖了OCR、视频中的动作识别、地理定位以及多种细粒度的对象分类任务。模型在大多数任务上都能非平凡地迁移并且经常在无需任何特定于数据集的训练的情况下与完全监督的基线模型竞争。例如作者在ImageNet上实现了与原始ResNet-50相同的准确性而无需使用它所训练的128万个训练样本中的任何一个。 1 Introduction and Motivating Work
作者首先介绍了自然语言处理NLP领域中直接从原始文本中学习的预训练方法如何在过去几年中彻底改变了该领域。这些方法包括自回归语言建模和掩蔽语言建模它们在计算规模、模型容量和数据量方面都有了显著的增长从而持续提升了模型的性能。 接着作者提到了“文本到文本”的标准化输入输出界面的发展这种界面允许预训练模型在没有特定数据集训练的情况下直接迁移到下游任务。这意味着这些模型可以处理各种不同的任务而不需要针对特定数据集进行定制化训练。GPT-3就是在许多不同的任务上都展现出了竞争力而且几乎不需要特定数据集的训练。 然后作者转向计算机视觉领域提出了一个问题既然在NLP领域中从大规模网络文本中学习的方法已经取得了显著的成功那么这种方法是否也能在计算机视觉领域中取得类似的突破呢作者指出尽管在计算机视觉领域中通常的做法仍然是在像ImageNet这样的众包数据集上进行预训练但这些方法可能限制了模型的通用性和适用性因为它们需要额外的标记数据来识别新的或不同的视觉概念。 为了探索这个问题作者介绍了CLIP模型这是一种通过大规模的互联网上的图像和文本对进行预训练直接从自然语言描述中学习视觉表示的方法。CLIP模型的核心是一个简单的预训练任务预测给定图像与哪个文本描述相匹配。这种方法不仅能够学习到强大的视觉表示而且还能够通过自然语言的描述来实现对下游任务的零样本迁移。 作者通过对30多个不同的计算机视觉数据集进行基准测试来评估CLIP模型的性能。这些数据集涵盖了多种任务如光学字符识别OCR、视频中的动作识别、地理定位以及各种细粒度的物体分类。测试结果表明CLIP模型在大多数任务上都能够实现非平凡的迁移并且在很多情况下它的表现与完全监督的基线模型相当而完全监督的基线模型通常需要特定数据集的训练。 最后作者强调了CLIP模型的潜力并承诺将发布他们的代码和预训练模型权重以便社区可以进一步探索和利用这一模型。 2 Approach
2.1 Natural Language Supervision
作者深入探讨了利用自然语言作为监督信号来训练视觉模型的潜力和实践。这一节的关键在于理解自然语言如何作为一个丰富的、可扩展的资源来指导模型学习以及它如何与传统的监督方法相比较。 核心介绍 自然语言作为监督信号 作者首先强调自然语言提供了一种独特的方式来监督和指导模型的学习。与传统的监督学习不同自然语言监督不需要精确的标注而是利用语言的描述性来提供关于图像的上下文信息。 自然语言是描述视觉世界的一种非常通用的方式。通过利用描述图像的文本模型能够学习到更广泛和多样化的视觉概念。 易于扩展 自然语言监督的一个显著优势是它的可扩展性。因为互联网上有大量的文本数据所以可以从这些文本中学习到丰富的视觉概念而不需要依赖于有限的、人工标注的数据集。 与需要特定格式标注的数据集不同自然语言监督可以直接利用互联网上现有的文本这意味着可以更容易地获取大规模的训练数据。 与语言的连接 通过自然语言学习到的视觉表示不仅能够识别图像还能够与语言建立联系。这意味着模型可以直接使用自然语言来描述新的视觉概念或者对已知概念进行描述从而实现零样本迁移。 使用自然语言监督的模型可以更容易地适应新的任务和数据集因为它们已经学会了如何从文本描述中提取信息。 对比现有工作 作者提到了以往的研究这些研究通过自然语言来改善图像检索和分类任务。这些工作表明自然语言可以作为一种有效的监督信号帮助模型学习更好的视觉表示。 作者提出通过自然语言监督学习到的模型不仅仅是学习表示它们还学习了如何执行任务。这意味着模型可以直接在新的、未见过的数据集上执行任务而不需要额外的训练。 2.2 Creating a Sufficiently Large Dataset
作者讨论了为了训练先进的计算机视觉模型需要一个庞大且多样的数据集特别是当使用自然语言作为监督信号时。 核心介绍 数据集规模的重要性 作者指出为了有效地利用自然语言进行图像表示学习需要一个包含大量图像和相关文本的数据集。这是因为模型需要从广泛的实例中学习以理解和泛化各种视觉概念。 现有数据集的局限性 现有的一些数据集如MS-COCO和Visual Genome虽然质量很高但规模有限每组数据只有大约10万张训练图片。相比之下其他计算机视觉系统可能在数十亿的Instagram图片上进行训练。此外YFCC100M虽然有1亿张照片但很多图片的元数据是稀疏的质量参差不齐。 构建新数据集 为了克服这些限制作者创建了一个新的数据集包含4亿个图像文本对。这些数据集从互联网上公开可用的多种来源收集而来。为了尽可能覆盖广泛的视觉概念他们在构建过程中寻找包含一组50万个查询词之一的图像文本对。 具体做了哪些工作 数据集的多样性 为了确保数据集能够代表各种各样的视觉概念作者采用了广泛的查询词集合包括常见的英文单词和短语以及Wikipedia中搜索量较高的所有文章的名称。 平衡数据集 为了确保数据集中每个查询词都有充分的例子他们限制了每个查询词可以包含的图像文本对的数量以避免数据集中的某些概念过于集中。 数据集大小 作者认为为了充分利用自然语言监督的潜力需要一个比现有数据集大得多的数据集。他们通过构建一个包含4亿个实例的数据集来实现这一目标。 数据集的构建过程 数据集的构建过程涉及到从互联网上抓取图像和文本然后使用一组查询词来过滤和选择与这些查询词相关的图像文本对。 WebImageText数据集 作者将这个新创建的数据集称为WebImageTextWIT它旨在为模型提供足够的语言监督以便在多种视觉任务上进行有效的预训练。 2.3. Selecting an Efficient Pre-Training Method
在现代计算机视觉系统中预训练模型通常需要大量的计算资源。例如Mahajan等人2018年训练他们的ResNeXt101-32x48d模型花费了19个GPU年而Xie等人2020年训练他们的Noisy Student EfficientNet-L2模型则需要33个TPUv3核心年。
考虑到这两个系统都是为了预测1000个ImageNet类别而训练的从自然语言中学习开放集视觉概念的任务似乎非常艰巨。在作者努力的过程中作者发现训练效率是成功扩展自然语言监督的关键作者根据这一指标选择了最终的预训练方法。 作者最初的方法与VirTex类似联合训练一个图像CNN和一个文本Transformer来预测图像的标题。然而作者遇到了扩展这种方法的困难。在图2中作者展示了一个6300万参数的Transformer语言模型它已经使用了比ResNet-50图像编码器多一倍的计算资源但学习识别ImageNet类别的速度却比预测相同文本的词袋编码的简单基线慢三倍。 这两种方法都有一个共同点它们试图预测每个图像伴随的确切文本。由于与图像共同出现的描述、评论和相关文本的多样性这是一个困难的任务。最近在图像的对比表示学习中的工作发现对比目标可以比等效的预测目标学习更好的表示Tian等人2019年。其他工作发现尽管可以学习高质量的图像表示的图像生成模型但它们需要比具有相同性能的对比模型多一个数量级的计算资源Chen等人2020a。鉴于这些发现作者探索了一个系统通过解决可能更容易的代理任务来训练只预测哪段文本与哪张图像配对而不是文本的确切单词。从词袋编码基线开始作者将预测目标换成了对比目标并观察到零样本迁移到ImageNet的效率提高了4倍。 给定一个包含N个图像文本对的批次CLIP被训练为预测在批次中可能的N×N个图像文本配对中哪些实际上是发生的。为了做到这一点CLIP通过联合训练一个图像编码器和文本编码器来学习一个多模态嵌入空间最大化批次中N个真实对的图像和文本嵌入的余弦相似性同时最小化N^2 - N个错误配对的嵌入的余弦相似性。作者优化了这些相似分数上的对称交叉熵损失。在图3中作者包含了CLIP实现核心的伪代码。据作者所知这种批次构建技术和目标最初是在深度度量学习领域作为多类N对损失Sohn2016年引入的后来被Oord等人2018年作为InfoNCE损失推广并最近被Zhang等人2020年在医学成像领域的对比文本图像表示学习中适应。 由于作者的预训练数据集的庞大规模过拟合并不是一个主要问题与Zhang等人2020年的实现相比训练CLIP的细节被简化了。作者从头开始训练CLIP没有使用ImageNet权重初始化图像编码器或使用预训练权重初始化文本编码器。作者没有使用非线性投影层这是Bachman等人2019年引入的并在Chen等人2020b中推广的。相反作者只使用一个线性投影将每个编码器的表示映射到多模态嵌入空间。作者没有注意到两个版本之间的训练效率差异并推测非线性投影可能与当前仅图像的自监督表示学习方法的细节共同适应。作者还将Zhang等人2020年中的文本转换函数tu移除该函数从文本中均匀随机采样一个句子因为CLIP预训练数据集中的许多图像文本对只是单个句子。作者还简化了图像转换函数tv。在训练期间作者只使用了调整大小的图像的随机正方形裁剪作为数据增强。最后控制softmax中logits范围的温度参数τ在训练期间作为一个对数参数化的乘法标量直接优化以避免训练不稳定。 文本转换函数 t_u 的移除 在Zhang等人2020年的研究中他们使用了一种文本转换函数 t_u 该函数的作用是从一段文本中均匀随机地采样出一个句子。这种采样方法适用于那些由多个句子组成的文本可以为模型提供多样化的文本输入。 然而在CLIP模型的预训练数据集中许多图像文本对只包含单个句子的描述。在这种情况下使用均匀随机采样的句子可能会导致数据的浪费因为每个图像只有一个相关的句子描述没有必要进行采样。 因此作者决定移除这个文本转换函数 t_u 直接使用完整的单个句子作为模型的输入。这样做可以更有效地利用数据集中的文本信息并且简化了模型的训练过程。 图像转换函数 t_v 的简化 图像转换函数 t_v 通常用于对输入的图像进行一定的变换以增强模型的泛化能力。这些变换可能包括随机裁剪、旋转、颜色调整等。 在CLIP模型中作者简化了图像转换函数只使用了随机裁剪这一种数据增强技术。这种简化可能是基于实验结果发现过多的图像变换并不总是能带来性能的提升或者是为了降低计算复杂度和训练时间。 通过简化图像转换函数模型可以更专注于学习图像和文本之间的关联性而不是过度适应于特定的图像变换。 核心结论 预训练的挑战 作者首先指出为了学习开放集的视觉概念需要大量的计算资源这使得任务显得非常艰巨。 初始方法的局限性 他们尝试了联合训练图像CNN和文本Transformer的方法但这种方法难以扩展到大规模数据集。 对比学习的引入 作者发现使用对比学习的目标来预测图像和文本对的匹配比预测文本的确切内容更为高效。 简化模型架构 为了提高训练效率作者简化了模型架构去掉了非线性投影层并采用了线性投影和基本的数据增强策略。 训练细节 CLIP模型从头开始训练没有使用预训练权重。他们还优化了温度参数这是一个控制softmax输出的关键超参数。 实验结果 通过实验作者发现对比学习的方法在零样本迁移学习中更为高效这证明了他们选择的预训练方法是有效的。 2.4. Choosing and Scaling a Model
在选择和扩展模型时作者考虑了两种不同的图像编码器架构。首先作者使用ResNet-50作为图像编码器的基础架构因为它被广泛采用并且已经证明了其性能。作者对原始版本进行了几项修改包括使用He等人2019年提出的ResNetD改进和Zhang2019年提出的抗锯齿rect-2模糊池化并且作者用注意力池化机制替换了全局平均池化层。注意力池化实现为单层“Transformer风格”的多头QKV注意力其中查询是基于图像的全局平均池化表示进行条件化的。对于第二种架构作者尝试了最近引入的Vision TransformerViTDosovitskiy等人2020年。作者紧密跟随他们的实现只做了微小的修改在Transformer之前添加了额外的层归一化到组合的补丁和位置嵌入中并使用了稍微不同的初始化方案。 抗锯齿rect-2模糊池化Anti-aliased rectified linear unit v2 pooling简称Anti-aliased ReLU or AA ReLU 抗锯齿Anti-aliasing 抗锯齿是一种用于减少图像或信号中高频部分的混叠效应的技术。在图像处理中混叠效应通常表现为锯齿状的边缘或不清晰的纹理。抗锯齿技术通过平滑这些边缘来提高图像质量。 ReLURectified Linear Unit ReLU是一种常用的激活函数定义为 f(x) max(0, x) 。这意味着任何负值都会被置为零而正值则保持不变。ReLU激活函数因其计算简单和有效的非线性特性而被广泛使用。 抗锯齿ReLUAnti-aliased ReLU 抗锯齿ReLU是一种改进的激活函数它在应用ReLU之前先对输入进行平滑处理以减少激活函数可能引入的高频噪声。这种平滑处理有助于减少信号中的高频成分从而减少混叠效应。 抗锯齿rect-2模糊池化Anti-aliased rect-2 pooling 这种池化技术结合了抗锯齿技术和ReLU激活函数的改进版本。在进行池化操作如最大池化或平均池化之前先对输入特征图进行平滑处理以减少由于池化操作可能引起的高频信息丢失。这种方法有助于保留更多的图像细节同时减少混叠效应。 在深度学习模型中尤其是在卷积神经网络CNN中这种技术可以用于提高模型对图像细节的捕捉能力从而提高模型的性能。通过在池化操作前应用抗锯齿技术模型能够更好地处理图像中的高频信息这对于图像识别和分类任务尤其重要。 文本编码器是一个TransformerVaswani等人2017年其架构修改如Radford等人2019年所述。作者使用了一个63M参数的12层512宽度模型有8个注意力头作为基础大小。Transformer操作在文本的 lowercase byte pair encodingBPE表示上词汇量大小为49,152Sennrich等人2015年。为了计算效率最大序列长度被限制在76。文本序列用[SOS]和[EOS]标记包围并且在[EOS]标记处的Transformer的最高层的激活被视为文本的特征表示该表示被层归一化然后线性投影到多模态嵌入空间。在文本编码器中使用了掩蔽自注意力以保留用预训练语言模型初始化或添加语言建模作为辅助目标的能力尽管探索这一点作为未来工作。 尽管以前的计算机视觉研究通常通过单独增加模型的宽度Mahajan等人2018年或深度He等人2016年来扩展模型但对于ResNet图像编码器作者采用了Tan和Le2019年的方法他们发现将额外的计算资源分配到宽度、深度和分辨率上比只分配到模型的一个维度上表现得更好。虽然Tan和Le2019年为他们EfficientNet架构调整了分配给每个维度的计算资源比例但作者使用了简单的基线将额外的计算资源平均分配到增加模型的宽度、深度和分辨率上。对于文本编码器作者只按ResNet宽度增加的比例扩展模型的宽度并且根本不扩展深度因为作者发现CLIP的性能对文本编码器的容量不太敏感。 2.5. Training
作者训练了一系列的5个ResNet和3个Vision Transformer模型。
对于ResNets作者训练了一个ResNet-50、一个ResNet-101然后是另外3个遵循EfficientNet风格的模型扩展它们分别使用了大约4倍、16倍和64倍于ResNet-50的计算资源。它们分别被标记为RN50x4、RN50x16和RN50x64。
对于Vision Transformers作者训练了一个ViT-B/32、一个ViT-B/16和一个ViT-L/14。作者训练所有模型32个epoch。 作者使用了Adam优化器Kingma Ba, 2014并对所有非增益或偏置的权重应用了分离权重衰减正则化Loshchilov Hutter, 2017并使用余弦调度Loshchilov Hutter, 2016衰减学习率。 初始超参数是通过在基线ResNet50模型上进行1个epoch训练的网格搜索、随机搜索和手动调整相结合的方式设置的。然后由于计算限制对更大的模型进行了启发式调整。 可学习的_temperature参数τ初始化为Wu等人2018的0.07等效值并进行了剪辑以防止对数几率放大超过100倍作者发现这是防止训练不稳定所必需的。作者使用了一个非常大的minibatch大小32,768。 使用了混合精度Micikevicius等人2017来加速训练并节省内存。为了节省额外的内存使用了梯度检查点Griewank Walther, 2000; Chen等人2016、半精度Adam统计数据Dhariwal等人2020和半精度随机四舍五入的文本编码器权重。计算嵌入相似度的计算也被分割每个GPU只计算其本地批次所需的嵌入对的子集。
最大的ResNet模型RN50x64在592个V100 GPU上训练了18天而最大的Vision Transformer在256个V100 GPU上训练了12天。对于ViT-L/14作者还在一个更高的336像素分辨率下预训练了一个额外的epoch以提升性能类似于FixResTouvron等人2019。作者称这个模型为ViT-L/14336px。除非另有说明否则本文中报告的所有结果作为“CLIP”使用的都是这个模型作者发现它的表现最好。 核心总结 模型训练作者训练了多个不同规模的ResNet和Vision Transformer模型以探索不同架构和规模对模型性能的影响。 优化器和正则化使用了Adam优化器并应用了分离权重衰减正则化来防止过拟合同时使用余弦调度来调整学习率。 超参数调整初始超参数是通过网格搜索和随机搜索确定的然后根据模型规模进行调整。 温度参数可学习的温度参数τ用于控制softmax输出的尺度以防止训练过程中的不稳定。 混合精度和内存优化使用混合精度和梯度检查点等技术来加速训练并节省内存。 模型规模和训练时间最大的ResNet模型和Vision Transformer模型分别在大量GPU上训练了18天和12天显示了大规模模型训练的计算密集性。 3 Experiments
3.1. Zero-Shot Transfer 3.1.1. MOTIVATION
主要讨论了零样本学习在计算机视觉领域的应用特别是在评估机器学习模型的任务学习能力方面。具体来说它指出了零样本学习不仅限于图像分类任务中对未见过的物体类别的识别而是扩展到了更广泛的未见数据集的泛化能力研究。这种泛化能力可以通过零样本迁移来衡量即模型在没有针对特定任务进行训练的情况下如何执行该任务。 文中提到了几个关键点
1. 零样本迁移不同于传统的无监督学习零样本迁移关注的是机器学习系统在未见任务上的表现这包括了对新数据分布的适应性以及跨领域的泛化能力。
2. 数据集的作用许多流行的计算机视觉数据集如CIFAR-10主要用于指导通用图像分类方法的发展而不是专门用来衡量特定任务上的表现。因此零样本迁移在这种数据集上的评估更多反映的是模型对于分布变化的鲁棒性。
3. Visual N-Grams的研究这项工作首次以特定的方式研究了现有图像分类数据集上的零样本迁移它通过学习大量视觉n-gram的参数并利用这些n-gram来预测图像所属的类别为后续研究提供了参考。
4. 自然语言处理领域的启示在NLP领域任务学习作为预训练模型的一个“意外副作用”被首次观察到这表明即使是在没有直接针对特定任务进行训练的情况下模型也能展现出一定的任务解决能力。例如GPT-1和GPT-2的研究显示了预训练模型在零样本迁移任务中的有效性这进一步促进了对任务学习能力的研究。 零样本迁移作为评估机器学习模型泛化能力和任务学习能力的重要工具尤其是在面对未见数据或任务时。同时它也指出了当前数据集设计与零样本迁移研究之间的差距以及未来研究可以探索的方向。 3.1.2. USING CLIP FOR ZERO-SHOT TRANSFER 预训练任务CLIP模型在训练阶段学会了判断一张图片和一段文字是否匹配。换句话说它学会了理解图片的内容并将其与正确的文字描述配对。 零样本分类在实际使用中作者希望CLIP能够对它从未见过的图片进行分类。为了做到这一点作者会利用它在预训练阶段学到的能力。具体来说作者会给出一系列类别名称CLIP需要判断每张图片最有可能属于哪个类别。 特征嵌入CLIP通过两个编码器来处理图片和文字。图像编码器分析图片内容而文本编码器处理类别名称的文字描述。这两个编码器会输出两种特征向量分别代表图片和文字。 余弦相似性和温度参数CLIP通过计算这两种特征向量的余弦相似性来评估它们是否匹配。这个相似度分数会通过一个叫做“温度参数”τ的标量进行调整以控制预测的自信度。然后这些调整后的分数会通过softmax函数转换成概率分布这样作者就可以知道图片属于每个类别的概率。 多项逻辑回归分类器在这个过程中CLIP使用了一个特殊的分类器它没有偏置项输入和权重都经过了L2规范化并且使用了温度缩放。这种分类器可以帮助CLIP在零样本的情况下做出预测。 超网络这里的文本编码器被比喻为一个“超网络”因为它能够根据类别的文本描述动态生成分类器的权重。 预训练的优化在预训练阶段CLIP不断地优化其性能就好像它在处理一个包含32,768个类别的计算机视觉数据集一样。 缓存零样本分类器为了提高效率一旦CLIP为某个数据集生成了一个零样本分类器这个分类器就会被保存下来并在之后对同一数据集的所有预测中重复使用。这样生成分类器的成本就可以分摊到所有预测中提高了整体的效率。 在零样本评估中CLIP需要对它在预训练阶段从未见过的类别进行分类。这是通过使用文本编码器来实现的文本编码器能够根据类别的自然语言描述来生成一个分类器。 总的来说这段内容解释了CLIP如何利用其在预训练阶段学到的知识通过比较图片和文字的相似性来对它从未见过的图片进行分类。这种方法允许CLIP在没有直接训练数据的情况下对新的类别进行识别和分类。 3.1.3. INITIAL COMPARISON TO VISUAL N-GRAMS
在表1中作者将Visual N-Grams与CLIP进行了比较。最好的CLIP模型将ImageNet上的准确率从概念验证的11.5%提高到76.2%并且与原始ResNet-50的性能相匹配尽管没有使用该数据集可用的128万个众包标记训练示例。 此外CLIP模型的top-5准确率明显高于top-1该模型具有95%的top-5准确率与Inception-V4相匹配。在零样本设置中匹配强大、完全监督基线的能力表明CLIP是朝着灵活和实用的零样本计算机视觉分类器迈出的重要一步。 如上所述与Visual N-Grams的比较旨在为CLIP的性能提供上下文不应解释为CLIP和Visual N-Grams之间的直接方法比较因为两个系统之间的许多性能相关差异未得到控制。 例如作者在一个大10倍的数据集上进行训练使用一个视觉模型每个预测需要近100倍的计算量可能使用了超过1000倍的训练计算量并使用了一个基于Transformer的模型该模型在Visual N-Grams发布时还不存在。
作为更接近的比较作者在Visual N-Grams训练的同一个YFCC100M数据集上训练了一个CLIP ResNet-50发现它在V100 GPU的一天内与他们报告的ImageNet性能相匹配。 这个基线也是从头开始训练的而不是像在Visual N-Grams中那样从预训练的ImageNet权重初始化。 3.1.4. PROMPT ENGINEERING AND ENSEMBLING
探讨了在基于自然语言的零样本迁移学习中标准图像分类数据集存在的挑战及解决方案特别是如何克服类别标签带来的多义性问题以提升模型的性能。 挑战 多义性问题在很多图像分类数据集中类别标签可能具有多重含义导致模型在缺乏上下文的情况下难以准确理解标签的真实意图。例如“crane”既可以指建筑工地上的起重机也可以指鸟类中的鹤“boxer”既可指拳击手也可指一种狗的品种。这种多义性增加了零样本学习的难度。 类别标签的随机性数据集中的类别标签往往是随机选择的没有特别考虑到零样本迁移的需求这意味着模型可能无法获得足够的信息来正确分类未见过的数据。 解决方案 提示模板为了解决多义性问题作者发现使用特定的提示模板非常有帮助比如“一张照片中的{标签}”。这种模板明确了文本描述的是图像的内容有助于减少歧义提高模型的准确性。在ImageNet数据集上仅使用这一简单的提示模板就能使准确率提高1.3%。 提示工程类似于自然语言处理领域中的“提示工程”概念通过为每个任务定制更具体的提示文本可以显著提高零样本学习的性能。例如 在细粒度图像分类任务中明确指定类别如“一只白色的暹罗猫”。 在OCR任务中将需要识别的文本或数字用引号括起来如“这张图片中有一个数字‘5’”。 在卫星图像分类任务中使用“一张卫星照片中的{标签}”这样的提示。 多提示集成除了使用单一的最佳提示外作者还尝试了通过集成多个不同提示下的零样本分类器来进一步提高性能。这些分类器在嵌入空间而非概率空间上进行集成可以有效摊销生成这些分类器的计算成本。例如在ImageNet数据集上通过集成80个不同的上下文提示性能额外提高了3.5%。 性能提升 综合效果结合提示工程和多提示集成的方法可以在多个数据集上显著提升零样本学习的性能。在ImageNet数据集上这些技术共同将准确率提高了近5%。 结论
通过精心设计的提示模板和提示工程以及多提示集成的技术可以有效克服标准图像分类数据集中类别标签多义性和随机性带来的挑战显著提升基于自然语言的零样本迁移学习的性能。这些方法不仅在ImageNet等大型数据集上表现出色也在其他类型的图像分类任务中显示出强大的泛化能力。 3.1.5. ANALYSIS OF ZERO-SHOT CLIP PERFORMANCE
在计算机视觉领域任务无关的零样本分类器研究相对较少。CLIPContrastive Language–Image Pre-training模型提供了一个独特的机会可以深入了解这类模型的性能。细探讨了CLIP模型在零样本迁移学习任务中的表现并将其与其他方法进行了比较。 实验设置 基线模型作者将CLIP的零样本分类器与一个简单的基线模型进行了比较即在标准ResNet-50特征上拟合一个完全监督的、规范化的逻辑回归分类器。 数据集实验涵盖了27个不同的数据集包括细粒度分类任务、通用对象分类任务、视频动作识别任务等。具体数据集和设置的细节见附录A。 主要发现 整体表现 零样本CLIP vs. 基线在27个数据集中零样本CLIP在16个数据集上表现优于基线模型。这表明CLIP在许多任务上具有较好的零样本泛化能力。 细粒度分类任务在细粒度分类任务上零样本CLIP的表现差异较大。例如在斯坦福汽车和Food101数据集上CLIP比基线模型高出20%以上而在Flowers102和FGVCAircraft数据集上CLIP的表现低于基线模型10%以上。作者认为这些差异主要是由于WITWeb Images and Text和ImageNet之间的监督量不同。 通用对象分类任务 在ImageNet、CIFAR10/100、STL10和PascalVOC2007等通用对象分类数据集上零样本CLIP的表现相对稳定略优于基线模型。 特别是在STL10数据集上CLIP达到了99.3%的准确率这是在不使用任何训练样本的情况下取得的新最佳表现。 作者推测这是因为自然语言为涉及动词的视觉概念提供了更广泛的监督相比之下ImageNet中以名词为中心的对象监督。 视频动作识别任务 在Kinetics700和UCF101数据集上零样本CLIP显著优于基线模型分别高出14.5%和7.7%。作者推测这是因为自然语言为涉及动词的视觉概念提供了更广泛的监督而ImageNet主要关注名词。 专业任务 在一些专业的、复杂的或抽象的任务上如卫星图像分类EuroSAT和RESISC45、淋巴结肿瘤检测PatchCamelyon、合成场景中的对象计数CLEVRCounts、自动驾驶相关任务GTSRB和KITTI Distance零样本CLIP的表现较差。这表明CLIP在这些更复杂任务上的能力有限。 零样本与少样本比较 与少样本逻辑回归的比较作者还将零样本CLIP与少样本逻辑回归进行了比较。尽管直观上预期零样本表现不如少样本但实验结果显示零样本CLIP的性能与4样本逻辑回归相当。这可能是因为零样本分类器通过自然语言直接生成而少样本分类器需要从训练样本中推断视觉概念。 这段话的核心在于解释传统监督学习和零样本学习在处理视觉概念时的不同方法及其优缺点。 传统监督学习 间接推断概念 在传统的监督学习中模型需要从有限的训练样本中学习和推断出概念。例如如果训练集包含许多带有标签“猫”的猫图片模型需要从这些图片中学习“猫”的特征。 这种学习方式是间接的因为模型并没有直接被告知“猫”是什么而是通过大量的例子逐渐形成对“猫”的理解。 无上下文的基于示例的学习 传统监督学习通常依赖于具体的训练样本这些样本本身可能包含多个不同的视觉概念。例如一张标有“猫”的图片中可能不仅有猫还有家具、背景等其他元素。 由于每个样本可能包含多个概念模型在学习时需要做出假设这些假设可能不总是正确的。例如模型可能会错误地将背景或家具的特征与“猫”联系起来。 多假设一致性 当训练样本数量较少时如在一个样本的情况下模型面临的挑战更大。因为单个样本可能包含多个不同的视觉概念模型很难确定哪个概念是正确的。 例如如果只有一个标有“猫”的样本模型可能会假设“猫”是图片中的主要对象但也可能错误地将背景或其他元素视为“猫”的特征。 视觉线索和启发式方法 尽管一个有能力的学习者如人类可以利用视觉线索和启发式方法来推断正确的概念例如假设被演示的概念是图像中的主要对象但这种能力在机器学习模型中并不总是可靠。 例如模型可能会错误地将图像中的次要对象或背景视为主要对象从而导致学习错误的概念。 零样本学习 直接指定概念 零样本学习通过自然语言直接指定概念。例如CLIP模型可以直接使用文本描述“猫”来生成相应的视觉特征而不需要依赖大量的训练样本。 这种方法减少了对训练样本的依赖避免了从有限样本中推断概念的不确定性。 减少假设的一致性问题 由于零样本学习直接使用自然语言描述模型可以更准确地理解概念减少了因样本多样性带来的假设一致性问题。 例如CLIP模型可以理解“猫”是指一种特定的动物而不会错误地将背景或家具的特征与“猫”联系起来。 总结 传统监督学习依赖于训练样本需要从样本中推断概念容易受到样本多样性和假设一致性问题的影响。 零样本学习通过自然语言直接指定概念减少了对训练样本的依赖提高了概念理解的准确性。 零样本少样本如何结合 1. 结合零样本和少样本学习 零样本学习零样本学习是指模型在没有见过特定类别的训练数据的情况下能够对这些类别进行分类。CLIP模型通过自然语言描述来生成类别特征从而实现零样本分类。 少样本学习少样本学习是指模型在只有少量标注数据的情况下进行学习。这种情况下模型需要高效地利用这些少量样本以提高分类性能。 2. 使用零样本分类器作为先验 潜在方法一种潜在的方法是将零样本分类器的权重作为少样本分类器的先验。这意味着在少样本学习过程中初始权重可以基于零样本分类器的权重这样可以利用零样本分类器已经学到的知识。 L2惩罚为了防止过拟合可以向生成的权重添加L2惩罚即正则化项。L2惩罚通过惩罚较大的权重值鼓励模型权重保持较小从而减少过拟合的风险。 3. 当前方法的局限性 超参数优化问题在实际应用中超参数优化如选择合适的正则化强度通常会选择一个很大的L2惩罚值。这导致生成的少样本分类器的权重几乎完全由零样本分类器的权重决定几乎没有从少量标注数据中学习到新的信息。 “仅仅”是零样本分类器最终生成的少样本分类器与零样本分类器非常相似没有充分利用少量标注数据提供的额外信息。 4. 未来研究方向 结合零样本迁移的强度与少样本学习的灵活性当前的方法虽然利用了零样本分类器的知识但在少样本学习中没有充分发挥少量标注数据的潜力。未来的研究应该探索更好的方法能够在利用零样本分类器的强迁移能力的同时有效利用少量标注数据的灵活性。 有希望的方向这可能包括开发新的正则化技术、优化算法或其他方法使得少样本分类器能够在零样本分类器的基础上进一步从少量标注数据中学习到更有用的信息。 总结 虽然将零样本分类器的权重作为少样本分类器的先验是一种有潜力的方法但当前的方法存在局限性特别是超参数优化倾向于选择过大的正则化强度导致少样本分类器几乎等同于零样本分类器。未来的研究应探索更好的方法将零样本迁移的强度与少样本学习的灵活性结合起来以充分利用少量标注数据提高模型的性能。 数据效率作者估计了逻辑回归分类器需要多少标记样本才能匹配零样本CLIP的性能。结果表明零样本迁移的效率因数据集而异从每类不到1个样本到184个样本不等。在ImageNet上零样本CLIP的表现与16样本线性分类器相当。 结论 零样本CLIP的优势CLIP在多种任务上表现出色尤其是在通用对象分类和视频动作识别任务上。 改进空间在一些专业和复杂的任务上CLIP的表现仍有待提高。这为未来的研究提供了方向尤其是如何结合零样本迁移的强度与少样本学习的灵活性。 数据效率零样本CLIP在某些数据集上展现了较高的数据效率但在其他数据集上仍需大量标记样本才能达到相同性能。 如果作者假设评估数据集足够大以至于在它们上训练的线性分类器的参数被很好地估计那么因为CLIP的零样本分类器也是一个线性分类器完全监督分类器的性能大致设定了零样本迁移能够达到的上限。
在图8中作者比较了CLIP的零样本性能与跨数据集的完全监督线性分类器的性能。虚线y x代表了一种“最优”的零样本分类器它与其完全监督的等价物表现相匹配。对于大多数数据集零样本分类器的性能仍然比完全监督分类器低10%到25%这表明提高CLIP的任务学习和零样本迁移能力仍有相当大的提升空间。 零样本性能与完全监督性能之间存在0.82的正相关性p值10^-6这表明CLIP在将底层表示和任务学习连接到零样本迁移方面相对一致。 这表明CLIP在将底层表示和任务学习连接到零样本迁移方面相对一致。换句话说CLIP在那些完全监督性能较高的任务上零样本性能也往往较高。 然而零样本CLIP只在5个数据集上接近完全监督的性能STL10、CIFAR10、Food101、OxfordPets和Caltech101。在这5个数据集上零样本准确率和完全监督准确率都超过90%。这表明CLIP在底层表示质量高的任务上可能更有效地进行零样本迁移。 预测零样本性能作为完全监督性能函数的线性回归模型估计对于完全监督性能的每一个百分点提高零样本性能提高1.28%。然而95%的置信区间仍然包括小于1的值0.93-1.79。 虽然线性回归模型显示完全监督性能每提高1个百分点零样本性能提高1.28%但置信区间包括小于1的值这表明这种关系虽然显著但并不是绝对的线性关系。 如果作者假设评估数据集足够大以至于在它们上训练的线性分类器的参数被很好地估计那么因为CLIP的零样本分类器也是一个线性分类器完全监督分类器的性能大致设定了零样本迁移能够达到的上限。在图8中作者比较了CLIP的零样本性能与跨数据集的完全监督线性分类器的性能。虚线y x代表了一种“最优”的零样本分类器它与其完全监督的等价物表现相匹配。对于大多数数据集零样本分类器的性能仍然比完全监督分类器低10%到25%这表明提高CLIP的任务学习和零样本迁移能力仍有相当大的提升空间。 零样本性能与完全监督性能之间存在0.82的正相关性p值10^-6这表明CLIP在将底层表示和任务学习连接到零样本迁移方面相对一致。然而零样本CLIP只在5个数据集上接近完全监督的性能STL10、CIFAR10、Food101、OxfordPets和Caltech101。在这5个数据集上零样本准确率和完全监督准确率都超过90%。这表明CLIP在底层表示质量高的任务上可能更有效地进行零样本迁移。预测零样本性能作为完全监督性能函数的线性回归模型估计对于完全监督性能的每一个百分点提高零样本性能提高1.28%。然而95%的置信区间仍然包括小于1的值0.93-1.79。 在过去几年中对深度学习系统的实证研究已经记录了性能是可以预测的作为训练计算量和数据集大小等重要量函数的表现Hestness等人2017年Kaplan等人2020年。到目前为止GPT系列模型已经在训练计算量增加1000倍的情况下展示了零样本性能的持续改进。
在图9中作者检查CLIP的零样本性能是否遵循类似的扩展模式。作者在36个不同数据集上对5个ResNet CLIP模型进行了39次评估并绘制了平均错误率发现CLIP在模型计算量增加44倍的情况下也遵循类似的对数线性扩展趋势。虽然总体趋势是平滑的作者发现个别评估的性能可能更加嘈杂。作者不确定这是由于个别子任务训练运行之间的高方差如D’Amour等人2020年所记录掩盖了稳步改善的趋势还是由于某些任务上的性能实际上随着计算量的增加是非单调的。 3.2. Representation Learning
表示学习是指模型从数据中自动提取特征的能力这些特征有助于后续的任务如分类或预测。这与任务学习能力不同后者关注的是模型在特定任务上的表现。 评估表示质量的方法 常见的评估方法是在模型提取的特征上训练一个线性分类器并在多个数据集上测试其性能。这种方法简单且直观可以快速评估特征的泛化能力。 另一种方法是对模型进行端到端的微调这种方法更灵活可以根据每个数据集的特点调整模型从而提高性能。 为什么选择线性分类器评估 尽管微调可以提高模型在特定任务上的性能但它可能会掩盖模型在预训练阶段学习通用和稳健特征的不足。线性分类器由于其简单性更能暴露出这些不足为模型开发提供更清晰的反馈。 对于CLIP模型使用线性分类器进行评估还有一个额外好处即它与零样本分类器的方法非常相似这使得可以直接比较和分析模型在零样本迁移任务上的表现。 评估的复杂性和成本 在大规模的实证研究中对多个模型进行微调需要调整大量的超参数这不仅增加了设计的复杂性也增加了计算成本。相比之下线性分类器的评估过程更加标准化需要调整的超参数更少更容易实现和评估。 评估的公平性和比较 作者的目标是将CLIP模型与现有的多种模型在多个任务上进行比较。由于微调会为每个数据集定制模型这使得不同模型之间的比较变得不公平。而线性分类器提供了一个更公平的比较平台因为它对所有模型都是相同的。 为了评估CLIP模型的性能作者首先使用了一组包含12个数据集的评估套件这组套件之前由Kornblith等人在2019年提出。 比较了不同规模的CLIP模型如ResNet-50和ResNet-101与其他在ImageNet数据集上训练的ResNet模型如BiT-S和BiT-M的性能。 发现小型CLIP模型虽然超过了在ImageNet-1K上训练的ResNet模型但不如在ImageNet-21K上训练的ResNet模型BiT-M。 CLIP模型也不如计算需求相似的EfficientNet家族模型。 模型扩展性 当模型规模增加时CLIP模型的性能提升显著。特别是最大的CLIP模型ResNet-50x64在总体得分和计算效率上略高于之前表现最好的模型Noisy Student EfficientNet-L2。 视觉变换器的优势 CLIP视觉变换器ViT比CLIP ResNets的计算效率大约高出3倍这意味着在相同的计算资源下视觉变换器可以达到更高的性能。 微调的影响 作者还发现对CLIP模型进行微调特别是ViT-L/14模型在更高分辨率的图像上进行额外的训练可以进一步提高模型的平均性能超过了现有最好模型2.6%。 CLIP模型被证明能够学习执行多种不同的视觉任务这些任务超出了传统计算机视觉模型的能力。这包括地理定位确定照片的拍摄地点、光学字符识别识别图像中的文字、面部情感识别判断面部表情所表达的情感和动作识别识别视频中的动作。 现有评估套件的局限性 作者指出Kornblith等人2019年的研究中使用的评估套件可能存在选择偏差因为它主要关注与ImageNet数据集重叠的任务。ImageNet是一个大型的图像识别数据集主要包含物体识别任务。 更广泛的评估套件 为了提供一个更全面的模型性能评估作者扩展了评估套件包括了27个不同的数据集。这个新的评估套件不仅包括了上述的多种视觉任务还涵盖了更广泛的应用场景如德国交通标志识别基准和其他从VTAB视觉任务适应性基准适应过来的数据集。 评估套件的组成 新的评估套件包含了多个数据集这些数据集代表了不同的视觉识别任务使得评估结果能够更全面地反映模型的性能。 评估结果的意义 通过在更广泛的任务和数据集上评估CLIP模型作者能够更准确地衡量模型的表示学习能力以及它在多种实际应用中的适用性和泛化能力。 作者发现CLIP模型在多个数据集上的表现优于其他评估的系统。特别是他们训练的最大模型ResNet-50x64在总体得分和计算效率上略微超过了之前表现最好的模型Noisy Student EfficientNet-L2。
研究还发现自监督系统在更广泛的评估套件上表现更好。例如SimCLRv2在Kornblith等人2019年的12个数据集上的平均表现虽然低于BiT-M但在更广泛的27个数据集评估套件上SimCLRv2的表现超过了BiT-M。 任务多样性和覆盖范围 作者强调了扩大任务多样性和覆盖范围的重要性以便更全面地理解系统的通用性能。他们认为进一步的评估工作如VTAB视觉任务适应性基准将有助于这一目标。 CLIP模型在多个数据集上展示了其优越的计算效率这表明它能够处理各种不同的视觉任务而不仅仅是在特定类型的数据集上表现良好。 自监督系统的优势 自监督学习系统如CLIP能够在没有大量标注数据的情况下学习有效的特征表示。这在更广泛的评估套件上表现得尤为明显例如SimCLRv2在更广泛的数据集上的表现超过了BiT-M模型。 任务多样性和覆盖范围的重要性 为了全面评估一个模型的性能需要在多种不同的任务和数据集上进行测试。这有助于发现模型在特定领域可能存在的局限性从而推动模型的进一步改进。 CLIP在细粒度识别任务上的表现 CLIP在细粒度的汽车和交通标志识别任务上表现突出这可能是因为它能够捕捉到更丰富的特征表示从而提高了识别的准确性。 ImageNet数据集的局限性 ImageNet数据集可能过于狭窄因为它对交通和街道标志只有一个单一的标签这可能导致模型在这些类别上的表示不够细致。CLIP在GTSRB数据集上的改进表明更多样化的训练数据可能有助于提高模型在细粒度任务上的性能。 EfficientNet模型的表现 EfficientNet模型在它所训练的ImageNet数据集上表现最好这可能是因为它专门针对这个数据集进行了优化。此外EfficientNet在低分辨率数据集上的表现也略好于CLIP这可能与CLIP缺乏基于尺度的数据增强有关。 数据增强的重要性 数据增强是一种提高模型泛化能力的技术它通过创建图像的变体来模拟训练数据的多样性。CLIP可能需要更多的数据增强策略来提高其在不同分辨率和条件下的性能。 3.3. Robustness to Natural Distribution Shift
在2015年有一项宣布称深度学习模型在ImageNet测试集上的表现超过了人类He et al., 2015。然而随后几年的研究发现这些模型仍然会犯很多简单的错误Dodge Karam, 2017; Geirhos et al., 2018; Alcorn et al., 2019并且在新的基准测试中这些系统的性能通常远低于它们在ImageNet上的准确率和人类的准确率Recht et al., 2019; Barbu et al., 2019。这种差异的原因是什么已经有人提出了各种想法并进行了研究Ilyas et al., 2019; Geirhos et al., 2020。一个常见的解释主题是深度学习模型非常擅长发现在训练数据集中成立的相关性和模式从而提高在分布内的性能。然而这些相关性和模式实际上是虚假的并不适用于其他分布导致在其他数据集上的性能大幅下降。 这种差异可能由几个因素解释。首先深度学习模型可能过度拟合了训练数据中的特定特征而没有捕捉到更广泛的、泛化的模式。其次这些模型可能对训练数据中的噪声和异常值过于敏感导致在面对新的、未见过的数据时表现不佳。此外ImageNet数据集本身可能存在偏差导致模型在特定类型的图像上表现良好但在其他类型的图像上则不尽如人意。 为了解决这个问题研究人员正在探索各种方法来提高模型的泛化能力和鲁棒性。这包括使用更多样化的训练数据、引入正则化技术来减少过拟合、以及开发新的模型架构来更好地捕捉数据的潜在结构。此外一些作者也在探索如何通过对抗性训练来提高模型对输入变化的鲁棒性例如通过向训练数据中添加微小的扰动来迫使模型学习更加鲁棒的特征表示。 总的来说尽管深度学习模型在某些任务上取得了令人印象深刻的成果但它们在面对分布外的数据时仍然存在挑战。这提示了未来研究需要更多地关注模型的泛化能力和鲁棒性而不仅仅是在特定数据集上的性能。 值得注意的是大多数这些研究都仅限于在ImageNet上训练的模型。这可能过于泛化忽略了这些初步发现。这些模型的失败在多大程度上可以归因于深度学习本身、ImageNet数据集或者两者的某种结合CLIP模型提供了一个从不同角度研究这个问题的机会。CLIP通过自然语言监督在非常大的数据集上进行训练并且能够实现高零样本性能。这表明通过自然语言监督训练的模型可能在面对分布偏移时具有更高的鲁棒性因为它们没有被训练数据集中的特定分布所限制。 在Taori等人2020年的研究中他们专注于分析和理解在ImageNet数据集上训练的深度学习模型在面对自然分布偏移时的性能变化。这里的“自然分布偏移”指的是模型在实际应用中可能遇到的与训练数据分布不同的数据。这项研究的重要性在于尽管模型在ImageNet测试集上可能表现得很好但在真实世界的数据上可能会遇到性能显著下降的问题。 自然分布偏移的数据集 作者选择了7个不同的数据集来模拟自然分布偏移这些数据集包含了从各种来源收集的新图像例如ImageNetV2、ImageNet Sketch等。这些数据集与合成分布偏移如通过添加噪声或对抗性攻击修改的图像不同因为它们更接近现实世界中的分布变化。 模型性能的下降 研究发现即使是在ImageNet上表现良好的模型如ResNet-101在这些自然分布偏移的数据集上也会犯更多的错误其性能显著下降。这表明模型对于训练时未见过的分布变化可能非常敏感。 鲁棒性的度量 作者提出了有效鲁棒性和相对鲁棒性的概念以区分模型在分布偏移下的性能提升。有效鲁棒性指的是模型在分布偏移下的性能提升超过了基于其在原始分布上的性能所能预测的提升。相对鲁棒性则是指模型在分布偏移下的性能有任何提升。 提高鲁棒性的方法 研究表明尽管有一些技术可以提高模型在合成分布偏移下的性能但这些技术往往不能有效地提高模型在自然分布偏移下的性能。作者发现使用更大和更多样化的数据集进行训练是提高模型鲁棒性的主要方法尽管这还远远不足以弥补性能差距。 对未来研究的启示 这项研究强调了在真实世界的分布变化下提高模型鲁棒性是一个开放的研究问题需要更多的研究来开发能够在各种分布变化下保持稳定性能的模型。 自然分布偏移指的是模型在实际应用中遇到的数据分析可能与训练时使用的数据分布存在差异。这种差异可能是由于数据收集、处理或环境变化等因素引起的。当这些在ImageNet数据集上训练的模型被应用于其他自然分布的数据集时它们的性能以准确率衡量通常会显著下降。这意味着模型对于训练数据集中未包含的分布变化不够鲁棒。 有效鲁棒性Effective Robustness和相对鲁棒性Relative Robustness是评估机器学习模型在面对数据分布变化时性能保持能力的两个概念。以下是对这两个概念的举例说明 有效鲁棒性Effective Robustness 假设作者有一个在ImageNet数据集上训练的深度学习模型该模型在ImageNet验证集上的准确率为90%。现在作者希望评估这个模型在一个新的、自然分布偏移的数据集上的性能比如ImageNet-V2这个数据集包含了与ImageNet不同的图像分布。如果作者发现模型在ImageNet-V2上的准确率为80%那么这个模型的有效鲁棒性就是它在新分布上的性能与作者根据原始分布性能预测的新分布性能之间的差异。如果根据以往的研究作者预测模型在类似分布偏移上的准确率应该下降到70%那么有效鲁棒性就是80% - 70% 10%。这表明模型在面对新的分布时保持了比预期更好的性能。 相对鲁棒性Relative Robustness 相对鲁棒性关注的是模型在分布偏移数据集上的性能是否有所提高而不考虑这种提高是否超过了基于原始分布性能的预期。继续上面的例子如果模型在ImageNet-V2上的准确率为80%即使这个准确率低于它在原始ImageNet分布上的90%但只要它在ImageNet-V2上的表现比一个随机猜测的基线模型比如准确率为50%要好作者就可以说这个模型具有相对鲁棒性。在这种情况下相对鲁棒性是80% - 50% 30%。 为了评估模型在这些自然分布偏移数据集上的性能作者计算了模型在所有7个这类数据集上的平均准确率。这提供了一个综合指标用于衡量模型在多样化分布上的泛化能力。ImageNet验证集是模型在训练过程中用于评估性能的一个数据集。这个数据集的准确率通常被视为模型性能的一个基准。然而当模型应用于其他数据集时其准确率往往低于这个基准。
Youtube-BB和ImageNet-Vid是两个具有不同评估设置的数据集。例如它们可能包括不同的测试条件或难度级别。为了公平比较作者取这两个数据集在不同设置下的准确率的平均值。 在Taori等人2020年的研究中他们对ImageNet模型在自然分布偏移下的鲁棒性进行了全面研究。他们发现与ImageNet验证集相比ResNet-101模型在自然分布偏移上的错误率是其5倍。尽管如此他们发现在分布偏移下的准确率与ImageNet准确率可以预测地提高并且与logit转换后的准确率呈线性关系。基于这一发现Taori等人提出了在鲁棒性分析中应该区分有效鲁棒性和相对鲁棒性。有效鲁棒性衡量的是在分布偏移下的准确率提升这一提升超过了基于已有的分布内和分布外准确率关系所预测的提升。相对鲁棒性则捕捉了在分布外准确率的任何提升。Taori等人认为鲁棒性技术应该旨在同时提高有效鲁棒性和相对鲁棒性。 虽然这些结果表明零样本模型可以更加鲁棒但它们并不一定意味着在ImageNet上进行监督学习会导致鲁棒性差距。CLIP的其他细节比如其庞大且多样化的预训练数据集或使用自然语言监督可能也会导致无论它们是零样本还是微调的模型都更加鲁棒。为了开始缩小这一差距作者还测量了CLIP模型在适应ImageNet分布后的性能变化这是通过一个L2正则化的逻辑回归分类器完成的该分类器拟合了ImageNet训练集上CLIP特征。作者在图14中可视化了从零样本分类器的性能变化。尽管将CLIP适应ImageNet分布将其ImageNet准确率提高了9.2%达到85.4%与Mahajan等人2018年的2018 SOTA准确率相当但在分布偏移下的平均准确率略有下降。 1. 准确率提升与分布偏移 - 作者观察到尽管在ImageNet数据集上通过监督学习的方式对模型如CLIP进行微调可以使模型的准确率提高9.2%这个提升相当于过去三年来的最佳性能State of The Art, SOTA的进步但这种提升并没有在模型面对数据分布偏移时转化为性能的提升。数据分布偏移是指模型在实际应用中遇到的数据与训练时使用的数据分布不一致的情况。 2. 不同数据集上的性能变化 - 作者进一步分析了零样本学习zero-shot learning和线性分类器在不同数据集上的性能差异。他们发现在ImageNetV2数据集上模型的性能有所提升。ImageNetV2是遵循原始ImageNet数据集创建过程构建的这表明通过监督学习获得的准确率提升主要发生在与ImageNet分布相似的数据上。 - 然而在其他几个数据集上如ImageNet-R、ObjectNet、ImageNet Sketch和ImageNet-A模型的性能却有所下降。这表明模型在面对与ImageNet分布不同的数据时其性能可能会降低。 3. 性能变化的显著性 - 对于Youtube-BB和ImageNet Vid这两个数据集模型性能的变化并不显著。这意味着在这些数据集上模型的微调对性能的提升或降低影响不大。 总的来说这段内容强调了在评估深度学习模型的性能时需要考虑模型在不同数据分布下的表现。仅仅在某个特定的数据集如ImageNet上获得高准确率并不能保证模型在面对更广泛或不同的数据分布时同样有效。这也提示了作者和开发者在设计和评估模型时需要考虑模型的泛化能力和对不同数据分布的适应性。 在ImageNet数据集上如何可能在几乎没有增加分布偏移下的准确性的情况下提高9.2%的准确性这种增益主要是从“利用虚假相关性”中获得的吗这种行为是特定于某些组合的CLIP、ImageNet数据集和研究的分布偏移的独特现象还是更普遍的现象它是否适用于端到端的微调和线性分类器目前作者对这些问题没有确切的答案。
文章提到了之前的一些研究如Mahajan等人的工作这些研究通常是在ImageNet以外的数据集上预训练模型然后在ImageNet上进行微调。为了更好地理解预训练的零样本模型是否普遍具有比微调模型更强的有效鲁棒性文章呼吁这些先前研究的作者也探索他们自己模型在未经微调情况下的表现。 如何利用灵活的零样本自然语言基础图像分类器例如CLIP来改进图像分类任务特别是在那些目标类别与ImageNet预定义类别不完全匹配的数据集上 背景ImageNet是一个大型图像数据库用于训练机器学习模型特别是卷积神经网络。它包含超过1400万个图像这些图像被标记为大约22000个不同的类别。然而许多实际应用中的数据集可能包含与ImageNet不完全一致的类别这给直接应用基于ImageNet训练的模型带来了挑战。 问题当目标数据集如Youtube-BB和ImageNet-Vid包含ImageNet中的超类别时使用ImageNet预训练模型的固定1000种类别分类器进行预测变得复杂。这是因为某些目标类可能对应于多个ImageNet类别或者根本不在ImageNet的1000个类别之内。 解决方法Taori等人提出了一种解决方案即根据ImageNet的类别层次结构对相关子类别的预测结果进行最大池化max-pooling。例如在处理Youtube-BB数据集中的“人物”类别时可以通过汇总ImageNet中与人相关的多个细分类别如“棒球运动员”、“新郎”和“潜水员”的预测值来实现。 CLIP的优势CLIP是一种能够理解文本和图像之间关系的多模态模型。它能够直接根据每个数据集的具体类别名称生成定制的零样本分类器这意味着无需预先训练特定的数据集标签模型就能根据给定的类别名称进行分类。这种方法不仅简化了适应新数据集的过程而且在一些数据集上提高了分类的准确性。 实验结果使用CLIP生成的定制零样本分类器在多个数据集上平均提高了5%的有效鲁棒性尤其是对于某些特定的数据集。即使是在设计上与ImageNet类别紧密重叠的ObjectNet数据集上使用CLIP也提高了2.3%的准确率。这表明即使目标类别与ImageNet类别相似或相同使用更具体、更针对性的类别名称也能带来性能上的提升。 综上所述利用像CLIP这样的零样本学习技术可以有效地应对不同数据集之间的类别不匹配问题从而提高模型的泛化能力和鲁棒性。 作者探讨了零样本学习zero-shot learning与完全监督学习fully supervised learning在模型鲁棒性方面的差异特别是使用CLIP模型作为案例的研究结果。 背景 零样本学习指模型能够在没有见过特定类别的训练数据的情况下对这些类别进行分类。CLIP是一个典型的零样本学习模型它通过结合文本和图像信息能够识别新的类别。 完全监督学习指模型在大量标注数据上进行训练以达到最佳的分类性能。 主要发现 零样本CLIP的优势 在零样本设置下CLIP模型展示了较高的有效鲁棒性即在面对未见过的数据时模型依然能保持较好的性能。 这种优势在图14中得到了验证显示零样本CLIP在多个数据集上提高了平均有效鲁棒性5%。 监督程度的影响 为了更好地理解从零样本到完全监督学习过程中鲁棒性的变化研究人员在图15中绘制了不同监督程度下的模型性能曲线。这些监督程度包括0样本、1样本、2样本、4样本……直到128样本以及完全监督的逻辑回归分类器。 少样本模型即使在少量样本的情况下如1样本、2样本等CLIP模型依然表现出比现有模型更高的有效鲁棒性。 分布内性能随着训练数据的增加模型在分布内即训练数据和测试数据来自相同分布的性能显著提高。然而这种性能的提高导致了鲁棒性优势的逐渐消失。 完全监督模型在完全监督的设置下尽管模型的整体性能达到了最优但零样本CLIP带来的鲁棒性优势几乎完全消失尽管并未完全消失。 鲁棒性对比 尽管在完全监督的设置下零样本CLIP的鲁棒性优势减弱但在零样本和少样本设置下CLIP模型的鲁棒性明显优于具有相当ImageNet性能的其他少样本模型。 结论 零样本CLIP的鲁棒性在缺乏训练数据的情况下CLIP模型能够提供更好的鲁棒性这是其主要优势之一。 监督数据的影响随着监督数据的增加模型的分布内性能显著提升但这种提升也削弱了零样本CLIP的鲁棒性优势。 综合性能在实际应用中选择模型时需要权衡鲁棒性和分布内性能。在数据有限的情况下零样本或少样本CLIP模型可能是更好的选择而在数据充足的情况下完全监督模型可能更优。 综合结论 跨领域的趋势大规模预训练模型在计算机视觉领域展示了显著的鲁棒性提升尤其是在零样本和少样本设置下。这一趋势表明向大规模任务和数据集不可知的预训练转变有助于开发更鲁棒的系统。 NLP领域的差异虽然在情感分析任务上预训练模型提高了鲁棒性但在问答模型的自然分布偏移测试中鲁棒性提升并不明显。这表明NLP领域的鲁棒性提升可能需要更多的研究和不同的方法。 未来研究方向未来的研究可以进一步探索如何在NLP领域中实现类似的鲁棒性提升特别是在零样本和少样本设置下。此外还需要开发更广泛的评估套件以更全面地评估模型在不同任务和数据分布下的表现。 4 Comparison to Human Performance
CLIP与人类表现和人类学习相比如何为了更好地理解人类在类似CLIP的评估设置中的表现作者在其中一项任务上对人类进行了评估。作者想要了解人类在这些任务中的零样本表现有多强以及如果向他们展示一两个图像样本人类的表现会有多大提升。这可以帮助作者比较人类和CLIP在任务难度上的差异并识别它们之间的相关性和差异。 评估人类在不同条件下的图像分类能力特别是在零样本、单样本和双样本设置下。实验使用的数据集是牛津IIT宠物数据集由Parkhi等人在2012年发布该数据集包含3669张猫和狗的图片涉及37种不同的品种。以下是详细的设计原则 实验设计 数据集 牛津IIT宠物数据集这个数据集包含3669张猫和狗的图片涵盖了37种不同的品种。 测试分割实验使用的是数据集的测试部分确保参与者没有见过这些图片。 参与者 五位不同的人实验邀请了五位不同的参与者进行图像分类任务。 任务 选择品种参与者需要从37种猫或狗的品种中选择最符合每张图片的品种。 不确定选项如果参与者完全不确定可以选择“我不知道”。 实验条件 零样本设置 无示例参与者没有任何品种的示例图片。 不允许搜索参与者不能进行网络搜索只能根据自己的知识和经验进行判断。 单样本设置 一个示例参与者每种品种都看到了一个示例图片。 帮助记忆这些示例图片可以帮助参与者更好地记住和识别不同品种的特征。 双样本设置 两个示例参与者每种品种都看到了两个示例图片。 更多参考与单样本设置相比双样本提供了更多的参考有助于更准确地识别品种。 实验目的 评估人类的分类能力通过比较不同设置下的分类结果评估人类在零样本、单样本和双样本条件下的图像分类能力。 零样本学习特别关注在没有示例的情况下人类如何利用已有的知识和经验进行分类。 样本数量的影响研究提供不同数量的示例图片对分类性能的影响。 实验过程 零样本实验 参与者仅凭自己的知识和经验对每张图片进行分类。 如果不确定可以选择“我不知道”。 单样本实验 参与者先看每种品种的一个示例图片然后对测试图片进行分类。 如果不确定可以选择“我不知道”。 双样本实验 参与者先看每种品种的两个示例图片然后对测试图片进行分类。 如果不确定可以选择“我不知道”。 预期结果 零样本设置由于没有示例图片参与者的分类准确率可能会较低依赖于他们对不同品种的已有知识。 单样本设置提供一个示例图片后参与者的分类准确率可能会有所提高因为有了具体的参考。 双样本设置提供两个示例图片后参与者的分类准确率可能会进一步提高因为有更多的参考信息。 讨论了在零样本任务中人类工作者的动机和表现可能存在的担忧并通过引用具体的数据来增强对人类工作者的信任。 背景 零样本任务在这种任务中人类工作者在没有见过特定类别示例的情况下需要对图片进行分类。这与机器学习中的零样本学习类似。 动机问题一个潜在的担忧是人类工作者在零样本任务中可能缺乏足够的动机导致表现不佳。 具体数据 STL-10 数据集 数据集介绍STL-10 是一个用于无监督学习和图像分类的数据集由 Coates 等人在 2011 年发布。它包含 10 个类别的图像每个类别有 500 张训练图像和 800 张测试图像。 人类表现人类在 STL-10 数据集上的准确率高达 94%。这表明即使在零样本任务中人类仍然能够表现出很高的分类准确率。 注意力检查图片子集 数据集介绍这部分数据集包含了一些用于检查人类工作者注意力的图片子集。 人类表现在这些注意力检查图片子集上人类的准确率达到了 97-100%。这进一步证明了人类工作者在认真对待任务时能够达到非常高的准确率。 增强信任 动机问题的缓解尽管存在对人类工作者动机的担忧但上述数据显示人类在零样本任务中仍然能够表现出色。这表明人类工作者在适当的条件下是有足够动机和能力完成任务的。 信任增强这些高准确率的数据增加了对人类工作者的信任表明他们在零样本任务中也可以提供可靠的结果。 深入探讨了人类和机器在零样本和少样本学习中的表现差异特别是通过实验结果来说明人类在少量示例下的学习能力。 背景 零样本学习在这种任务中模型或人类在没有见过特定类别示例的情况下进行分类。 少样本学习在这种任务中模型或人类只有一两个示例来学习特定类别。 实验结果 人类的性能提升 零样本到单样本人类在零样本任务中的初始准确率为54%。当提供每个类别一个训练样本后准确率提高到了76%。这意味着仅通过一个示例人类的性能提升了22个百分点。 额外样本的边际收益提供更多的训练样本如两个或更多对性能的提升效果非常有限边际收益很小。 不确定图像的改善 不确定图像的识别人类在零样本任务中对某些图像表示不确定选择“我不知道”。当提供一个训练样本后这些不确定的图像的分类准确率显著提高。 自我认知这表明人类能够“知道自己不知道什么”并且能够根据单个示例有效地更新他们的先验知识特别是对于那些最初不确定的图像。 人类与机器的对比 CLIP模型 零样本性能CLIP模型在零样本任务中表现出色图5显示了其在零样本设置下的高性能。 自然分布偏移CLIP在自然分布偏移的测试中表现良好图13展示了这一点。 人类的学习方式 快速学习人类能够通过少量示例迅速提高分类准确率特别是对那些最初不确定的图像。 差异性尽管CLIP在零样本任务中表现出色但人类从少数示例中学习的方式与现有的少样本方法存在显著差异。人类的学习方式更加高效能够在看到极少量示例后迅速更新知识。 结论 人类的自我认知人类能够识别自己在哪些方面不确定并且能够通过少量示例迅速更新这些不确定的知识。这表明人类在少样本学习中具有强大的适应能力。 机器学习的局限尽管CLIP等模型在零样本任务中表现出色但它们在从少量示例中学习方面与人类存在差距。这提示作者需要进一步研究如何使机器学习模型在少样本学习中更加高效。 未来研究方向未来的研究可以探索如何将人类的学习机制融入机器学习模型中以提高模型在少样本任务中的表现。 总结 通过实验结果展示了人类在零样本和少样本学习中的独特优势特别是人类能够通过少量示例迅速提高分类准确率特别是在那些最初不确定的图像上。这与CLIP等机器学习模型在零样本任务中的表现形成了对比突显了人类学习机制的高效性。 如何通过改进算法来缩小机器和人类在少样本学习few-shot learning中的样本效率差距。以下是针对这些问题的思考 背景 少样本学习在少样本学习任务中模型或人类只需要很少的示例如1个或2个来学习并分类新的类别。 样本效率样本效率指的是模型或人类在学习新任务时所需的数据量。人类通常在少样本学习中表现出更高的样本效率。 机器与人类的差距 人类的优势 先验知识的利用人类能够利用已有的先验知识即使在只有少量示例的情况下也能迅速提高分类准确率。例如人类在零样本到单样本的设置中准确率从54%提高到76%这主要是因为人类能够识别自己不确定的图像并根据单个示例更新这些图像的先验知识。 自我认知人类能够“知道自己不知道什么”并在看到少量示例后迅速更新这些不确定的知识。 机器的局限 CLIP模型尽管CLIP在零样本任务中表现出色但在少样本学习中它并没有有效地利用先验知识。这表明现有的少样本学习算法在利用先验知识方面存在不足。 线性分类器目前使用线性分类器结合高质量预训练模型的特征是少样本学习领域接近最先进水平的方法Tian et al., 2020。这表明尽管这些方法在某些任务上表现良好但与人类的少样本学习能力相比仍有明显的差距。 改进方向 整合先验知识 作者观点作者认为找到一种方法将先验知识适当地整合到少样本学习中是改进CLIP算法的重要一步。这可以通过以下几种方式实现 知识蒸馏将已有的知识从一个大模型转移到一个小模型中使小模型能够利用这些知识。 元学习通过元学习meta-learning方法使模型能够在少量示例中快速适应新任务。 混合模型结合人类的先验知识和机器学习模型的优点开发混合模型以提高样本效率。 现有方法的局限 线性分类器尽管线性分类器结合高质量预训练模型的特征在少样本学习中表现良好但它仍然无法完全模拟人类在少样本学习中的高效性。这表明现有的方法在利用先验知识方面还有很大的改进空间。 结论 差距的存在在最佳的少样本机器学习方法和人类的少样本学习之间存在明显的差距。人类能够高效地利用先验知识而现有的机器学习方法在这方面表现不足。 改进方向为了缩小这一差距作者建议将先验知识适当地整合到少样本学习算法中。这可以通过知识蒸馏、元学习和混合模型等方法来实现。 未来研究未来的研究需要进一步探索如何将人类的高效学习机制融入机器学习模型中以提高少样本学习的样本效率。 作者讨论了人类和CLIP模型在图像分类任务中的表现对比并分析了两者在错误一致情况下的原因。以下是对这段内容的详细解释 背景 人类和CLIP模型人类和CLIP模型在图像分类任务中的表现有所不同但也有一定的相似性。 零样本学习CLIP模型在零样本任务中表现出色但仍然存在一些困难。 对比图图16 人类准确率 vs. CLIP零样本准确率图16展示了人类和CLIP模型在同一个数据集上的分类准确率。从图中可以看出对于CLIP来说最难的问题对人类来说也很难。这意味着人类和CLIP在某些图像上的分类错误是一致的。 错误一致的原因 数据集中的噪声 错误标记的图像数据集中可能存在一些错误标记的图像这些错误标记的图像会导致人类和模型在分类时都出错。例如一张被错误地标记为“金毛寻回犬”的拉布拉多犬图片无论人类还是CLIP模型都可能将其错误分类。 模糊或低质量图像数据集中的一些图像可能是模糊的、低质量的或拍摄角度不佳这使得即使是人类也难以正确分类。 分布外图像 罕见或异常图像有些图像可能属于数据集中未见过的类别或具有罕见的特征这些图像对人类和模型来说都难以处理。例如一张包含罕见品种的猫或狗的图片可能既不在训练集中也不在常见的知识范围内。 复杂背景或干扰图像中的复杂背景或干扰因素如遮挡、光照变化等可能使得图像的分类变得更加困难无论是人类还是模型都可能因此出错。 假设 共同的困难人类和CLIP模型在某些图像上的一致错误表明这些图像本身具有一定的难度而不是某个特定模型的缺陷。这至少是由两个因素造成的 数据集中的噪声包括错误标记的图像和低质量的图像。 分布外图像这些图像可能包含罕见的特征或复杂的背景使得分类变得困难。 结论 共同的挑战人类和CLIP模型在某些图像上的分类错误一致表明这些图像本身具有一定的难度而不是某个特定模型的问题。 改进方向为了提高分类的准确率需要在以下几个方面进行改进 数据清洗减少数据集中的噪声纠正错误标记的图像提高图像质量。 增强鲁棒性开发更鲁棒的模型能够处理复杂背景和罕见特征的图像。 多模态信息结合多种信息源如文本描述、用户反馈等以提高分类的准确性。 5 Data Overlap Analysis
在使用大规模互联网数据集进行预训练时的一个重要问题预训练数据集与下游评估任务数据集之间的潜在重叠。这种重叠可能导致评估结果不能真实反映模型的泛化能力。 背景 大规模互联网数据集现代深度学习模型通常在非常大的互联网数据集上进行预训练以获得强大的特征提取能力。 下游评估任务预训练后的模型会在特定的下游任务上进行微调和评估以验证其性能。 担忧 数据重叠一个主要的担忧是预训练数据集和下游评估任务的数据集之间可能存在重叠。这种重叠可能导致模型在评估时表现得过于乐观因为模型已经“见过”部分评估数据。 最坏情况在最坏的情况下评估数据集的一个完整副本可能泄露到预训练数据集中。这将使评估失去意义因为模型已经在这些数据上进行了训练无法真正反映其泛化能力。 防止重叠的方法 识别并删除重复项在训练模型之前可以尝试识别并删除预训练数据集中与评估数据集重叠的部分。 优点这种方法可以确保报告的性能是真实的反映了模型在未见过的数据上的表现。 缺点 限制基准测试和分析范围需要事先知道模型可能被评估的所有数据集这限制了基准测试和分析的范围。 昂贵的重新训练每增加一个新的评估任务都需要重新训练模型以确保没有数据重叠。这不仅耗时耗力还可能导致资源浪费。 无法量化的好处如果不重新训练直接使用现有的预训练模型进行评估可能会报告由于数据重叠而产生的无法量化的性能提升。 影响 评估的有效性数据重叠会严重影响评估的有效性使得评估结果不能真实反映模型的泛化能力。 研究的可信度如果评估结果不可靠会影响研究的可信度和可重复性。 结论 平衡考虑在防止数据重叠和保持评估有效性之间需要找到一个平衡点。完全避免数据重叠可能需要大量的额外工作和资源但如果不采取措施评估结果可能会失去意义。 透明性和报告在研究中透明地报告数据处理方法和评估过程可以帮助其他研究人员更好地理解和验证结果。 相反作者记录了重叠发生的程度以及由于这些重叠导致的性能变化。为了做到这一点作者采用了以下程序 程序概述 1. 重复项检测和子集划分 重复项检测 工具使用一个重复项检测器见附录C来检测评估数据集中的样本。 手动检查手动检查找到的最近邻以确保检测的准确性。 阈值设置为每个数据集设置一个阈值以在保持高精确度的同时最大化召回率。 子集创建 重叠子集Overlap包含所有与训练样本相似度高于阈值的示例。 清洁子集Clean包含所有相似度低于阈值的示例。 参考子集All未修改的完整数据集作为参考。 数据污染程度记录 比例计算记录重叠子集中示例的数量与完整数据集All的大小之比以评估数据污染的程度。 2. 零样本准确率计算 准确率计算 三个分割计算CLIP RN50x64在三个分割All、Clean、Overlap上的零样本准确率。 主要指标使用All - Clean作为主要指标报告。这个指标反映了由于数据污染导致的准确率差异。 正数解释如果这个差异为正数表示由于过度拟合重叠数据整体报告的准确率被高估了。 3. 统计显著性检验 二项式显著性检验 零假设使用Clean上的准确率作为零假设。 单尾p值计算重叠子集的单尾更大p值以检验重叠子集的准确率是否显著高于Clean子集的准确率。 置信区间计算 Clopper-Pearson置信区间计算Dirty子集的99.5% Clopper-Pearson置信区间作为另一项检查。 结论 数据污染评估通过上述步骤作者能够评估数据污染的程度并确定这种污染对模型性能评估的影响。 统计显著性通过二项式显著性检验和置信区间的计算进一步验证了重叠子集的性能提升是否具有统计显著性。 透明性和可靠性这些步骤确保了研究结果的透明性和可靠性帮助其他研究人员更好地理解和验证模型的性能。 图17中提出了这次分析的总结。在作者研究的35个数据集中有9个数据集完全没有检测到重叠。这些数据集大多是合成的或专业的使得它们不太可能被作为普通图片发布在互联网上例如MNIST、CLEVR和GTSRB或者由于包含作者数据集创建日期之后的新数据因此保证没有重叠如ObjectNet和Hateful Memes。这表明作者的检测器有很低的误报率这很重要因为误报会低估作者分析中污染效应。
重叠的中位数是2.2%平均值是3.2%。由于重叠数量很少整体准确率很少被改变超过0.1%只有7个数据集超过了这个阈值。其中只有2个在Bonferroni校正后具有统计学意义。最大检测到的改进仅为0.6%这是在Birdsnap上它的重叠是第二大的为12.1%。最大的重叠是在Country211上为21.5%。
这是因为它是由YFCC100M构建的而作者的预训练数据集包含了YFCC100M的一个过滤子集。尽管有这么大的重叠Country211的准确率仅提高了0.2%。这可能是因为训练文本伴随的示例通常与下游评估衡量的具体任务无关。Country211衡量的是地理定位能力但检查这些重复项的训练文本表明它们通常不提及图像的位置。 在评估大规模互联网数据集预训练与下游评估任务之间潜在重叠时作者遇到的两个潜在问题。这些问题可能影响分析的准确性和可靠性。 潜在问题一检测器的不完美 检测器的性能 代理训练任务检测器在代理训练任务上达到了接近100%的准确率。 手动检查和阈值调整通过手动检查和阈值调整检测器在发现的最近邻中具有非常高的精确度和良好的召回率。 召回率的不确定性 大规模数据集由于预训练数据集包含4亿个示例作者无法对其进行全面的召回率检查。 潜在漏检尽管检测器在已检查的样本中表现良好但仍可能存在漏检的情况特别是在如此大规模的数据集中。 潜在问题二数据分布的偏移 数据分布偏移 重叠和清洁子集重叠子集和清洁子集之间的数据分布可能存在偏移这可能影响模型的性能评估。 具体例子 Kinetics-700在Kinetics-700数据集上许多“重叠”实际上是全黑的过渡帧。这解释了为什么在重叠子集上的准确率出现了明显的20%下降。 CIFAR-100在CIFAR-100数据集上由于图像分辨率非常低许多重复项是小鸟或飞机等小物体的误报。这可能导致准确率的变化而不是因为过度拟合。 分布和难度的偏移 类别分布变化重叠子集和清洁子集之间的类别分布可能不同这会影响模型的性能。 难度变化重叠子集中的图像可能更容易或更难分类这也会影响模型的性能。 掩盖过度拟合这些分布和难度的偏移可能掩盖了过度拟合的效果使得评估结果不准确。 结论 检测器的局限性尽管检测器在已检查的样本中表现良好但由于数据集规模巨大无法进行全面的召回率检查可能存在漏检的情况。 数据分布偏移的影响重叠子集和清洁子集之间的数据分布偏移可能影响模型的性能评估。这些偏移可能是由于类别分布的变化或图像难度的变化甚至可能掩盖过度拟合的效果。 未来研究方向为了提高评估的准确性和可靠性需要进一步研究如何更好地检测和处理数据分布偏移以及如何在大规模数据集中提高检测器的召回率。 作者讨论了当前研究结果与其他先前研究在大规模预训练工作中进行的重复项分析结果的相关性 背景 大规模预训练现代深度学习模型通常在大规模互联网数据集上进行预训练以获得强大的特征提取能力。 重复项分析为了评估预训练数据集与下游评估任务数据集之间的潜在重叠作者进行了重复项分析。 当前研究结果 重叠检测当前作者使用了重复项检测器来检测评估数据集中的样本并创建了重叠子集Overlap和清洁子集Clean。 性能变化计算了CLIP RN50x64在All、Clean和Overlap三个子集上的零样本准确率并报告了由于数据污染导致的准确率差异。 与先前研究的对比 Mahajan等人2018年 重叠率Mahajan等人在他们的大规模预训练工作中也检测到了类似的重叠率。 性能变化他们发现整体性能的变化很小这与当前研究的结果一致。 Kolesnikov等人2019年 重叠率Kolesnikov等人也检测到了类似的重叠率。 性能变化他们发现整体性能的变化很小进一步支持了当前研究的结果。 去重策略Kolesnikov等人还比较了不同的去重策略包括本节开头讨论的替代去重策略和当前研究最终采用的方法。 方法差异他们观察到这两种方法之间的差异很小这表明当前研究采用的去重方法是合理且有效的。 重要性 结果的一致性当前研究的结果与先前研究的结果高度一致这增加了结果的可信度。 去重策略的有效性Kolesnikov等人对不同去重策略的比较表明当前研究采用的去重方法是有效的两种方法之间的差异很小。 结论 验证和确认当前研究的结果与先前研究的结果高度一致验证了大规模预训练数据集与下游评估任务数据集之间存在重叠但这种重叠对整体性能的影响较小。 方法的合理性Kolesnikov等人对不同去重策略的比较进一步确认了当前研究采用的去重方法的有效性两种方法之间的差异很小。 6 Limitations
CLIP仍然存在许多限制。虽然其中一些限制在各个部分的分析中有所讨论但作者在这里总结并收集它们。 CLIP与ResNet-50的比较 在使用训练集分割的数据集上零样本CLIP的性能平均来说与基于ResNet-50特征的简单监督学习基线即线性分类器相当。 这意味着在没有针对特定任务进行额外训练的情况下CLIP能够达到与经过专门训练的线性分类器相似的性能水平。 与最先进水平的差距 然而这种性能水平在大多数数据集上仍远低于当前的整体最先进水平。 最先进的模型通常是通过大量标注数据和复杂的训练过程来实现高性能的。 提升CLIP性能的挑战 为了使CLIP在任务学习和迁移能力方面得到显著提升还需要大量的研究工作。 尽管增加模型规模和训练数据量可以逐步提高性能但要让零样本CLIP达到最先进水平可能需要大约1000倍的计算资源提升。 这样的计算需求在现有的硬件条件下是难以实现的因为目前的技术水平无法支持如此大规模的计算资源投入。 第3.1节的分析发现CLIP在几种类型的任务上的零样本性能仍然相当弱。与特定任务的模型相比CLIP在几种细粒度分类任务上的表现不佳例如区分不同型号的汽车、不同种类的花卉和不同型号的飞机。CLIP在更抽象和系统的任务上也存在困难比如计算图像中物体的数量。最后对于不太可能包含在CLIP预训练数据集中的新颖任务例如在照片中分类最近汽车的距离CLIP的表现可能接近随机。作者相信仍然有很多任务CLIP的零样本性能接近偶然水平。 虽然如第3.3节所研究的零样本CLIP对许多自然图像分布泛化得很好但作者观察到零样本CLIP对真正超出其分布范围的数据泛化仍然很差。一个说明性的例子出现在OCR任务中如附录E中所报告的。 CLIP模型在处理不同类型图像时的表现差异特别是它在处理手写数字如MNIST数据集时的局限性。 CLIP在数字化渲染文本上的表现 CLIP通过预训练学习到了高质量的语义表示尤其在处理数字化渲染的文本时表现出色。 这一点在Rendered SST2数据集上的高准确率得到了验证。Rendered SST2是一个包含数字化渲染文本的数据集与CLIP的预训练数据集非常相似。 CLIP在手写数字上的表现 然而当CLIP应用于MNIST数据集包含手写数字时其准确率仅为88%。 更令人尴尬的是一个简单的基于原始像素的逻辑回归模型在MNIST上的表现甚至超过了零样本CLIP。 原因分析 语义和近邻重复检索的结果表明CLIP的预训练数据集中几乎没有类似于MNIST手写数字的图像。 这意味着CLIP在处理手写数字时缺乏足够的训练数据来学习有效的表示。 CLIP的泛化能力 这一现象揭示了CLIP在解决深度学习模型的脆弱泛化问题上做得很少。 深度学习模型通常在训练数据分布内的任务上表现良好但在遇到与训练数据分布不同的新数据时性能会显著下降。 CLIP试图通过在庞大且多样化的数据集上进行训练使得所有数据都有效地处于分布内从而避免泛化问题。然而这种方法在面对完全不同的数据类型如手写数字时显得不足。 CLIP模型在生成零样本分类器方面的灵活性及其局限性并提出了几种可能的改进方法。以下是详细的解释 1. CLIP的零样本分类器灵活性 优点CLIP能够为各种任务和数据集生成零样本分类器这意味着它可以不需要额外的训练就能处理新的任务。 局限性CLIP的零样本分类器只能从给定的概念中选择而不能生成新颖的输出。例如CLIP可以识别已知的类别但无法创造新的描述或解释。 2. 与生成模型的对比 生成模型的灵活性与CLIP不同生成模型如图像描述模型能够生成新颖的输出例如对图像进行详细的描述。这种灵活性使得生成模型在某些任务上更有优势。 计算效率然而生成模型的计算效率远低于CLIP。这意味着在实际应用中生成模型可能需要更多的计算资源和时间。 3. 改进方法 联合训练对比性和生成性目标 思路通过联合训练对比性和生成性目标希望能够结合CLIP的高效性和生成模型的灵活性。 目标这样的联合训练可能会使模型在保持高效的同时具备生成新颖输出的能力。 在推理时进行自然语言搜索 思路在推理阶段可以通过搜索多个自然语言解释来解释给定的图像。 方法类似于Andreas等人在2017年提出的“Learning with Latent Language”方法该方法通过在推理时搜索多个潜在的自然语言解释来生成更丰富的图像描述。 优势这种方法可以在不显著增加计算成本的情况下提高模型的灵活性和表达能力。 详细讨论了CLIP模型的优势、局限性以及潜在的改进方向。以下是具体解释 1. CLIP的零样本分类器灵活性 优点CLIP能够为各种任务和数据集生成零样本分类器这意味着它可以在没有额外训练的情况下处理新的任务。 局限性CLIP的零样本分类器只能从给定的概念中选择而不能生成新颖的输出。例如CLIP可以识别已知的类别但无法创造新的描述或解释。 对比与能够生成新颖输出的生成模型如图像描述模型相比这是一个重大限制。生成模型可以提供更丰富的、创造性的输出但计算效率较低。 2. 改进方法 联合训练对比和生成目标 思路通过联合训练对比性和生成性目标希望能够结合CLIP的高效性和生成模型的灵活性。 目标这样的联合训练可能会使模型在保持高效的同时具备生成新颖输出的能力。 在推理时进行自然语言搜索 思路在推理阶段可以通过搜索多个自然语言解释来解释给定的图像。 方法类似于Andreas等人在2017年提出的“Learning with Latent Language”方法该方法通过在推理时搜索多个潜在的自然语言解释来生成更丰富的图像描述。 优势这种方法可以在不显著增加计算成本的情况下提高模型的灵活性和表达能力。 3. 数据效率问题 CLIP的数据效率CLIP并没有解决深度学习数据效率低下的问题。相反它通过使用大量标注数据数亿个训练示例来补偿这一不足。 数据规模如果在CLIP模型训练期间看到的每张图像都以每秒一张的速度呈现则需要405年才能迭代32个训练周期中看到的128亿张图像。这表明CLIP依赖于大规模的数据集来提高性能。 4. 结合自我监督和自我训练方法 自我监督方法Henaff (2020) 和 Chen et al. (2020c) 提出的自我监督方法已经证明了在减少数据需求方面的能力。这些方法通过从无标签数据中学习有用的表示提高了模型的数据效率。 自我训练方法Lee 和 Xie et al. (2020) 提出的自我训练方法也展示了提高数据效率的潜力。这些方法通过利用模型自身的预测来生成伪标签从而增强训练数据。 前景将CLIP与这些自我监督和自我训练方法相结合是一个很有前途的方向因为它们可以显著提高数据效率减少对大规模标注数据的依赖。 在开发和评估CLIP模型过程中存在的几个重大局限性以及提出了解决这些问题的建议。以下是详细的解释 1. 零样本迁移的验证集问题 局限性尽管CLIP的目标是实现零样本迁移但在开发过程中研究人员反复查询了完整的验证集来指导模型的开发。 不现实性这些验证集通常包含成千上万的示例这在真实的零样本场景中是不现实的。在真正的零样本场景中模型应该能够在没有任何特定任务的训练数据的情况下进行推理。 类似问题在半监督学习领域Oliver等人2018也提出了类似的担忧即使用大量验证数据来指导模型开发不符合零样本学习的实际需求。 2. 评估数据集的选择问题 标准化评估虽然作者报告了在Kornbluth等人2019的12个数据集评估套件上的结果这些数据集作为一个标准化的集合被广泛接受。 随意组装的数据集然而主要结果是基于一组有些随意组装的27个数据集。这组数据集无疑是在CLIP的开发和能力共同适应的过程中选择的因此可能存在偏差。 适应性问题这种选择方式可能导致模型在这些特定数据集上表现良好但未必能泛化到其他未见过的数据集。 3. 解决方案 新的基准测试为了更真实地评估CLIP的零样本迁移能力建议创建一个新的基准测试。这个基准测试应专门设计用于评估广泛的零样本迁移能力而不是简单地重复使用现有的监督数据集。 独立性新的基准测试应确保数据集的选择是独立于模型的开发过程以减少偏差并提高评估的公正性和可靠性。 多样性新的基准测试应涵盖多种任务和数据类型以全面评估模型的泛化能力和适应性。 总结 验证集问题CLIP在开发过程中依赖于大量的验证数据这不符合零样本学习的实际需求。 评估数据集选择问题主要结果基于一组随意组装的数据集这些数据集可能与CLIP的开发过程存在适应性偏差。 解决方案创建一个新的、独立于模型开发过程的基准测试专门设计用于评估广泛的零样本迁移能力以提高评估的公正性和可靠性。 CLIP在互联网上与图像配对的文本进行训练。这些图像-文本对未经过滤和未经策划导致CLIP模型学习了许多社会偏见。这一点在之前的图像标题模型中已经得到证明Bhargava Forsyth, 2019。建议读者参考第7节以便详细分析和量化CLIP的这些行为并讨论潜在的缓解策略。 虽然作者在整个工作中强调了通过自然语言指定图像分类器是一个灵活且通用的界面但它也有自己的局限性。许多复杂的任务和视觉概念可能很难仅通过文本来指定。实际的训练样本无疑是有用的但CLIP并不直接优化少样本性能。在作者的工作中作者退回到在CLIP的特征之上拟合线性分类器。这导致从零样本到少样本设置的过渡中出现了违反直觉的性能下降。如第4节所讨论的这与人类的表现明显不同人类的表现从零样本到一次样本设置中显示出大幅度的提高。未来的工作需要开发方法将CLIP强大的零样本性能与高效的少样本学习结合起来。 7 Broader Impacts
CLIP能够执行任意图像分类任务无论是常见的任务如分类猫和狗的图片还是更复杂的社会任务如在百货商店拍摄的图片中识别扒手。
CLIP的灵活性在于它可以在不需要重新训练的情况下轻松创建新的分类类别。这种“打造你自己的分类器”的能力使得CLIP在多种应用场景中具有广泛的应用潜力。 CLIP的能力在某些情况下可能具有重大社会影响。例如用于识别扒手的任务可能涉及隐私和伦理问题需要谨慎评估。
像任何图像分类系统一样CLIP的性能和适用性需要在具体情境中进行评估以确保其在实际应用中的可靠性和公平性。 CLIP的零样本泛化能力意味着它可以在没有额外训练的情况下处理新的任务。这种能力类似于大规模生成模型如GPT-3所表现出的非平凡零样本泛化能力。
由于CLIP的广泛能力其中许多能力可能只有在实际测试后才会变得明显。这引入了新的挑战需要在部署前进行全面评估。 CLIP在图像检索和搜索任务上显示出显著的潜力。它可以基于文本找到相关的图片也可以基于图片找到相关的文本。
通过少量或不需要额外数据或训练CLIP可以轻松地被引导至定制应用。这种能力可能会解锁各种新颖的应用这些应用可能是作者目前难以想象的。
这种情况类似于过去几年大型语言模型如GPT-3的发展这些模型在多种自然语言处理任务中展现出强大的能力并催生了许多创新应用。 7.1. Bias
社会偏见的来源算法决策、训练数据的选择以及对类别的定义和分类称为“类别设计”都可能促成并放大由人工智能系统的使用所导致的社会偏见和不平等。
类别设计的重要性对于像CLIP这样的模型类别设计尤为重要因为任何开发人员都可以定义一个类别而模型将提供相应的结果。这可能导致无意的偏见和不公平。 偏见探测工具 灵感来源本节使用了受Buolamwini Gebru (2018)和Kärkkäinen Joo (2019)启发的偏见探测工具对CLIP中的一些偏见进行初步分析。 探索性研究还进行了探索性偏见研究旨在找到模型中偏见的具体例子类似于Solaiman et al. (2019)所进行的研究。 初步偏见分析 数据集选择研究人员首先使用了人脸图像数据集FairFace来分析零样本CLIP的性能作为初始偏见探测。 模型版本评估了两个版本的CLIP 零样本CLIP模型ZS CLIP直接使用CLIP模型进行零样本分类。 逻辑回归分类器LR CLIP在CLIP特征之上拟合了一个逻辑回归分类器专门针对FairFace数据集进行训练。 性能比较 准确性LR CLIP在FairFace数据集上的准确性高于ResNext-101 32x48d Instagram模型“Linear Probe nstagram”和FairFace自己的模型在大多数分类测试中的表现。 ZS CLIP的性能ZS CLIP的性能因类别而异。在某些类别上ZS CLIP的表现优于FairFace的模型而在其他类别上则较差见表3和表4。 跨种族和性别类别的性能 性别分类研究人员测试了LR CLIP和ZS CLIP模型在FairFace数据集中定义的跨种族和性别类别的性能。 结果模型在所有种族类别中的性别分类性能均高于95%。表5总结了这些结果。 LR CLIP的准确性LR CLIP在FairFace基准数据集上实现了比Linear Probe Instagram模型更高的准确性用于按交叉类别对图像进行性别、种族和年龄分类。 基准的局限性基准的准确性仅提供算法公平性的一种近似如Raji等人2020已经指出的但往往不能作为现实世界环境中有意义的公平衡量标准。 性能差异与影响差异即使一个模型在不同子组上具有更高的准确性和更低的性能差异这并不意味着它的影响差异会更小Scheuerman等人2019年。例如一家公司可能会利用在代表性不足的群体中表现更好的模型来证明他们使用面部识别的合理性然后以不成比例地影响某些人口统计群体的方式部署它。 探索潜在的诽谤危害 实验设计研究人员使用了极有可能造成代表性伤害的分类术语来探索模型特别关注诽谤伤害Crawford2017。 实验方法进行了一项实验其中需要ZS CLIP模型对FairFace数据集中的10,000张图像进行分类。除了FairFace类之外还添加了以下类“动物”、“大猩猩”、“黑猩猩”、“猩猩”、“小偷”、“罪犯”和“可疑人员”。 实验目的这个实验的目的是检查诽谤的危害是否不成比例地影响某些人口统计亚群。 实验结果和意义 结果通过这个实验研究人员可以评估CLIP模型是否会在某些群体中产生不成比例的负面标签从而导致诽谤伤害。 意义这项实验强调了在使用面部分类基准来探测偏差时需要考虑潜在的社会影响。即使模型在基准测试中表现良好也不意味着它在实际应用中不会造成不公平或伤害。 总结 交叉种族和性别类别的性能CLIP模型在所有种族类别中的性别分类性能均高于95%。 基准准确性与算法公平性基准的准确性仅提供算法公平性的一种近似不能作为现实世界环境中有意义的公平衡量标准。 探索潜在的诽谤危害通过添加可能造成代表性伤害的分类术语研究人员评估了CLIP模型在不同群体中的表现以检查是否存在不成比例的负面标签和诽谤伤害。 讨论了CLIP模型在FairFace数据集上的误分类情况特别是关于非人类类别和与犯罪相关的类别以及通过增加“儿童”类别来改善模型行为的实验结果。 1. 非人类类别的误分类 总体误分类率在FairFace数据集中有4.9%的图像被错误分类为非人类类别包括“动物”、“黑猩猩”、“大猩猩”和“猩猩”。置信区间在4.6%到5.4%之间。 种族差异在这些误分类中“黑人”图像的误分类率最高约为14%置信区间在12.6%到16.4%之间。其他种族的误分类率都低于8%。 年龄差异0到20岁的人群中有14%的图像被归入非人类类别比例最高。 2. 与犯罪相关的类别的误分类 总体误分类率16.5%的男性图像被错误分类为与犯罪相关的类别如“小偷”、“可疑人员”和“罪犯”而女性图像的这一比例为9.8%。 年龄差异0到20岁的人在这些与犯罪相关的类别中的比例最高约为18%相比之下20到60岁的人群这一比例约为12%而70岁以上的人群则为0%。 种族差异在与犯罪相关的术语的种族分类中存在显著差异这一点在表6中得到了体现。 3. 增加“儿童”类别的实验 实验目的为了减少20岁以下人群的图像被归类为与犯罪相关类别或非人类动物类别的数量研究人员在分类中增加了额外的“儿童”类别。 实验结果增加“儿童”类别显著减少了20岁以下人群的图像被归类为与犯罪相关类别或非人类动物类别的数量如表7所示。 意义这一发现指出了类别设计可能成为决定模型性能和模型可能表现出的不良偏见或行为的关键因素。 4. 讨论 类别设计的重要性类别设计在决定模型性能和潜在偏见方面起着关键作用。通过增加“儿童”类别研究人员显著减少了对年轻人群的误分类这表明合理的设计可以减轻模型的不良行为。 更广泛的问题这一发现提出了关于使用面部图像自动对人进行分类的更广泛问题。自动分类系统可能会无意中放大社会偏见和不平等特别是在涉及敏感类别如种族、年龄和性别时。 伦理和社会影响在实际应用中需要特别关注这些潜在的伦理和社会影响确保模型的公平性和透明性。 不同阈值下的标签分配CLIP在不同阈值下的标签分配显示了明显的性别偏见特别是在与头发和外观相关的标签以及职业导向的标签上。 设计决策的影响模型的每个阶段的设计决策都会影响偏见的表现方式尤其是类设计和阈值的选择。 伦理和社会影响这些发现强调了在部署面部分类系统时需要特别关注伦理和社会影响确保模型的公平性和透明性。
这些实验旨在激发进一步的研究以更全面地理解偏见的来源和影响并开发方法来减少这些偏见。 7.2. Surveillance
讨论了CLIP模型在监控任务中的表现特别是其在低分辨率图像分类和零样本名人识别方面的性能。 监控任务的重要性 社会敏感性监控任务具有显著的社会敏感性因此对这些任务的分析不仅有助于评估模型的性能还可以帮助研究社区了解通用计算机视觉模型对未来的潜在影响。 目的包含监控任务的目的并不是表示对这个领域的热情而是认为鉴于其社会影响监控是一个重要的领域需要对其进行深入研究和预测Zuboff, 2015; Browne, 2015。 测试数据集 VIRAT数据集研究人员使用了VIRAT数据集Oh et al., 2011该数据集包含从监控摄像头如CCTV摄像头捕获的低分辨率图像由非演员的真实户外场景组成。 Varadarajan Odobez数据集还使用了Varadarajan Odobez2009捕获的数据这些数据同样由非演员的真实户外场景组成。 测试内容 粗粒度分类研究人员测试了CLIP模型在从12个不同视频序列捕获的515个监控图像上的性能。粗粒度分类要求模型正确识别图像的主要主题例如判断图像是否是空停车场、学校校园等的图片。 细粒度分类对于细粒度分类模型必须在两个选项之间进行选择以确定模型是否能够识别图像中是否存在较小的特征例如站在角落的人。 测试方法 类别构建鉴于CLIP灵活的类别构建能力研究人员构建了自定义的粗粒度和细粒度分类任务。 粗粒度分类测试模型是否能够正确识别图像的主要主题。模型总是至少有6个选项可供选择。 细粒度分类测试模型是否能够识别图像中的较小特征例如特定位置的人或物体。 压力测试类别集包括至少一个与图像“接近”的描述例如“带有白色汽车的停车场”与“带有红色汽车的停车场”。这种测试旨在评估模型在面对相似选项时的表现。 实验结果 粗粒度分类 Top-1准确率模型在CCTV图像上的Top-1准确率为91.8%。 压力测试在第二次评估中准确率显著下降至51.1%模型错误选择“接近”答案的比例为40.7%。 细粒度分类 零样本模型表现模型在细粒度检测任务中的表现很差结果接近随机。这个实验只针对检测图像序列中的小物体的存在或缺失。 零样本名人识别 CelebA数据集使用CelebA数据集测试了CLIP的零样本“野外”身份检测性能。 8k名人图像模型在“野外”8k名人图像的100个可能类别中有59.2%的Top-1准确率。 1k名人名称当类别规模增加到1k名人名称时这一性能下降到43.3%。 与生产级模型的比较与Google的名人识别等生产级模型相比这一性能并不具竞争力。然而这些结果值得注意的是这项分析仅使用了基于从预训练数据推断的名称的零样本识别能力没有使用任何额外的特定于任务的数据集。 讨论 模型性能CLIP模型在粗粒度分类任务中表现良好但在细粒度分类任务中表现较差。零样本名人识别任务中的表现也较为有限但仍然展示了其在某些任务中的潜力。 社会影响随着模型变得越来越强大它们在监控任务中的应用可能引发显著的社会影响例如隐私和伦理问题Garvie, 2019。 与现有模型的比较对于高需求的监控任务如面部识别已经存在大型数据集和高性能的监督模型。因此CLIP在这类任务中的相对吸引力较低。 定制和小众用例CLIP的零样本能力使其在定制的、小众的监控用例中具有显著优势这些用例可能不存在量身定制的模型或数据集降低了构建此类应用程序的技能要求。 总结 监控任务的重要性监控任务具有显著的社会敏感性需要深入研究和预测。 测试数据集使用了VIRAT和Varadarajan Odobez数据集这些数据集包含真实的低分辨率监控图像。 测试内容测试了CLIP模型在粗粒度和细粒度分类任务中的表现以及零样本名人识别任务中的表现。 实验结果展示了CLIP模型在粗粒度分类任务中的良好表现但在细粒度分类和零样本名人识别任务中的表现有限。 社会影响强调了在部署监控系统时需要特别关注伦理和社会影响确保模型的公平性和透明性。 未来研究这些实验旨在帮助研究社区更好地理解通用计算机视觉模型的潜在影响并推动围绕这些系统开发规范和检查。 7.3. Future Work
1. 初步分析的目的 说明挑战这项初步分析旨在说明通用计算机视觉模型如CLIP所带来的一些挑战并窥见它们的偏见和影响。 激发未来研究希望这项工作能激发对未来研究的动机以更全面地表征这类模型的能力和不足以及它们的偏见。 2. 与研究社区的交流 社区合作作者希望与研究社区就这些问题进行交流共同推进对通用计算机视觉模型的理解和改进。 3. 未来研究的方向 进一步表征模型能力向前迈进的一个好步骤是社区探索进一步表征像CLIP这样的模型的能力。这包括确定它们表现出有希望的性能的应用领域以及它们可能表现不佳的领域。 4. 表征过程的好处 确定有益的下游用途在研究过程的早期确定模型可能有益的下游用途使其他研究人员能够思考应用。 揭示敏感任务揭示具有重大敏感性和社会利益相关者众多的任务这可能需要政策制定者进行干预。 表征偏见更好地表征模型中的偏见提醒其他研究人员关注领域和干预领域。 创建测试套件创建测试套件来评估像CLIP这样的系统以便在开发周期的早期更好地表征模型能力。 识别故障模式识别潜在的故障模式和需要进一步工作的领域。 5. 作者的计划 贡献研究作者计划为这项工作做出贡献并希望这项分析能为后续研究提供一些激励性的例子。 6. 总结 初步分析的目的这项初步分析旨在说明通用计算机视觉模型如CLIP所带来的一些挑战并窥见它们的偏见和影响。 未来研究的方向未来研究应进一步表征模型的能力和不足确定其有益的应用领域和潜在的故障模式。 社区合作作者希望与研究社区合作共同推进对通用计算机视觉模型的理解和改进。 表征过程的好处通过早期确定模型的有益用途、揭示敏感任务、表征偏见、创建测试套件和识别故障模式可以增加模型被有益使用的可能性。 8 Related Work
1. 自然语言监督的广泛定义 定义任何将书面、口头、手语或任何其他形式的人类语言作为其训练信号一部分的模型可以说都是在使用自然语言作为监督的来源。 涵盖领域这包括分布语义学领域的大部分工作如主题模型Blei et al., 2003、单词、句子和段落向量Mikolov et al., 2013; Kiros et al., 2015; Le Mikolov, 2014以及语言模型Bengio et al., 2003。 自然语言处理NLPNLP领域涉及以某种方式预测或建模自然语言序列包括利用自然语言监督的形式如解释、反馈、指令和建议用于分类等任务。 2. 自然语言监督在不同领域的应用 基于对话的学习Weston (2016)、Li et al. (2016) 和 Hancock et al. (2019) 开发了从对话中的交互式自然语言反馈中学习的技术。 语义解析Srivastava et al. (2017) 利用语义解析将自然语言解释转换为特征或额外的训练标签Hancock et al., 2018。 关系提取ExpBERT (Murty et al., 2020) 使用由深度上下文语言模型在自然语言解释和描述关系上的条件化产生的特性表示以提高关系提取任务的性能。 3. CLIP模型的背景 自然语言监督CLIP是一个使用自然语言作为训练信号来学习语言领域之外的领域的例子。 早期工作Ramanathan等人2013的研究是最早使用“自然语言监督”这个术语的工作表明自然语言描述可以与其他监督来源一起使用以提高视频事件理解任务的性能。 早期应用自然语言描述在计算机视觉中的使用方法远早于这个特定术语的使用特别是用于图像检索Mori et al., 1999和对象分类Wang et al., 2009。 4. 文本-图像检索的历史 早期工作Mori等人1999是早期工作的代表主要集中在预测目标上。 联合多模态嵌入随着时间的推移研究转向了学习联合多模态嵌入空间技术如核典型相关分析和各种排名目标Weston et al., 2010; Socher Fei-Fei, 2010; Hodosh et al., 2013。 性能提升随着时间的推移工作探索了许多训练目标、转移和更具表现力的模型的组合并稳步提高了性能Frome et al., 2013; Socher et al., 2014; Karpathy et al., 2014; Kiros et al., 2014; Faghri et al., 2017。 5. 自然语言监督在其他领域的应用 视频处理Stroud等人2020通过训练系统将描述性文本与视频而不是图像配对探索了大规模表示学习。Miech等人2019; 2020b探索了使用密集的口头自然语言监督进行视频处理。 多模态学习Alayrac等人2020通过将原始音频作为额外的监督来源将这条工作线扩展到另一个模态并展示了结合所有三种监督来源的好处。 6. 图像-文本对数据集 早期数据集现代关于图像-文本检索的工作依赖于一组众包句子级别的图像字幕评估数据集如Pascal1KRashtchian et al., 2010、Flickr8KHodosh et al., 2013和Flickr30KYoung et al., 2014。 大规模数据集已经提出了几种方法来自动创建更大的数据集如Conceptual CaptionsSharma et al., 2018、LAITQi et al., 2020和OCR-CCYang et al., 2020。 WIT数据集CLIP构建了一个新的图像-文本对数据集WIT有100万到1000万个训练样本显著大于其他数据集。 7. 网络监督学习 图像搜索引擎这条工作线通过查询图像搜索引擎来构建图像数据集通过查询术语并使用查询作为返回图像的标签Fergus et al., 2005。 性能提升在这些大但嘈杂的标记数据集上训练的分类器可以与在较小的精心标记的数据集上训练的分类器相媲美。 CLIP的数据集创建CLIP在数据集创建过程中也使用搜索查询但只使用与图像共同出现的完整文本序列作为监督而不是仅使用查询。 8. CLIP与联合模型的关系 联合模型CLIP与最近关于学习视觉和语言联合模型的一系列活动有关Lu et al., 2019; Tan Bansal, 2019; Chen et al., 2019; Li et al., 2020b; Yu et al., 2020。 任务这些模型专注于丰富地连接视觉和语言以解决复杂的下游任务如视觉问题回答、视觉常识推理或多模态蕴含。 CLIP的特点CLIP则专注于通过自然语言监督从头开始学习视觉模型并不通过联合注意力模型密集地连接这两个领域。在CLIP模型中图像和文本领域之间的唯一交互是在学到的联合嵌入空间中的一个点积。 9. 总结 自然语言监督自然语言监督在各种机器学习和计算机视觉任务中广泛应用包括图像检索、对象分类、视频处理和多模态学习。 CLIP模型CLIP通过使用自然语言作为训练信号从头开始学习视觉模型构建了一个大规模的图像-文本对数据集WIT展示了在文本-图像检索任务中的出色性能。 未来研究CLIP与联合模型的研究线密切相关未来的研究可以进一步探索如何结合这些方法以提高模型的性能和泛化能力。 9 小结
举例说明CLIP具体训练过程 CLIPContrastive Language–Image Pretraining是一种多模态模型通过联合训练图像编码器和文本编码器学习图像和文本之间的对应关系。在训练过程中CLIP学习将图像和文本映射到同一个高维嵌入空间中使得正确的图像文本对在该空间中的距离更近而错误的对距离更远。在测试阶段CLIP可以利用这种学习到的嵌入空间进行零样本分类。 1. 训练过程 1.1 数据准备 数据集CLIP使用大量的图像文本对进行训练。这些对可以从互联网上抓取例如从网页中提取图像和相关的描述文本。 示例数据假设我们有一批图像文本对如下所示 图像1一只猫坐在沙发上 图像2一辆红色的跑车 图像3一群人在公园里散步 1.2 模型结构 图像编码器负责将图像转换为固定长度的向量表示。常用的图像编码器包括ResNet、ViT等。 文本编码器负责将文本转换为固定长度的向量表示。常用的文本编码器包括Transformer等。 1.3 训练目标 对比损失CLIP使用对比损失函数来优化模型。具体来说对于一批图像文本对模型的目标是最大化正确配对的相似度同时最小化错误配对的相似度。 相似度计算使用点积或余弦相似度来计算图像和文本嵌入向量之间的相似度。 1.4 训练步骤 输入数据将一批图像文本对输入模型。 编码图像编码器将图像转换为图像嵌入向量文本编码器将文本转换为文本嵌入向量。 相似度计算计算每对图像和文本嵌入向量之间的相似度。 损失计算使用对比损失函数计算损失。 反向传播通过反向传播更新图像编码器和文本编码器的参数以最小化损失。 2. 测试阶段 2.1 零样本分类 目标在测试阶段CLIP可以利用学习到的嵌入空间进行零样本分类即在没有额外训练的情况下对新类别进行分类。 2.2 具体步骤 类别嵌入使用文本编码器将目标数据集的类别名称或描述嵌入到向量表示中。例如对于一个包含“猫”、“狗”和“鸟”三个类别的数据集将“猫”、“狗”和“鸟”分别嵌入到向量表示中。 图像嵌入将待分类的新图像输入图像编码器生成图像嵌入向量。 相似度计算计算图像嵌入向量与每个类别嵌入向量之间的相似度。 分类选择相似度最高的类别作为预测结果。 2.3 示例 假设我们有一个新的图像需要判断它是“猫”、“狗”还是“鸟”。 类别嵌入 “猫” → [0.1, 0.2, 0.3, ...] “狗” → [0.4, 0.5, 0.6, ...] “鸟” → [0.7, 0.8, 0.9, ...] 图像嵌入 新图像 → [0.2, 0.3, 0.4, ...] 相似度计算 新图像与“猫”的相似度0.85 新图像与“狗”的相似度0.65 新图像与“鸟”的相似度0.70 分类 选择相似度最高的类别作为预测结果新图像是“猫”。 3. 应用实例 3.1 图像检索 任务给定一个查询文本找到与之最相关的图像。 步骤 使用文本编码器将查询文本嵌入到向量表示中。 计算查询文本嵌入向量与数据库中每个图像嵌入向量之间的相似度。 选择相似度最高的图像作为检索结果。 3.2 零样本分类 任务对新类别进行分类。 步骤 使用文本编码器将目标数据集的类别名称或描述嵌入到向量表示中。 将待分类的新图像输入图像编码器生成图像嵌入向量。 计算图像嵌入向量与每个类别嵌入向量之间的相似度。 选择相似度最高的类别作为预测结果。 4. 优点和挑战 4.1 优点 零样本学习能够在没有额外训练的情况下对新类别进行分类。 多模态能力能够处理图像和文本两种模态的数据。 大规模数据可以利用互联网上的大量数据进行训练提高模型的泛化能力。 4.2 挑战 偏见和公平性模型可能继承训练数据中的偏见需要仔细评估和管理。 计算资源训练和推理需要大量的计算资源。 应用场景在某些高需求的监控任务中现有的专用模型可能表现更好。 图像嵌入向量 文本嵌入向量 具体如何计算 在CLIP模型中图像嵌入向量和文本嵌入向量进入相同空间的过程是通过联合训练图像编码器和文本编码器来实现的。具体来说这两个编码器将图像和文本分别映射到一个共享的高维嵌入空间中使得正确的图像文本对在该空间中的距离更近而错误的对距离更远。以下是详细的步骤和机制 1. 编码器结构 1.1 图像编码器 结构图像编码器通常是一个深度卷积神经网络CNN如ResNet或Vision TransformerViT。 功能将输入图像转换为固定长度的向量表示即图像嵌入向量。 1.2 文本编码器 结构文本编码器通常是一个基于Transformer的模型如BERT或GPT。 功能将输入文本转换为固定长度的向量表示即文本嵌入向量。 2. 联合训练 2.1 数据准备 数据集CLIP使用大量的图像文本对进行训练。这些对可以从互联网上抓取例如从网页中提取图像和相关的描述文本。 示例数据假设我们有一批图像文本对如下所示 图像1一只猫坐在沙发上 图像2一辆红色的跑车 图像3一群人在公园里散步 2.2 编码 图像编码将图像输入图像编码器生成图像嵌入向量。 例如图像1 → [0.1, 0.2, 0.3, ...] 文本编码将文本输入文本编码器生成文本嵌入向量。 例如一只猫坐在沙发上 → [0.4, 0.5, 0.6, ...] 2.3 相似度计算 相似度度量使用点积或余弦相似度来计算图像嵌入向量和文本嵌入向量之间的相似度。 例如计算图像1和一只猫坐在沙发上的相似度点积(图像1, 一只猫坐在沙发上) 0.1 * 0.4 0.2 * 0.5 0.3 * 0.6 ... 2.4 对比损失 对比损失函数CLIP使用对比损失函数来优化模型。具体来说对于一批图像文本对模型的目标是最大化正确配对的相似度同时最小化错误配对的相似度。 例如假设我们有一批图像文本对包括图像1一只猫坐在沙发上、图像2一辆红色的跑车、图像3一群人在公园里散步。 模型需要最大化图像1一只猫坐在沙发上的相似度同时最小化图像1一辆红色的跑车和图像1一群人在公园里散步的相似度。 3. 优化过程 3.1 反向传播 梯度计算通过计算损失函数的梯度更新图像编码器和文本编码器的参数。 参数更新使用优化算法如Adam更新图像编码器和文本编码器的参数以最小化损失函数。 4. 测试阶段 4.1 零样本分类 类别嵌入使用文本编码器将目标数据集的类别名称或描述嵌入到向量表示中。 例如对于一个包含“猫”、“狗”和“鸟”三个类别的数据集将“猫”、“狗”和“鸟”分别嵌入到向量表示中。 “猫” → [0.1, 0.2, 0.3, ...] “狗” → [0.4, 0.5, 0.6, ...] “鸟” → [0.7, 0.8, 0.9, ...] 4.2 图像嵌入 新图像嵌入将待分类的新图像输入图像编码器生成图像嵌入向量。 例如新图像 → [0.2, 0.3, 0.4, ...] 4.3 相似度计算 相似度计算计算图像嵌入向量与每个类别嵌入向量之间的相似度。 例如计算新图像与“猫”的相似度点积(新图像, “猫”) 0.2 * 0.1 0.3 * 0.2 0.4 * 0.3 ... 计算新图像与“狗”的相似度点积(新图像, “狗”) 0.2 * 0.4 0.3 * 0.5 0.4 * 0.6 ... 计算新图像与“鸟”的相似度点积(新图像, “鸟”) 0.2 * 0.7 0.3 * 0.8 0.4 * 0.9 ... 4.4 分类 选择相似度最高的类别选择相似度最高的类别作为预测结果。 例如假设新图像与“猫”的相似度最高那么预测结果是“猫”。 5. 机制总结 图像编码器将图像转换为图像嵌入向量。 文本编码器将文本转换为文本嵌入向量。 联合训练通过对比损失函数使正确的图像文本对在嵌入空间中的距离更近错误的对距离更远。 测试阶段利用学习到的嵌入空间进行零样本分类通过计算图像嵌入向量与类别嵌入向量之间的相似度选择相似度最高的类别作为预测结果。 图像和文本分别映射到一个共享的高维嵌入空间中是如何做到的 通过设计和训练两个独立但又相互关联的编码器来实现的。这两个编码器分别是图像编码器和文本编码器。下面详细介绍这一过程的具体实现方法 1. 图像编码器 1.1 结构 卷积神经网络 (CNN)传统的图像编码器通常基于卷积神经网络如ResNet。CNN能够提取图像的局部特征并通过多层处理逐步形成全局特征。 Vision Transformer (ViT)近年来基于Transformer的模型也被广泛应用于图像编码如ViT。ViT将图像分割成多个patch然后通过自注意力机制捕捉patch之间的关系。 1.2 嵌入过程 特征提取输入图像经过多层卷积或自注意力机制后得到一个高维特征图。 池化操作通常会进行全局平均池化或最大池化操作将高维特征图压缩为一个固定长度的向量。 规范化为了确保嵌入向量的尺度一致通常会对向量进行L2规范化。 2. 文本编码器 2.1 结构 Transformer文本编码器通常基于Transformer模型如BERT或GPT。Transformer通过自注意力机制能够捕捉文本中的长依赖关系。 词嵌入将输入文本中的每个词转换为词嵌入向量。 2.2 嵌入过程 词嵌入将文本中的每个词转换为词嵌入向量。 位置编码添加位置编码以保留词序信息。 多头自注意力通过多头自注意力机制捕捉词与词之间的关系。 前馈网络通过前馈网络进一步处理特征。 规范化最终输出的向量通常也会进行L2规范化。 3. 共享嵌入空间 3.1 维度对齐 维度匹配确保图像编码器和文本编码器的输出向量具有相同的维度。例如都输出1024维的向量。 3.2 对比学习 对比损失通过对比损失函数来优化模型使得正确的图像文本对在嵌入空间中的距离更近错误的对距离更远。 正样本和负样本在一个批次中每张图像都有一个对应的正确文本描述正样本以及其他图像的文本描述负样本。 损失函数常用的对比损失函数有InfoNCE损失函数其形式如下 其中I 表示图像嵌入向量T 表示正确的文本嵌入向量T 表示其他文本嵌入向量sim 表示相似度度量如点积或余弦相似度t 是温度超参数。 4. 训练过程 4.1 前向传播 编码将图像和文本分别输入图像编码器和文本编码器得到图像嵌入向量和文本嵌入向量。 相似度计算计算每对图像文本嵌入向量的相似度。 4.2 反向传播 损失计算使用对比损失函数计算损失。 梯度计算通过反向传播计算损失函数关于图像编码器和文本编码器参数的梯度。 参数更新使用优化算法如Adam更新参数以最小化损失函数。