wordpress怎么生成网站地图,wordpress 本文目录,网站管理助手 phpmyadmin,网络规划与设计实用教程本文研究了视觉语言模型CLIP在处理人脸图像时的社会感知能力及其潜在偏见。研究者们构建了一个名为CausalFace的合成人脸数据集#xff0c;通过系统地独立变化年龄、性别、人种、面部表情、照明和姿势等六个维度来评估模型的社会感知。他们发现#xff0c;尽管CLIP是在多样化…本文研究了视觉语言模型CLIP在处理人脸图像时的社会感知能力及其潜在偏见。研究者们构建了一个名为CausalFace的合成人脸数据集通过系统地独立变化年龄、性别、人种、面部表情、照明和姿势等六个维度来评估模型的社会感知。他们发现尽管CLIP是在多样化的图像和文本数据上训练的但它能够像人类一样对人脸图像做出精细的社会判断。研究还揭示了CLIP在处理受法律保护的属性年龄、性别和人种时存在系统性的偏见尤其是对黑人女性面孔的社会感知显示出极端值。此外研究指出面部表情对社会感知的影响大于年龄和照明条件。这些发现表明在研究视觉语言模型的社会偏见时控制非受保护的视觉属性是非常重要的以避免得出错误的结论。 1 数据集介绍
数据集由合成的人脸图像组成这些图像通过生成对抗网络GAN产生。每个数据集从一个“种子”人脸开始然后通过变化生成六个原型分别代表三种不同的人种亚洲人、黑人、白人和两种性别女性和男性。这些原型人脸保持尽可能多的相似特征如面部比例、穿着、背景仅在人种和性别上有所不同。接下来每个原型人脸在年龄、微笑程度、光照条件和头部姿态上进行变化产生了每种原型30个图像变体。因此对于每一种性别-人种组合共有六种都生成了180张人脸图像。整个数据集包括来自100个不同种子的图像每个种子有六个原型每个原型又有30个变体共计18,000张独特的人脸图像。这些图像被系统地独立变化使得能够进行实验性的分析并支持因果关系的结果解释。为了确保属性变化的成功每张图像都经过了九个人类注释者的评估。 2 实验设计
实验设计旨在通过系统性地操纵人脸图像的不同属性来评估视觉语言模型VLMs中的社会感知偏见。使用CausalFace合成人脸图像数据集该数据集通过生成对抗网络GAN创建并且能够独立变化受法律保护的属性如年龄、性别和人种以及非保护属性如表情、光线和姿势。通过这种方式研究者可以控制变量并精确测量每个属性对模型社会感知的影响。具体来说这项研究关注的是CLIP模型发现它能做出类似人类的精细社会判断并揭示了模型在处理不同年龄、性别和人种的脸部图像时存在的偏见尤其是对黑人女性脸部的极端反应。此外研究还强调了面部表情对社会感知的影响大于年龄而光线则与年龄影响相当这表明在研究中控制非保护属性的重要性。通过比较实验方法得到的结果与使用野外采集的数据集获得的结果研究人员证明了实验方法的优势因为它可以更准确地识别和量化偏见。
研究结果表明CLIP模型在分析人脸图像时展现出类似于人类的社会判断能力并且这种判断受到年龄、性别和人种等因素的影响。特别是对于黑人女性的脸部图像模型表现出了一种极端的社会感知模式无论是在不同的年龄段还是表情上。此外研究发现面部表情对社会感知的影响比年龄更大而光线条件对社会感知的影响与年龄相似。这些发现提示我们在不控制非保护属性的情况下进行的研究可能会得出错误的结论。通过对三个不同数据集CausalFace、FairFace和UTKFace的比较研究还指出未经控制的属性可能导致噪声测量并掩盖某些有趣的现象。总体而言研究强调了在视觉语言模型中存在显著的社会偏见并提出了进一步探索这些现象的具体方向。
3 结语
文章探讨了视觉语言模型CLIP在处理人脸图像时的社会感知偏见发现模型在受法律保护的属性如年龄、性别和人种方面存在系统性的偏见并且对面部表情的敏感度高于年龄和光照条件。
论文题目 Social perception of faces in a vision-language model
论文链接 https://arxiv.org/abs/2408.14435
PS: 欢迎大家扫码关注公众号_我们一起在AI的世界中探索前行期待共同进步