当前位置：首页 > news >正文

石家庄有什么做网站的公司网站开发功能不会写

news 2026/5/4 6:40:23

石家庄有什么做网站的公司,网站开发功能不会写,平面设计图数字标识,云优化网站建设24年2月意大利三所研究大学和机构的论文“The Evolution of Multimodal Large Language Models: A Survey”。连接文本和视觉模态在生成智能中起着至关重要的作用。由于这个原因#xff0c;在大语言模型成功的启发下#xff0c;大量的研究工作被投入到多模态大语言模型在大语言模型成功的启发下大量的研究工作被投入到多模态大语言模型MLLMs的开发中。这些模型可以无缝集成视觉和文本模态包括输入和输出同时提供基于对话的界面和指令跟随功能。本文全面回顾最近基于视觉的MLLM分析了它们的架构选择、多模态对齐策略和训练技术。还对这些模型进行了广泛任务的详细分析包括视觉基础、图像生成和编辑、视觉理解和特定领域的应用。此外汇编和描述了训练数据集和评估基准并在性能和计算要求方面对现有模型进行了比较。如图所示多模态大语言模型MLLMs的通用架构由视觉编码器、语言模型和将视觉输入连接到文本空间的适配器模块组成。 MLLM的发展与LLM的发展路径相似FlamingoAlayrac2022第一个在视觉语言领域探索大规模上下文学习。然后视觉指令调整Liu 2023e迅速成为多模态领域最突出的训练范式以及使用PEFT技术微调LLM。任何MLLM至少包含三个组件用作与用户接口的LLM主干、一个或多个视觉编码器和一个或多个视觉到语言适配器模块。LLM主干的流行选择通常属于LLaMA家族Touvron 2023a/b因为它们的权重是可以自由访问的它们仅根据公共数据进行训练并且它们拥有不同的大小以适应各种用例。此外它们的衍生版本也很受欢迎如AlpacaTaori2023和VicunaChiang2022。前者根据使用GPT-3编写的指令微调LLaMA而后者利用与ChatGPT的用户共享对话OpenAI2022。替代方案是OPTZhang2022b、MagnetoWang2023b、MPTMosaicML2023以及T5Raffel2020的指令调优Chung2022或多种语言Xue2020。下表是用于视觉到语言任务的多面手MLLMs摘要。对于每个模型在其最佳配置中使用的LLM (♢: LLM训练从无到有♦: LLM微调▲: LLM与PEFT技术的微调*冷冻LLM。这个✻ 标记表示所报告的视觉到语言适配器的变型而灰色表示模型不公开。 MLLM的视觉任务标准MLLM可以处理视觉理解任务如VQA、字幕和多回合对话。然而最近在处理更细粒度的视觉任务方面出现了兴趣例如视觉落地和图像生成。下表所示为MLLMs的总结包括专门为视觉落地和区块级region-level理解而设计的组件。对于每个模型其最佳配置中使用的LLM在某些情况下使用预训练MLLM的权重初始化以及用于执行任务的任何支持模型 (♦: 微调▲: 使用PEFT技术进行微调*冻结。灰色表示型号不公开。下表是MLLMs概述其中包含专门为图像生成和编辑设计的组件。对于每个模型LLM (✻: LLM变型在某些情况下使用预训练MLLM的权重初始化以及用于执行任务的任何支持模型 (♢: 从头开始训练♦: 微调▲: 使用PEFT技术进行微调*冻结。灰色表示型号不公开。视觉-语言适配器来自不同模态的输入的同时存在强调了一个能够在这些单模态域内描绘潜在对应关系模块的必要性。这些模块被称为“适配器”旨在促进视觉域和文本域之间的互操作性。在常见的MLLMs中使用了一系列不同的适配器从基本架构如线性层或MLP到高级方法如基于Transformer的解决方案以Q-Former模型为例以及添加到LLM的条件交叉注意层。线性和MLP投影。将视觉输入投影到文本嵌入中的最直接的方法包括学习线性映射该线性映射将视觉特征转换为与文本对应物相同的维度。一些方法如LLaMA AdapterGao2023和FROMAGeKoh2023b仅使用单个线性层来执行多模态连接而LLaVA-1.5Liu2023d采用了两层MLP显示出改进的多模态能力。尽管线性投影在早期MLLMs中被广泛采用但最近即使在对视觉输入有更高级理解的方法中线性投影的使用也被证明是非常有效的Chen2023fLin2023aWang2023cYou2023Zhao2023a。因此这是一种简单而有效的将视觉特征与文本对应特征对齐的技术。另一种方法Cha2023提出用卷积层代替线性层证明了适度的改进。 Q-Former。它是在BLIP-2中提出的基于Transformer模型Li2023f然后在其他几种方法中使用Chen2023dDai2023Hu2024。它的特点是其适应性强的架构由两个共享相互自注意层的Transformer块组成有助于视觉和文本表示之间的对齐过程。它涉及一组可学习的查询这些查询在自注意层内交互并通过交叉注意机制与视觉特征交互。文本和视觉元素通过模块内的共享自注意进行交流。从Q-Former中汲取灵感推出了各种修改版本。在这方面mPLUG-Owl模型Ye2023cd简化了Q-Former架构并提出了一种视觉抽象器组件该组件将视觉信息压缩为不同的可学习token来操作导出语义更丰富的视觉表示。在同一条线上Qwen VLBai 2023b使用单层交叉注意模块压缩视觉特征该模块具有也包含2D位置编码的可学习查询。添加的交叉注意层。这种方法已经在FlamingoAlayrac2022中提出在LLM的现有预训练层之间集成了密集的交叉注意块。新添加的层通常与零-初始化tanh-门控机制相结合以确保在初始化时条件模型充当其原始版本。额外的交叉注意层的使用要求从头开始训练它们与其他替代方案相比增加了可训练参数的数量。为了降低计算复杂性该策略通常与基于Perceiver的组件配对Jaegle 2021该组件在视觉tokens被馈送到LLM之前减少视觉tokens的数量。自引入以来几个模型Awadalla2023Chen2023bLaurençon2024Li2023a使用该技术将视觉模态与底层LLM连接起来显示出增强的训练稳定性和改进的性能。多模态的训练从预训练的LLM开始MLLM的训练经历了一个单步或两步的过程。在这两种情况下都使用标准的交叉熵损失来预测下一个token作为自回归目标。单步训练。LLaMA AdapterGao 2023探索了这种可能性它引入了额外的可训练参数来封装视觉知识同时管理纯文本指令学习。为了实现这一点模型使用图像-文本对和指令在单独的参数上进行联合训练。同时Koh 2023b中提出的模型将两个对比损失合并用于图像文本检索来适应最终损失函数。在训练过程中仅更新三个线性层。在另一条线上Kosmos-1Huang 2023a考虑了冻结的视觉主干并从头开始训练1.3B参数的语言模型。 FlamingoAlayrac 2022及其开源变型Awadalla 2023Laurençon 2021相反训练交叉注意层和基于Perceiver的组件将视觉特征与冻结的LLM块连接起来。此外OtterLi 2023a扩展了Flamingo的训练增强其上下文能力。考虑到目前可用的训练数据量SPHINX-XGao et al.2024等方法选择执行单一的一体式训练阶段在该阶段更新所有模型组件也可能使用纯文本数据来保持LLM的会话能力。两步训练。在两个训练步中的第一个步目标是将图像特征与文本嵌入空间对齐。在这一步之后产出往往是零散的不连贯。因此第二步是提高多时间会话能力。LLaVALiu 2023是最早引入视觉指令跟随训练方案之一该训练方案作为更新多模态适配器和LLM参数的第二训练步来执行。相反在第一步只有多模态适配器是可训练的。不同的是MiniGPT-4Zhu 2023a值得注意的是它只训练了负责两步多模态对齐的线性层。在第二步它使用过滤后的数据这些数据在第一步之后通过模型本身收集和细化而得。另一种方法如Instruction-BLIPDai2023所示涉及视觉编码器和LLM的冻结。在这两步训练中只有Q-Former和连接模块是可训练的。与以前视觉主干保持冻结的方法相反mPLUG OwlYe 2023在初始阶段对其进行更新有助于捕获低级和高级视觉信息。此外在第二步中仅使用文本和多模态数据来增加一致性。不同的是ShikraChen 2023f更新了两步的所有权重唯一的例外是保持冻结的视觉主干。训练数据。在第一或单个训练步通常使用来自不同来源的图像-文本对使用数据集如LAION-2BSchuhmann2022、LAION-400MSchuhman2021、Conceptual CaptionSharma2018、COYO-700MByeon2022和DataCompGadre2023。一些方法Lin2023a将这些方法与一个或多个数据集结合使用这些数据集的特征是文本与通常从网络上刮取的图像交织例如WebLIChen2023i、MMC4Zhu2023d、MMDialogFeng2023b和OBELICSLaurençon2023。为了解决先前数据集中的偏差和噪声问题StableLLaVALi 2023h引入了新收集的数据用于第一步。这种方法利用ChatGPT生成包括图像生成提示和基于内容的对话的数据并利用stable diffusionRombach 2022生成相应的图像。相反接下来的阶段利用数据集进行可视化指令调优。其中常用的LLaVA指令Liu 2023e用GPT-4生成的指令扩展了COCOLin 2014。根据这一趋势Zhao2023a通过结合人工和生成的数据以高质量和多样性扩大了维度。此外还提出了其他多回合对话数据集如Dai 2023中介绍的将26个公开可用的数据集转换为其视觉指令后续版本的数据集旨在通过更稳健的指令减少幻觉的LRV指令Liu 2023以及专注于文本丰富图像的LLaVARZhang 2023。其他一些模态和应用视频理解。尽管大部分重新搜索都集中在图像上但一些工作提出了专门用于处理视频序列的MLLM。这些模型独立处理视频帧使用基于CLIP的主干来提取帧级特征然后将这些特征与池化机制Li 2023Maaz2023或基于Q-Former的解决方案Li2023gRen2021相结合。视觉特征和语言模型之间的联系主要遵循与图像MLLM相同的趋势线性投影是最常见的选择。然而也有一些尝试开发视频专用适配器Liu2023gMa2023a可以捕捉细粒度的时间信息。除了对视频帧进行编码外一些方法Munasinghe2023Zhang2023b还利用音频特征来丰富输入视频序列的表示。如下表是基于视频的MLLMs摘要。对于每个模型在其最佳配置中使用的LLM在某些情况下使用预训练的MLLM的权重初始化*冻结LLM♦: LLM微调▲: 使用PEFT技术的LLM微调。任何模态模型。到目前为止几乎所有描述的模型都将单一模态作为LLM的输入。然而大量工作的重点是设计能够处理多种模态的有效解决方案。这通常是通过通过诸如Q-FormerChen2023cPanagopoulou2023和PerceiverZhao2023d的Transformer块来对准多模态特征或者通过利用ImageBindGird-har2022来有效地提取固有多模态的特征Su2024来实现的。图像、视频和音频是最常见的处理模态。此外一些工作还有效地编码3D数据Yin2023c和IMU传感器信号Moon2021。虽然所有这些解决方案都可以管理多模态输入但像NExT-GPTWu2023b和Unified IO 2Lu2021这样的方法也能够生成不同模态的输出。特定域的MLLMs。除了处理通用视觉输入外一些研究工作还致力于为特定领域和应用程序开发MLLM要么从预训练的LLM开始训练模型要么用特定域的数据微调现有的MLLM。一些例子是为文档分析和文本密集型视觉输入设计的MLLMsLv2023Ye2023a为嵌入式人工智能和机器人提出的MLLMsDress2022Mu2021以及为医学Li2023c和自动驾驶Xu2023b等特定域量身定制的MLLM。如下表是为特定域应用程序设计的MLLM摘要。对于每个模型在其最佳配置中使用的LLM在某些情况下使用预训练MLLM的权重初始化*冻结LLM♦: LLM微调▲: 使用PEFT技术的LLM微调。灰色表示型号不公开。 MLLMs是在不同的基准上进行评估的同时考虑到更经典的视觉理解和识别技能以及先进的多模态对话能力。下表显示了最常见的MLLMs在标准VQA和字幕数据集以及专门为评估MLLMs而设计的基准上性能其中对VQA、图像字幕和MLLM评估的14个评估基准性能分析。最佳成绩以粗体显示次佳成绩以下划线显示

查看全文

http://www.hkea.cn/news/14524858/