当前位置: 首页 > news >正文

宿迁网站建设SEO优化营销响水做网站的价格

宿迁网站建设SEO优化营销,响水做网站的价格,廊坊网络推广优化公司,微信公众号平台电话#x1f34e;个人主页#xff1a;小嗷犬的个人主页 #x1f34a;个人网站#xff1a;小嗷犬的技术小站 #x1f96d;个人信条#xff1a;为天地立心#xff0c;为生民立命#xff0c;为往圣继绝学#xff0c;为万世开太平。 基本信息 标题: X-Former: Unifying Contr… 个人主页小嗷犬的个人主页 个人网站小嗷犬的技术小站 个人信条为天地立心为生民立命为往圣继绝学为万世开太平。 基本信息 标题: X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs 作者: Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah 发表: ECCV 2024 arXiv: https://arxiv.org/abs/2407.13851 摘要 近期在多模态大型语言模型MLLMs方面的进步通过将视觉感知能力整合到大型语言模型LLMs中已经彻底改变了视觉-语言理解领域。 该领域的流行趋势涉及使用来自视觉-语言对比学习CL的视觉编码器擅长捕捉整体表示但在捕捉详细局部模式方面存在困难。 在本工作中我们通过结合通过掩码图像建模MIM获得的高频和详细视觉表示与由CL捕获的语义丰富的低频表示来增强MLLMs的视觉表示。为了实现这一目标我们引入了X-Former这是一个轻量级的Transformer模块通过创新交互机制利用CL和MIM的互补优势。 具体来说X-Former首先从两个冻结的视觉编码器即基于CL的CLIP-ViT和基于MIM的MAEViT启动视觉-语言表示学习和多模态到多模态生成学习。它进一步从冻结的LLM启动视觉到语言的生成学习以确保X-Former的视觉特征可以被LLM解释。 为了证明我们方法的有效性我们在需要详细视觉理解的任务上对其性能进行了评估。广泛的评估表明X-Former在涉及GQA数据集中结构和语义类别的视觉推理任务中表现出色。对细粒度视觉感知基准的评估进一步证实了其在视觉理解方面的优越能力。 主要贡献 提出利用CL和MIM中的视觉编码器从冻结的图像编码器中捕捉全局和局部视觉表示以提升视觉语言理解能力。提出具有双重交叉注意力的X-Former用于通过图像-文本对启动多模态到多模态的生成学习完全无需使用精心挑选或视觉指令数据。 方法 预备知识 CLIP-ViT与MAE-ViT的训练目标使得其关注点有所不同。CLIP-ViT更多关注低频信号和全局视觉表示而MAE-ViT在理解详细视觉特征方面更加出色。 原生的Q-Former仅采用CLIP-ViT特征尽管其在VQA和图像描述等下游任务上表现出色但在详细视觉特征理解方面遇到了挑战。 如何融合CLIP-ViT特征和MAE-ViT特征成为了本文的研究重点。 X-Former Pre-Training CLIP-ViT: pre-trained ViT-G model from EVA-CLIPMAE-ViT: pre-trained ViT-H model X-Former通过优化重建、ITC、ITM和ITG损失来学习提取局部和全局表示。 X-Former❄️ CLIP Image Encoder、MAE Image Encoder、MAE Image Decoder LLM Alignment LLM Decoder: OPT model 将X-Former的特征与冻结的LLM对齐。 X-Former、FC❄️ CLIP Image Encoder、MAE Image Encoder、LLM Decoder 实验 主实验 VQAv2数据集上的零样本视觉问答结果。 GQA和OKVQA数据集上零样本视觉问答结果。 GQA中的详细比较。 MLLMs在物体计数OC和多类识别MCI任务上的零样本细粒度视觉感知评估。 COCO与NoCaps上的无微调结果零样本图像描述结果。 消融实验 Table 5: 对MAE-ViT特征的消融。将MAE-ViT特征替换为CLIP-ViT的浅层特征。 Table 6: 重建损失的消融。 总结 在这篇论文中我们介绍了X-Former这是一种新型架构旨在通过整合预训练的MAE和CLIP视觉编码器来增强多模态语言模型MLLMs的视觉表示。 我们的动机源于以下几点观察 现有的MLLMs主要依赖于CLIP-ViT但往往无法捕捉到细粒度的视觉信号我们的实证研究表明简单地将CLIP-ViT和MAE-ViT相结合并不一定能带来性能提升MLLMs的有效性高度依赖于大规模图像-文本对进行预训练和精心策划的指令调整数据集进行微调。 X-Former通过双重交叉注意力机制有效地整合了CLIP-ViT和MAE-ViT同时保持计算需求可控。我们的方法即插即用可以应用于其他模型。 我们的实验结果明确表明X-Former在各种需要稳健视觉理解的视觉推理任务中超越了BLIP-2。值得注意的是这些优越的结果仅使用了十分之一的图像-文本对数据集且无需任何指令调整数据集。
http://www.hkea.cn/news/14449118/

相关文章:

  • 凡科免费建站台州自助建站公司
  • 岳溥庥网站建设用网站做自我介绍自己
  • 免费站长统计工具网站开发 技术架构
  • 网站建设拾金手指下拉二一腾讯小程序官网首页
  • 那里有做网站网站推广公司大家好
  • wordpress制作购物网站网站设计原型图怎么做
  • 如何做一份网站的数据分析深圳网页设计与制作工资多少钱
  • 网站开发要哪些免费领取手机网站
  • 网站建设 营业执照 经营范围做便民网站都需要哪些模块
  • 请详细说明网站开发流程及原则框架做网站指的是
  • 网站平台开发与应用面试上海自贸区注册公司流程和费用
  • 网站上的高清动态图怎么做的凌晨三点看的片韩国
  • 网站查备案密码手工制作网站
  • 贵阳网站定制开发佛山网站快照优化公司
  • wordpress站内链接电商网站的支付模块怎么做
  • 专业做网站咨询有哪些外贸公司网站做的比较好
  • 如何建设远程教育网站wordpress贵金属插件
  • 设计电子商务网站呼和浩特做网站公司
  • 含关键词的网站建设软件开发工程师招聘简章
  • liferay做网站好吗会员管理系统功能
  • 潍坊网站空间刷数据网站怎么推广
  • 旅游微网站分销wordpress+导入+媒体
  • 做链家房产的网站怎么做的商城网站建设 数商云
  • 东营免费网站制作做网站的工作好做吗
  • 电子商务网站建设实验心得打开小程序入口直接进入
  • 成都便宜做网站的建设银行网站储蓄账户查询密码
  • 打车软件app开发wordpress百度seo优化插件
  • 济南校园兼职网站建设青岛代理记账公司排名
  • 网站首页图片大小市场营销策略有哪4种
  • 江西科技学校网站建设企业网站需要在电信做哪些备案