当前位置: 首页 > news >正文

建设部门的网站京东建站模板

建设部门的网站,京东建站模板,香奈儿网站建设目标,网站后台图片上传大小Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口#xff0c;而是建立了一个通用的解码范式#xff0c;该范式可以通过采用共同的#xff08;例如语义#…Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口而是建立了一个通用的解码范式该范式可以通过采用共同的例如语义但尊重自然差异例如空间掩码与序列语言来无缝连接任务从而全面显著改进不同的分割和VL工作。 输入两个查询(i) generic non-semantic queries that aim to decode segmentation masks for universal segmentation(ii) newly introduced textual queries to make the decoder language-aware for a diverse set of language-related vision tasks 输出两种类型像素级别和token级别。 2、X-Decoder 2.1 Formulation 图片经过image encoder 得到特征文本T经过text encoder 编码为长度为n非语义查询或者潜在查询输入X-Decoder输出 分别是像素级别masks和token级别语义. 在许多以前的统一编码器-解码器模型中图像和文本在编码器侧融合。这种设计不仅使全局图像-文本对比学习难以解决而且使生成预训练也难以解决。相反通过完全解耦图像和文本编码器并将输出全部用作查询X-Decoder可以从图像内监督和图像间监督中学习这对于学习更强的像素级表示和支持不同粒度的任务至关重要。 2.2 Unification of Tasks Generic Segmentation Referring Segmentation与一般分割类似只使用与潜在查询相对应的前m个解码输出。 Image-Text Retrieval Image Captioning and VQA这两个任务有两个不同Captioning遵循因果掩mask策略而VQA则不遵循。其次使用Os中的所有输出作为字幕但仅使用最后一个输出来预测VQA的答案。 之前的一系列工作探索了序列解码接口进行统一。然而在这项工作中我们提倡通过功能而不是接口来实现统一即我们最大限度地共享不同任务的共同部分同时保持单个任务的其余部分不变。 2.3 Unified Architecture 不同level的特征 在每一层先和视觉特征做交叉注意力然后潜在查询和文本查询做自注意力 其中对第一个公式所有查询和视觉特征做交叉注意力对于潜在查询使用masked cross-attention mechanism对文本查询使用全部注意力。 对第二个公式i 我们使用最后一个潜在查询来提取全局图像表示剩余的用于一般分割ii对于图像Caption每个文本查询可以和其自身、前面的文字、所有潜在查询做自注意力iii对于参考分割潜在查询与所有文本查询做注意力。 对m个潜在查询输出mask对于语义输出为潜在查询和文本查询预测输出 2.4  End-to-End Pre-training 两种类型的损失函数Semantic LossMask Loss 1Semantic Loss 三个任务对应三个损失函数 对image-text retrieval计算语言图片相对损失。最后一个有效的token feature 代表文本记作用潜在特征的表示全局图片的特征表示图片记作对minibatch  B获得B对特征对然后计算点乘得到然后计算双向交叉熵 y是class labels。 对于mask classification包括“background”在内C个类别编码为C个文本查询提取每个查询最后一个有效特征作为概念表示然后取对应前m-1个潜在查询的decoder输出计算这些输出和概念表示的点乘得到最后计算交叉熵损失。 对于image captioning提取所有词汇向量大小为VX-Decoder最后n个语义输出计算点乘得到和GT的写一个token的id  计算交叉熵。 2Mask Loss 用Hungarian matching找到和前(m − 1)个输出匹配的GT使用BCE和DICE计算损失。 3  实验 100 latent queries and 9 decoder layers for segmentation, and we add one additional latent query for image-level task。 Focal-T and DaViT-B/L  as the vision encoder
http://www.hkea.cn/news/14523498/

相关文章:

  • 如何做医美机构网站观察分析美克美家网站建设
  • 搭建一个商城网站微信网页视频怎么下载
  • 成都专业网站建设优化团队建设银行官网首页登录入口
  • 我想开个网站长沙网站建设建
  • 学校营销型网站楼盘网站建设方案
  • 网站建设工作室北京小俊哥九江做网站的
  • 广州设计网站公司江苏省交通厅门户网站建设管理
  • 企业招聘网站排行榜广州海珠做网站的公司
  • 深圳住房和建设局网站哪里预约保定建设工程信息网站
  • 用什么软件做网站模板手机软件用什么语言开发
  • 找程序员做网站wordpress 搜索小工具
  • 网站做网站反向代理违法wordpress被和谐
  • 衡水景县专业做淘宝网站公司百度竞价个人开户
  • ipv6 网站开发seowhy
  • 检察院门户网站建设自查报告google在线网页代理
  • 现在网站建设用什么软件800多块做网站
  • 有什么网站可以赚钱wordpress访客
  • 制作一个网站大概要多少钱个人如何做seo推广
  • 装修网站怎么做的网站建设实验报告总结
  • 山东营销网站建设设计广西百色公司注册
  • 帮人家做网站能赚多少钱第三方网站做企业满意度调查
  • 做网站设计公司价格重庆市建设工程信息网的信用信息发布平台
  • 电子商务网站建设前期准备品牌vi设计是什么
  • 网站建设代理平台有哪些不懂代码可以做网站吗
  • 网站建设公司做销售前景好不好?wordpress 新建
  • 云南网站制作公司教育类手机网站模板
  • 建设摩托车网站wordpress全局动态背景
  • 网页模板网站有哪些二级建造师求职网
  • 网站开发怎样将信息栏到最底部事业单位网站建设方案书
  • 温州网站建设方案开发网站建设开头