当前位置: 首页 > news >正文

手机版自网站韩版做哪个网站好

手机版自网站,韩版做哪个网站好,简单好玩的网页游戏,做移动网站多少钱基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本#xff0c;输出是文本。 Vision encoder来自预训练的NormalizerFree ResNet (NFNet)#xff0c;之后经过图文对比损失学习。图片经过图像模型的输出是2D grid#xff0c;视频按1FPS的频率采样后经过图…基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本输出是文本。 Vision encoder来自预训练的NormalizerFree ResNet (NFNet)之后经过图文对比损失学习。图片经过图像模型的输出是2D grid视频按1FPS的频率采样后经过图像模型的输出是3D grid都展开成1D送入Perceiver Resampler。 Perceiver Resampler将变长的图片或者视频的特征变成固定长度。结构如下图 通过gated cross-attention dense模块结合图像特征和文本特征。gated cross-attention dense模块使用了tanh-gating机制用tanh(a)乘以文本和图像模态cross-attention后的输出a初始化为0。tanh-gating机制保证初始化的时候模型不受图像特征的影响输出就是语言模型的输出。 使用single-image cross-attention方法在计算图像和文本的cross-attention时通过mask让文本token只能看到前面的一幅图像的token。 训练数据数据集包括公开数据和自建数据。M3W43 million webpages、ALIGN dataset1.8 billion images with alt-text 43 million webpages、312 million image and text pairs、27 million short videos and text pairs。
http://www.hkea.cn/news/14326371/

相关文章:

  • 网站怎么免费做推广珠海网站建设方案优化
  • 辽源做网站动力做网站
  • 权威的锦州网站建设wordpress建站后怎样发布
  • 网站建设怎么更改图片黑龙江省建设信息网
  • 怎么建设网站规划北京市建设教育协会网站查询
  • 滨江道做网站公司温州建站方案
  • 域名注册网站建设方案建设部网站公示公告安全
  • 微信息公众平台微网站建设wordpress数据库查询优化
  • 创新的盐城网站开发app软件做得比较好的公司
  • 网站建设公司zgkr页面设计怎么写
  • 自己做购物网站怎么做夸克网站免费进入
  • 网站主机选择与优化wordpress 知更鸟 公告
  • 杰诚网站建设网站发展规划
  • 腾讯视频网站建设维护怎么做可以支付的网站
  • 模版网站可以做seo吗怎么做app下载网站
  • 白城市网站建设wordpress子目录和多域名
  • 湖南网站营销推广设计吉林省电子健康卡app
  • 地方网站建站平台西安网站建设服务商十强
  • 福州做公司网站在中国备案的网站服务器
  • 深圳做网站的网络公深圳低价网站建设
  • 湖南中海建设集团有限公司网站网站开发语言作用
  • 专门教做衣服的网站擦边球做网站挣钱
  • 靓号网站建设河西区做网站的公司
  • 建站行业新闻南昌专业做网站公司哪家好
  • 广州微型网站建设wordpress 看板
  • 嘉兴高端网站定制国家工商局官网首页登录入口
  • 网站添加wordpress博客巴中+网站建设
  • 八宿县网站seo优化排名wordpress免签约接口
  • 旅游景点网站建设设计说明黄骅港潮汐表2022最新表
  • 中山建设局网站可以用wpf做网站吗