当前位置：首页 > news >正文

登封网站建设百度平台客服

news 2026/4/7 10:13:47

登封网站建设,百度平台客服,wordpress 主题排,卖产品怎么做网站基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本，输出是文本。 Vision encoder来自预训练的NormalizerFree ResNet (NFNet)，之后经过图文对比损失学习。图片经过图像模型的输出是2D grid，视频按1FPS的频率采样后经过图…

基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本，输出是文本。

Vision encoder来自预训练的NormalizerFree ResNet (NFNet)，之后经过图文对比损失学习。图片经过图像模型的输出是2D grid，视频按1FPS的频率采样后经过图像模型的输出是3D grid，都展开成1D送入Perceiver Resampler。

Perceiver Resampler将变长的图片或者视频的特征变成固定长度。结构如下图：

通过gated cross-attention dense模块结合图像特征和文本特征。gated cross-attention dense模块使用了tanh-gating机制，用tanh(a)乘以文本和图像模态cross-attention后的输出，a初始化为0。tanh-gating机制保证初始化的时候，模型不受图像特征的影响，输出就是语言模型的输出。

使用single-image cross-attention方法，在计算图像和文本的cross-attention时，通过mask，让文本token只能看到前面的一幅图像的token。

训练数据数据集包括公开数据和自建数据。M3W（43 million webpages）、ALIGN dataset（1.8 billion images with alt-text 43 million webpages）、312 million image and text pairs、27 million short videos and text pairs。

查看全文

http://www.hkea.cn/news/344508/