衣服网站设计,做网站的岗位好吗,图片展示网站织梦源码,西安免费网站搭建制作大家好#xff0c;这里是好评笔记#xff0c;公主号#xff1a;Goodnote#xff0c;专栏文章私信限时Free。本文详细介绍Meta的视频生成模型Emu Video#xff0c;作为Meta发布的第二款视频生成模型#xff0c;在视频生成领域发挥关键作用。 #x1f33a;优质专栏回顾这里是好评笔记公主号Goodnote专栏文章私信限时Free。本文详细介绍Meta的视频生成模型Emu Video作为Meta发布的第二款视频生成模型在视频生成领域发挥关键作用。 优质专栏回顾 机器学习笔记深度学习笔记多模态论文笔记AIGC—图像 文章目录 论文摘要引言相关工作文本到图像T2I扩散模型视频生成/预测文本到视频T2V生成分解生成 方法预备知识Emu Video生成步骤图像条件模型结构零终端信噪比 噪声调度插值模型实现简单性稳健的人类评估JUICE 实现细节架构与初始化高效的多阶段多分辨率训练高质量微调插值模型 实验伦理问题 论文
项目https://emu-video.metademolab.com/assets/emu_video 论文https://arxiv.org/pdf/2311.10709
摘要
本文提出Emu Video这是一种文本到视频生成模型将生成过程分解为两个步骤
先根据文本生成图像;再基于文本和生成的图像生成视频。
该模型在性能上超越了RunwayML的Gen2和Pika Labs等商业解决方案。
引言
T2I模型在大规模的图像文本对上训练已经很成功了可使用视频文本对进一步拓展文本到视频T2V生成但视频生成在质量和多样性方面仍落后于图像生成。原因在于
需要对更高维度的时空输出空间进行建模且仅以文本提示作为条件视频文本数据集通常比图像文本数据集小一个数量级。
当前视频生成的主流范式是使用扩散模型一次性生成所有视频帧。而不是NLP中的自回归问题不同自回归方法在视频生成中具有挑战性因为从扩散模型生成单个帧就需要多次迭代。
Emu Video通过显式的中间图像生成步骤将文本到视频生成分解为两个子问题
根据输入文本提示生成图像基于图像和文本的强条件生成视频。
直观地说给模型一个起始图像和文本会使视频生成更容易因为模型只需要预测图像未来的演变。
由于视频文本数据集远小于图像文本数据集使用预训练的文本到图像T2I模型初始化T2V模型并冻结其权重。在推理时这种分解方法能显式生成图像从而保留T2I模型的视觉多样性、风格和质量。
Emu Video证明了将文本到视频T2V生成过程分解为先生成图像再用生成的图像和文本生成视频。可以大幅提高生成质量。
到此作者确定了他们的关键设计决策 —— 改变扩散噪声调度和采用多阶段训练从而能够绕过先前工作中对深度级联模型的需求高效生成 512 像素高分辨率的视频。该模型也可以根据用户提供的图像和文本提示生成视频。
相关工作
文本到图像T2I扩散模型
相比于先前的生成对抗网络GAN或自回归方法扩散模型是文本到图像生成的前沿方法通过加噪声和预测加入的噪声并去除来学习数据分布生成输出。
扩散模型去噪可以在像素空间使用也可以在低维潜在空间使用本文采用潜在扩散模型进行视频生成。
视频生成/预测
许多先前工作如掩码预测、LSTMs、GANs 等通常在有限的领域中进行训练和评估。它们适用的场景较为狭窄可能只在特定类型的视频数据、特定的任务要求或特定的应用场景中表现良好。
本文的研究中目标是开放集的文本到视频T2V生成。开放集意味着处理的数据和任务场景更为广泛和多样没有预先设定的严格限制这与之前这些方法所适用的有限领域形成对比。
文本到视频T2V生成
多数先前工作通过利用T2I模型来解决T2V生成问题
采用无训练方法通过在T2I模型中注入运动信息进行零样本T2V生成通过微调T2I模型实现单样本T2V生成。
这些方法生成的视频质量和多样性有限。
也有许多工作通过向T2I模型引入时间参数学习从文本条件到生成视频的直接映射来改进T2V生成。如
Make-A-Video利用预训练的T2I模型和先验网络在无配对视频文本数据的情况下训练T2V生成Imagen Video基于Imagen T2I模型构建级联扩散模型。
为解决高维时空空间建模的挑战部分工作在低维潜在空间训练T2V扩散模型但这些方法学习从文本到高维视频空间的直接映射具有挑战性。
本文则 采用分解方法来增强条件信号。
分解生成
与Emu Video在分解方面最相似的工作是CogVideo和Make-A-Video
CogVideo基于预训练的T2I模型使用自回归Transformer进行T2V生成其自回归性质在训练和推理阶段与Emu Video的显式图像条件有根本区别。Make-A-Video 利用从共享图像文本空间中学习到的图像嵌入作为条件。
Emu Video直接利用第一帧作为条件条件更强。 此外Make-A-Video从预训练的T2I模型初始化但对所有参数进行微调无法像Emu Video那样保留T2I模型的视觉质量和多样性。Stable Video Diffusion是一项与Emu Video同时期的工作也引入了类似的分解方法进行T2V生成。 Make-A-Video是Meta于2022年发布的模型/论文中MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA CogVideo是国产的视频生成模型之前清华大学和智谱AI一起研发了CogView文本生成图像模型CogVideo由清华大学发布的论文CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers 方法
文本到视频T2V生成的目标构建一个模型该模型以文本提示 P 作为输入生成由 T 个 RGB 帧组成的视频 V。
近期的一些模型仅使用文本作为条件一次性直接生成 T 个视频帧。作者在本论文中认为通过文本和图像共同提供更强的条件能够提升视频生成效果验证参见 3.2 节 。
预备知识
条件扩散模型是一类生成模型通过迭代对高斯噪声去噪根据条件输入c生成输出。
在训练时
将时间步 t ∈ [ 0 , N ] t \in[0, N] t∈[0,N]相关的高斯噪声 ϵ t ∼ N ( 0 , 1 ) \epsilon_{t} \sim N(0, 1) ϵt∼N(0,1)添加到原始输入信号X上得到有噪输入 X t α t X 1 − α t ϵ t X_{t}\alpha_{t} X\sqrt{1-\alpha_{t}} \epsilon_{t} XtαtX1−αt ϵt其中 α t \alpha_{t} αt定义 “噪声调度”N是扩散步骤总数。扩散模型通过预测噪声 ϵ t \epsilon_{t} ϵt、 x x x或 v t α t ϵ t − 1 − α t X v_{t}\alpha_{t} \epsilon_{t}-\sqrt{1-\alpha_{t}} X vtαtϵt−1−αt X来对 x t x_{t} xt进行去噪。时间步t的信噪比SNR为 ( α t 1 − α t ) 2 (\frac{\alpha_{t}}{1-\alpha_{t}})^{2} (1−αtαt)2并随着 t → N t \to N t→N而降低。
在推理时
从纯噪声/高斯噪声 X N ∼ N ( 0 , 1 ) X_{N} \sim N(0, 1) XN∼N(0,1)开始去噪生成样本。
对 x t x_{t} xt去噪的三种预测方式
预测 ϵ t \epsilon_{t} ϵt常用 ϵ t \epsilon_{t} ϵt是在时间步 t t t添加到原始输入信号 X X X的高斯噪声 ϵ t ∼ N ( 0 , 1 ) \epsilon_{t}\sim N(0, 1) ϵt∼N(0,1)。如果模型能够准确预测出这个噪声那么就可以从含噪输入 X t α t X 1 − α t ϵ t X_{t}\alpha_{t}X \sqrt{1-\alpha_{t}}\epsilon_{t} XtαtX1−αt ϵt中减去预测的噪声从而达到去噪的目的。 预测 x x x 这里的 x x x是指原始输入信号 X X X。模型直接预测原始信号本身在得到预测的原始信号 X ^ \hat{X} X^后就可以将含噪输入 X t X_{t} Xt中的噪声部分去除。在实际操作中直接预测原始信号可能会比较复杂因为模型需要学习从含噪信号中还原出原始信号的复杂映射关系。 预测 v t v_{t} vt v t α t ϵ t − 1 − α t X v_{t}\alpha_{t}\epsilon_{t}-\sqrt{1 - \alpha_{t}}X vtαtϵt−1−αt X是一种组合了噪声 ϵ t \epsilon_{t} ϵt和原始信号 X X X的形式。当模型预测出 v t v_{t} vt为 v ^ t \hat{v}_{t} v^t时可以通过一定的数学变换来去除噪声恢复原始信号。这种方式综合考虑了噪声和原始信号之间的关系也是一种有效的去噪策略。
Emu Video 图3描述了分解的文本 - 视频生成过程。 首先根据文本 p p p生成图像 I I I然后使用更强的条件即生成的图像和文本来生成视频 V V V。 为了使我们的模型 F \mathcal{F} F以图像为条件我们在时间维度上对图像进行零填充并将其与一个二进制掩码连接起来该掩码指示哪些帧是零填充的【类似Trandformer的填充遮蔽Padding Masking与未来遮蔽Future Masking】以及含噪输入。 生成步骤
将文本到视频生成分解为两个步骤
首先根据文本提示 p p p 生成第一帧图像然后利用文本提示 p p p 和图像条件【下面会介绍图像条件怎么来的】生成T帧视频。
这两个步骤均使用潜在扩散模型 F \mathcal{F} F实现使用预训练的文本到图像模型初始化 F \mathcal{F} F确保其在初始化时能够生成图像。
只需训练 F \mathcal{F} F解决第二步即根据文本提示和起始帧/图像推出视频。使用视频文本对训练 F \mathcal{F} F通过采样起始帧/图像 I I I让模型根据文本提示 P P P和图像 I I I条件预测 T T T帧 T T T帧会被独立地添加噪声以生成含噪输入 x t x_{t} xt而扩散模型的训练目标就是对这个含噪输入进行去噪。
首先通过逐帧应用图像自动编码器的编码器将视频 v v v转换到潜在空间 X ∈ R T × C × H × W X \in \mathbb{R}^{T×C×H×W} X∈RT×C×H×W这会降低空间维度。潜在空间中的数据可以通过自动编码器的解码器转换回像素空间。
图像条件
通过将起始帧 I I I与噪声拼接(如上图的concatenate)为模型提供条件。将 I I I表示为单帧视频 T 1 T1 T1并对其进行零填充得到 T × C × H × W T ×C ×H ×W T×C×H×W张量同时使用形状为 T × 1 × H × W T ×1 ×H ×W T×1×H×W的二进制掩码m在第一时间位置设置为1表示起始帧位置其他位置为0。将掩码m、起始帧I和有噪视频 x t x_{t} xt按通道连接作为模型输入。 与 Make-a-video等模型中基于语义嵌入设定条件的方法不同Emu Video 的拼接的方式能让模型利用起始帧 I 的全部信息。基于语义嵌入的方法会在条件设定时丢失部分图像信息而 Emu Video 的设计避免了这一问题为生成高质量视频提供了更多有效信息。 掩码 m 用于标记起始帧在序列中的位置帮助模型识别起始帧对后续视频生成过程进行更精准的指导。 模型结构
使用预训练的T2I模型Emu初始化潜在扩散模型 F \mathcal{F} F并添加新的可学习时间参数
在每个空间卷积层之后添加一维时间卷积层在每个空间注意力层之后添加一维时间注意力层 原始的空间卷积层和注意力层保持冻结状态。 在Runway的Gen-1中的时空潜在扩散中也使用了可学习时间参数 在每个残差块中的每个 2D 空间卷积之后引入一个1D 时间卷积。在每个空间 2D 空间注意力块后引入一个时间1D 时间注意力块。 预训练的 T2I 模型以文本作为条件与上一节的图像条件相结合后模型 F \mathcal{F} F 同时以文本和图像作为条件。 Emu是Meta发布的一款T2I模型论文为Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack 零终端信噪比 噪声调度
作者发现先前工作Emu和SD模型中使用的扩散噪声调度存在训练 - 测试差异这会阻碍高质量视频的生成。 在训练过程中该噪声调度会留下一些残留信号也就是说即使在扩散的终端时间步N信噪比SNR仍不为零。当我们从不含真实数据信号的随机高斯噪声中采样时这会导致扩散模型在测试时无法很好地泛化。由于高分辨率视频帧在空间和时间上存在冗余像素其残留信号更为明显。 作者通过缩放噪声调度并将最终的 α N 0 \alpha_N 0 αN0来解决这个问题这使得在训练过程中的时间步为N时扩散过程的最后一个阶段信噪比也为零。我们发现这个设计决策对于高分辨率视频的生成至关重要。 这个问题和缩放噪声调度方法并非本文首创在之前的Common diffusion noise schedules and sample steps are flawed也发现了这个问题。【来源于字节跳动】 插值模型
使用与 F \mathcal{F} F结构相同的插值模型 I I I将低帧率的 T T T帧视频转换为高帧率的 T p T_{p} Tp帧视频。 输入的 T T T帧通过零交错生成 T p T_{p} Tp帧并将指示 T T T帧存在的二进制掩码m连接到有噪输入。为提高效率从 F \mathcal{F} F初始化 I I I并仅针对插值任务训练 I I I的时间参数。 将低帧率的 T T T帧视频转换为高帧率的 T p T_p Tp帧能提升视频流畅度与视觉效果适应多样化应用场景增强模型竞争力为用户带来更好体验。 实现简单性
Emu Video在实现方面的简单且高效
训练数据与模型结构简单 标准数据集训练Emu Video采用标准视频文本数据集进行训练这意味着其训练数据来源广泛且具有通用性不需要特殊定制的数据集降低了数据准备的难度和成本。无需深度级联模型在生成高分辨率视频时Emu Video不需要像某些其他方法如Imagen Video中使用7个模型的深度级联结构那样复杂的模型架构简化了模型构建和训练流程。 推理过程 图像与视频生成推理时先运行去除时间层的模型F根据文本提示生成图像I再将I和文本提示作为输入通过F直接生成高分辨率的T帧视频这种推理方式简洁高效。帧率提升借助插值模型I可提高视频帧率进一步增强视频的视觉效果且这一操作融入到了整体的推理流程中。 模型初始化与风格保留 初始化策略空间层从预训练的T2I模型初始化并保持冻结这样可以利用T2I模型在大规模图像文本数据集上学习到的概念和风格多样性。风格保留优势相比Imagen Video需要在图像和视频数据上联合微调以维持风格Emu Video不需要额外的训练成本就能保留并运用这些风格来生成图像I。许多直接的T2V方法如Make-a-video虽然也从预训练T2I模型初始化并冻结空间层但由于没有采用基于图像的分解方法无法像Emu Video一样保留T2I模型的质量和多样性 。
稳健的人类评估JUICE
由于自动评估指标不能反映质量的提升主要使用人类评估来衡量T2V生成性能从视频生成质量QualityQ和生成视频与文本提示的对齐或 “保真度”FaithfulnessF两个正交方面进行评估。提出JUICE评估方案要求评估者在成对比较视频生成结果时说明选择理由显著提高了标注者之间的一致性。评估者可选择像素清晰度、运动平滑度、可识别对象/场景、帧一致性和运动量等理由来评价视频质量使用空间文本对齐和时间文本对齐来评价保真度。
实现细节
附录第 1 节提供完整的实现细节详细内容可以参考附录第 1 节这里只介绍关键细节。
架构与初始化
采用Emu中的文本到图像 U-Net 架构构建模型并使用预训练模型初始化所有空间参数。
预训练模型使用一个 8 通道、64×64 的潜在向量经自动编码器在空间上进行 8 倍下采样生成 512px 的方形图像。 该模型同时使用一个冻结的 T5-XL 和一个冻结的 CLIP 文本编码器从文本提示中提取特征。
高效的多阶段多分辨率训练
为降低计算复杂度分两个阶段进行训练。
先在低分辨率下训练更简单的任务即生成256px、8fps、1s的视频。然后在期望的高分辨率下训练对4fps、2s的视频进行15K次迭代训练。 a. 使用同SD一样的噪声调度进行256px训练。 b. 在512px训练中使用零终端信噪比噪声调度扩散训练步数 N 1000 N 1000 N1000 c. 使用DDIM采样器进行采样采样步数为250步。 SD中的噪声调度是线性调度。 SD 系列文章参考Stable Diffusion 高质量微调
通过在一小部分高运动和高质量视频上微调模型可改善生成视频的运动效果。从训练集中自动识别出1600个具有高运动根据H.264编码视频中存储的运动信号计算的视频作为微调子集并根据美学分数和视频文本与第一帧的CLIP相似度进行筛选。
插值模型
插值模型I从视频模型F初始化输入8帧输出 T p 37 T_{p} 37 Tp37帧帧率为16fps。在训练时使用噪声增强在推理时对F的样本进行噪声增强。
实验
参照论文原文
伦理问题
参照论文原文