手机看网站,做淘宝客需要建网站吗,全国物流网站,wordpress如何试下背景页面广告Wan-Video 模型介绍#xff1a;包括 Wan-Video-1.3B-T2V 和 Wan-Video-14B-T2V 两个版本#xff0c;分别支持文本到视频#xff08;T2V#xff09;和图像到视频#xff08;I2V#xff09;生成。14B 版本需要更高的 VRAM 配置。 Wan2.1 是一套全面开放的视频基础模型…Wan-Video 模型介绍包括 Wan-Video-1.3B-T2V 和 Wan-Video-14B-T2V 两个版本分别支持文本到视频T2V和图像到视频I2V生成。14B 版本需要更高的 VRAM 配置。 Wan2.1 是一套全面开放的视频基础模型旨在突破视频生成的界限。Wan2.1 具有以下几个关键特性 SOTA 性能Wan2.1 在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。 支持消费级 GPUT2V-1.3B 型号仅需 8.19 GB VRAM可兼容几乎所有消费级 GPU。它可在约 4 分钟内用 RTX 4090 生成一段 5 秒的 480P 视频未使用量化等优化技术性能甚至可与一些闭源型号相媲美。 多任务Wan2.1 在文本转视频、图像转视频、视频编辑、文本转图像、视频转音频方面表现出色推动了视频生成领域的发展。 视觉文本生成Wan2.1是第一个能够生成中英文文本的视频模型具有强大的文本生成功能可增强其实际应用。 强大的视频 VAEWan-VAE 提供卓越的效率和性能可对任意长度的 1080P 视频进行编码和解码同时保留时间信息使其成为视频和图像生成的理想基础。
相关链接 推理链接https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/wanvideo?continueFlag79104c0ee2c31191b38f9b2c59a528d9 模型链接https://huggingface.co/Wan-AI?continueFlag79104c0ee2c31191b38f9b2c59a528d9 comfyuihttps://github.com/kijai/ComfyUI-WanVideoWrapper?continueFlag79104c0ee2c31191b38f9b2c59a528d9 官网https://wan.video/welcome?spma2ty_o02.30011076.0.0.118ce41e6cpA82
介绍
Wan2.1-I2V-14B
I2V-14B 模型的表现超越了领先的闭源模型以及所有现有的开源模型达到了 SOTA 性能。它能够根据输入的文本和图像生成展示复杂视觉场景和运动模式的视频包括 480P 和 720P 分辨率的模型。
Wan2.1-T2V-14B
T2V-14B 模型在开源和闭源模型中创下了 SOTA 性能新高展现出其能够生成具有大量运动动态的高质量视觉效果的能力。它还是唯一能够同时生成中英文文本的视频模型并支持 480P 和 720P 分辨率的视频生成。
Wan2.1-T2V-1.3B
T2V-1.3B 模型支持在几乎所有消费级 GPU 上生成视频仅需 8.19 GB BRAM 即可生成 5 秒的 480P 视频在 RTX 4090 GPU 上输出时间仅为 4 分钟。通过预训练和蒸馏过程它超越了更大的开源模型甚至达到了与一些先进的闭源模型相当的性能。
Wan2.1 以主流的扩散变换器范式为基础通过一系列创新显著提升了生成能力包括我们新颖的时空变分自动编码器 (VAE)、可扩展的预训练策略、大规模数据构建和自动化评估指标。这些贡献共同提升了模型的性能和多功能性。
3D 变分自动编码器
我们提出了一种专为视频生成而设计的新型 3D 因果 VAE 架构。我们结合了多种策略来改善时空压缩、减少内存使用并确保时间因果关系。这些增强功能不仅使我们的 VAE 更高效、更可扩展而且更适合与 DiT 等基于扩散的生成模型集成。 为了高效支持任意长视频的编码和解码我们在 3D VAE 的因果卷积模块中实现了特征缓存机制。具体来说视频序列帧数遵循 1 T 输入格式因此我们将视频分成 1 T/4 个块与潜在特征的数量一致。在处理输入视频序列时该模型采用逐块策略其中每个编码和解码操作仅处理与单个潜在表示相对应的视频块。基于时间压缩比每个处理块中的帧数最多限制为 4从而有效防止 GPU 内存溢出。 实验结果表明我们的视频 VAE 在两个指标上都表现出了极具竞争力的性能展现了卓越视频质量和高处理效率的双重优势。值得注意的是在相同的硬件环境即单个 A800 GPU下我们的 VAE 的重建速度比现有的 SOTA 方法即 HunYuanVideo快 2.5 倍。由于我们的 VAE 模型的小尺寸设计和特征缓存机制这种速度优势将在更高分辨率下得到进一步体现。 视频传播 DiT
Wan2.1 采用主流 Diffusion Transformers 范式中的 Flow Matching 框架进行设计。在我们的模型架构中我们利用 T5 Encoder 对输入的多语言文本进行编码并在每个 Transformer 块内加入交叉注意力机制将文本嵌入到模型结构中。此外我们还使用 Linear 层和 SiLU 层来处理输入的时间嵌入并分别预测六个调制参数。此 MLP 在所有 Transformer 块之间共享每个块都学习一组不同的偏差。我们的实验结果表明在相同的参数规模下这种方法可以显著提高性能。因此我们在 1.3B 和 14B 模型中都实现了此架构。 模型扩展和训练效率
在训练过程中我们使用 FSDP 进行模型分片当与上下文并行 (CP) 结合时FSDP 组和 CP 组相交而不是形成模型并行 (MP) 和 CP/DP 的嵌套组合。在 FSDP 中DP 大小等于 FSDP 大小除以 CP 大小。在满足内存和单批次延迟要求后我们使用 DP 进行扩展。 在Inference过程中为了降低扩展到多GPU时生成单个视频的延迟需要选择Context Parallel进行分布式加速。另外当模型很大时需要进行模型分片。 模型分片策略对于 14B 这样的大型模型必须考虑模型分片。考虑到序列长度通常很长FSDP 与 TP 相比通信开销较小并且允许计算重叠。因此我们选择 FSDP 方法进行模型分片与我们的训练方法一致注意仅分片权重而不实现数据并行。 上下文并行策略采用与训练时相同的 2D 上下文并行方法对外层机器间采用 RingAttention对内层机器内采用 Ulysses。 在万14B大模型上采用2D Context Parallel和FSDP并行策略DiT实现了接近线性的加速比如下图所示。 下表中我们测试了不同Wan2.1模型在不同GPU上的计算效率结果以总时间s/峰值GPU内存GB的格式呈现。 图像转视频
图像到视频 (I2V) 任务旨在根据输入提示将给定图像动画化为视频从而增强视频生成的可控性。我们引入额外的条件图像作为第一帧来控制视频合成。具体而言条件图像沿时间轴与零填充帧连接形成指导帧。然后这些指导帧由 3D 变分自动编码器 (VAE) 压缩为条件潜在表示。此外我们引入了一个二元掩码其中 1 表示保留的帧0 表示需要生成的帧。掩码的空间大小与条件潜在表示匹配但掩码与目标视频共享相同的时间长度。然后将此掩码重新排列为与 VAE 的时间步幅相对应的特定形状。噪声潜在表示、条件潜在表示和重新排列的掩码沿通道轴连接并传递通过提出的 DiT 模型。由于 I2V DiT 模型的输入通道比文本转视频 (T2V) 模型多因此使用了额外的投影层并用零值初始化。此外我们使用 CLIP 图像编码器从条件图像中提取特征表示。这些提取的特征由三层多层感知器 (MLP) 投影用作全局上下文。然后通过解耦交叉注意力将此全局上下文注入 DiT 模型。 数据
我们整理并去重了一个包含大量图像和视频数据的候选数据集。在数据整理过程中我们设计了一个四步数据清理流程重点关注基本维度、视觉质量和运动质量。通过强大的数据处理流程我们可以轻松获得高质量、多样化、大规模的图像和视频训练集。 与 SOTA 的比较
为了评估 Wan2.1 的性能我们将 Wan2.1 与领先的开源和闭源模型进行了比较。我们使用精心设计的 1,035 个内部提示集进行测试这些提示集涵盖了 14 个主要维度和 26 个子维度涵盖了运动质量、视觉质量、风格和多目标等方面。最终我们根据每个维度的重要性通过加权平均计算总分。详细结果如下表所示。从这些结果可以看出我们的模型在与闭源和开源模型的全面比较中取得了最佳性能。