泰州网站建设价格,毕业设计用PHP做旅游网站,花都营销型网站,网站设计模板免费下载阿里云人工智能平台#xff08;PAI#xff09;自研开源的视频生成项目EasyAnimate正式发布v3版本#xff1a; 支持 图片#xff08;可配合文字#xff09; 生成视频 支持 上传两张图片作为起止画面 生成视频 最大支持720p#xff08;960*960分辨率#xff09; 144帧视…阿里云人工智能平台PAI自研开源的视频生成项目EasyAnimate正式发布v3版本 支持 图片可配合文字 生成视频 支持 上传两张图片作为起止画面 生成视频 最大支持720p960*960分辨率 144帧视频生成 最低支持 12G 显存使用3060 12G可用 视频续写生成无限时长视频 项目主页https://easyanimate.github.io
开源地址GitHub - aigc-apps/EasyAnimate: An End-to-End Solution for High-Resolution and Long Video Generation Based on Transformer Diffusion
技术报告https://arxiv.org/abs/2405.18991
PAI平台上快速体验阿里云登录 - 欢迎登录阿里云安全稳定的云计算服务平台
效果展示 EasyAnimate-v3 上图展示图生视频和文生视频的输入参考图、Prompt提示词及生成结果。 项目提供基于Gradio搭建的WebUI界面上手非常方便。
模型结构 EasyAnimate-v3采用Diffusion TransformerDiT结构T5作为Text Encoder整体框架如上图a所示。 图b是我们设计的混合运动模块Hybrid Motion Module 偶数层时间序列上集成注意力机制模型学习时序信息。 奇数层全局序列空间时间上进行全局注意力学习Global Attention提高模型全局感受野。 参考图c的U-ViT为了提高训练稳定性我们引入跳连接结构Skip Connection引入的浅层特征进一步优化深层特征并且在每个Skip Connection额外增加一个零初始化Zero Initialize的全连接层Linear Layer使其可以作为一个可插入模块应用到已经训练好的DiT结构中。 EasyAnimate-v3中的Slice VAEVariational Auto Encoder结构如上不仅有1/4的时序压缩率还支持对不同输入使用不同的处理策略 输入视频帧时在高宽与时间轴上进行压缩例如当输入为512512分辨率8帧的视频帧时将其压缩为64642的Latent向量。 输入图片时则仅仅在高宽上进行压缩列入当输入为512512分辨率的图片时将其压缩为6464*1的Latent向量。 EasyAnimate-v3版本新增的图生视频Pipeline如上图所示我们提供视觉-文本双流的信息注入 需要重建的部分和重建的参考图分别通过Slice VAE进行编码上图黑色的部分代表需要重建的部分白色的部分代表首图然后和随机初始化的Latent进行Concat合并。假设我们期待生成一个384672分辨率144帧的视频此时的初始Latent就是4x36x48x84需要重建的部分和重建的参考图编码后也是4x36x48x84三个向量Concat合并到一起后便是12x36x48x84传入DiT模型中进行噪声预测。 文本提示词这里我们使用CLIP Image Encoder对输入图片编码后使用一个CLIP Projection进行映射然后将结果与T5编码后的文本进行Concat合并二者在DiT中进行Cross Attention。