网站维护和推广,怎么实现网站注册页面,北京营销型网站制作,广州百度竞价托管谷歌研究人员推出了创新性文本生成视频模型——Lumiere。
与传统模型不同的是#xff0c;Lumiere采用了一种时空扩散#xff08;Space-time#xff09;U-Net架构#xff0c;可以在单次推理中生成整个视频的所有时间段#xff0c;能明显增强生成视频的动作连贯性#xff…谷歌研究人员推出了创新性文本生成视频模型——Lumiere。
与传统模型不同的是Lumiere采用了一种时空扩散Space-timeU-Net架构可以在单次推理中生成整个视频的所有时间段能明显增强生成视频的动作连贯性并大幅度提升时间的一致性。
此外Lumiere为了解决空间超分辨率级联模块在整个视频的内存需求过大的难题使用了Multidiffusion方法同时可以对生成的视频质量、连贯性进行优化。
论文地址https://arxiv.org/abs/2401.12945?refmaginative.com
时空扩散U-Net架构
传统的U-Net是一种常用于图像分割任务的卷积神经网络架构其特点是具有对称的编码器-解码器能够在多个层次上捕获上下文信息并且能够精确地定位图像中的对象。
而时空扩散U-Net是在时空维度上执行下采样和上采样操作以便在紧凑的时空表示中生成视频。 下采样的目的是减小特征图的尺寸同时增加特征图的通道数以捕捉更丰富的特征。
上采样则是通过插值以及将特征图的尺寸恢复到原始输入的大小同时减少通道数以生成更细节的输出。
时空扩散U-Net的编码器部分通过卷积和池化操作实现时空下采样。卷积层用于提取特征并逐渐减小特征图的尺寸。 池化层则通过降采样操作减小特征图的空间尺寸同时保留重要的特征信息。通过逐步堆叠这些下采样模块编码器可以逐渐提取出更高级别的抽象特征。
因此Lumiere在时空扩散U-Net架构帮助下能够一次生成80帧、16帧/秒相当于5秒钟的视频。并且与传统方法相比这种架构显著增强了生成视频运动的整体连贯性。
Multidiffusion优化方法
Multidiffusion核心技术是通过在时间窗口内进行空间超分辨率计算并将结果整合为整个视频段的全局连贯解决方案。
具体来说Multidiffusion通过将视频序列分割成多个时间窗口每个时间窗口内进行空间超分辨率计算。 这样做的好处是在每个时间窗口内进行计算可以减少内存需求因为每个时间窗口的大小相对较小。同时这种分割的方式也使得计算更加高效并且能够更好地处理长视频序列。 在每个时间窗口内Multidiffusion方法使用已经生成的低分辨率视频作为输入通过空间超分辨率级联模块生成高分辨率的视频帧。
然后通过引入扩散算法将每个时间窗口的结果进行整合形成整个视频段的全局连贯解决方案。
这种整合过程考虑了时间窗口之间的关联性保证了视频生成的连贯性和视觉一致性。
本文素材来源Lumiere论文如有侵权请联系删除
END