当前位置：首页 > news >正文

福建建设执业注册中心网站图片生成链接

news 2026/4/16 17:40:25

福建建设执业注册中心网站,图片生成链接,工业园做网站的公司,安防公司做网站图片在生成模型领域#xff0c;针对特定身份#xff08;ID#xff09;创建内容已经引起了极大的兴趣。在文本到图像生成#xff08;T2I#xff09;领域#xff0c;以主题驱动的内容生成已经取得了巨大的进展#xff0c;使图像中的ID可控。然而#xff0c;将其扩展到视频生成… 在生成模型领域针对特定身份ID创建内容已经引起了极大的兴趣。在文本到图像生成T2I领域以主题驱动的内容生成已经取得了巨大的进展使图像中的ID可控。然而将其扩展到视频生成领域尚未得到很好的探索。今天分享的这个工作提出了一个简单而有效的主题ID可控视频生成框架称为Video Custom DiffusionVCD。论文链接https://arxiv.org/pdf/2402.09368 开源地址https://github.com/Zhen-Dong/Magic-Me 通过指定由少数图像定义的主题IDVCD加强了ID信息的提取并在初始化阶段注入帧间相关性以稳定地生成具有很大程度上保留身份的视频输出。为实现这一目标提出了三个关键的新组件对于高质量的ID保留至关重要通过prompt-to-segmentation训练的ID模块通过分解身份信息和背景噪声实现更准确的ID token学习带有3D高斯噪声先验的文本到视频T2VVCD模块以实现更好的帧间一致性视频到视频V2VFace VCD和Tiled VCD模块以去除脸部模糊并提升视频分辨率。尽管VCD的设计简单但大量实验证明VCD能够生成稳定且高质量的视频并且在选择的强基准线上具有更好的ID。此外由于ID模块的可转移性VCD与公开可用的经过微调的文本到图像模型也能很好地配合进一步提高了其可用性。介绍最近在文本到视频T2V生成领域的进展使得可以从文本描述中创建一致且逼真的动画尽管对生成内容的精确控制仍然是一个挑战。在现实世界的应用中通常需要根据文本描述的背景生成具有特定身份的内容这就是所谓的身份特定生成任务。在电影制作等场景中这一点非常重要因为需要为特定角色进行特定动作的动画制作。类似的情况也发生在广告领域其中需要在不同的场景或环境中保持一致的产品身份。在视频生成中控制对象身份特别是与人相关的场景仍然是一个挑战。先前的工作通常利用图像参考主要关注样式和动作而一些工作通过视频编辑探索定制生成。虽然这些方法提供了综合的控制例如参考图像、参考视频或深度图来切换样式或一般外观但它们的重点不在于身份特定控制。如下图2的第一行所示传统的T2V方法将生成的视频增强为遵循参考图像而主体身份并未反映出来。在最近针对身份特定文本到图像T2I模型的努力中取得了显著的进展。这些模型利用与指定ID相关联的少数图像通过可学习的概念token微调预训练的T2I模型。在推理过程中网络通过将ID token整合到文本描述中来生成ID特定的图像。将这种方法扩展到视频生成似乎很直观可以在视频生成模型上保持相同的流程。然而在下图2的第二行中生成的ID并不一致并且视频背景缺乏稳定性。上图2中观察到的失败案例突显了两个潜在问题。收集的参考图像展示了多样的背景捕捉了同一个人的表情、外观和设置的变化。这种多样性被印在了独特的ID token上。因此在推理过程中即使使用相同的ID token生成的视频帧也可能显示出不同的ID。虽然在图像环境中可能不会造成问题但在视频生成中就成为了问题。当前的视频生成框架依赖于预训练的运动模块来建立帧间一致性。当ID token独立地初始化每个帧并具有多样化的信息时运动模块可能会难以生成时间上一致的视频帧。本工作主要关注的是ID特定的定制化目标是在保留主体ID的同时用不同的运动和场景来给主体的身份赋予生命。在上图2的底部一行中本文的方法处理了保留特定身份和引入变化之间的平衡并解决了以前方法中的两个主要问题。为了解决第一个问题提出了一个ID模块它改善了学习到的ID token信息与主观ID的对齐。该模块将身份的特定特征学习为少量紧凑的文本 token embedding即扩展的ID token它比SVDiff的参数数量少大约105倍16KB vs. 1.7MB。在优化过程中ID token的更新完全依赖于对象组件利用一个从提示到分割的子模块来区分身份和背景。实证结果表明ID模块在增强ID信息提取和增加生成的视频与用户指定的ID之间的一致性方面是有效的。为了解决第二个问题提出了一种新颖的3D高斯噪声先验来建立输入帧之间的相关性。它是无需训练的并确保在推理阶段初始化时的一致性。因此尽管ID token可能包含多样化的信息在去噪过程中所有帧往往描述出一致的ID从而产生了改进的视频剪辑。所有帧的初始化噪声之间的协方差由协方差矩阵控制。为了进一步提高生成视频的质量进一步应用了Face VCD来去噪模糊的面部以恢复远处人的身份以及Tiled VCD来进一步提高视频的分辨率。VCD框架对T2V和V2V都适用。本文方法Video Custom DiffusionVCD引入了一种模块化方法来进行ID特定的视频生成。优化过程在两个pipeline中重复使用相同的ID模块即T2V VCD和V2V VCD以保留身份。基于Stable Diffusion的基础这些pipeline可以在推理过程中使用任何领域特定模型在同一基础上进行微调为像Civitai和Hugging Face等AI生成内容社区提供了宝贵的灵活性允许非技术用户独立地混合和匹配模块类似于广泛接受的自由组合DreamBooth、LoRA和前缀 embedding权重。本文贡献总结如下引入了一种新颖的框架Video Custom DiffusionVCD专门用于生成高质量的ID特定视频。VCD在将ID与提供的图像和文本描述对齐方面表现出显著的改进。提出了一种稳健的3D高斯噪声先验用于视频帧去噪增强帧间相关性从而提高视频一致性。提出了两个V2V模块即Face VCD和Tiled VCD用于将视频提升到更高的分辨率。设计了一种新的训练范式通过prompt-to-segmentation的masked loss来减轻ID token中的噪声。相关工作主题驱动的文本到图像生成 T2I扩散模型的发展代表了图像生成的一大进步可以创建逼真的肖像和幻想实体的想象描绘。最近的努力集中在定制这些生成模型上其中使用预训练的T2I扩散模型以及一组最小的定制主题图像旨在微调模型并学习与所需主题相关联的唯一标识符。开创性的方法如Textual Inversion调整了 token embedding以学习 token与主题图像之间的映射而不改变模型结构而DreamBooth则涉及全面的模型微调以学习主题的概念并保留通用概念生成的能力。这引发了一系列后续工作如NeTI侧重于主题的保真度和身份保留。它进一步扩展到多主题生成其中模型能够共同学习多个主题并将它们组合成单个生成的图像。文本到视频生成在图像生成的基础上文本到视频T2V似乎是生成模型新应用的下一个突破。与图像生成相比视频生成更具挑战性因为它需要高计算成本来保持跨多帧的长期空间和时间一致性需要以简短视频字幕的模糊提示为条件并且缺乏具有视频-文本对的高质量标注数据集。早期的探索利用GAN和VAE-based方法以自回归方式生成帧给定一个字幕然而这些工作局限于简单、孤立运动的低分辨率视频。接下来的研究采用大规模的变压器架构来生成长时间、高清质量的视频但是这些方法面临着显著的训练、内存和计算成本。扩散模型的最近成功引领了以扩散为基础的视频生成新浪潮开创性的工作如Video Diffusion Models 和 Imagen Video 引入了新的条件采样技术用于时空视频扩展。MagicVideo通过在低维潜在空间中生成视频剪辑显著提高了生成效率这之后又被 Video LDM 所跟随。视频编辑进一步的进展更加注重控制生成的视频。Tune-a-Video允许在保持动作的同时更改视频内容通过使用单个文本-视频对微调T2I扩散模型。Text2Video-Zero和Runway Gen提出将可训练的运动动态模块与预训练的Stable Diffusion相结合进一步实现了由文本和姿势/边缘/图像指导的视频合成而无需使用任何配对的文本-视频数据。最近AnimateDiff通过在运动模块的训练中提炼合理的动作先验来对大多数现有的个性化T2I模型进行动画化。图像动画以前关于图像动画的研究主要集中在将静态图像扩展为序列帧而不改变场景或修改角色属性。以前的工作从图像或视频中获取主题并将另一个视频中发生的动作转移到主题上。本文框架不仅能够对给定的帧进行动画处理还能够修改主题的属性并更改背景所有这些都以合理的动作呈现出来。基础知识潜在扩散模型。本工作基于Stable Diffusion这是潜在扩散模型的一种变体。在训练中扩散模型以图像和条件c作为输入并使用图像编码器将编码为潜在代码。潜在代码通过正向过程与高斯噪声ε混合可以转换为封闭形式。扩散模型是通过去噪目标来训练以逼近原始数据分布的其中是模型的预测通常由UNet建模。在推理过程中给定随机高斯噪声初始化和条件c扩散模型执行反向过程对于t T...1通过以下方程得到采样图像的编码曝光偏差。将方程2与方程3进行比较注意到模型在训练和推理阶段的输入之间存在差异。具体来说在训练过程中模型接收zt作为输入该输入根据方程1从实际数据中进行采样。然而在推理过程中模型使用该值是基于先前的预测计算得到的。这种差异称为曝光偏差导致推理中的累积误差。在T2V生成中这种差异在时间维度上也存在。在训练期间是从实际视频中采样的通常表现出时间相关性。相反在推理期间是通过联合推理得到的涉及T2I模型和运动模块其中T2I模型的预测在不同帧之间变化。为了解决这个问题提出了一种无需训练的方法即3D高斯噪声先验。该方法在推理期间引入了协方差到噪声初始化中。经验上发现这种方法有助于稳定联合推理并平衡运动的质量和幅度。方法本文提出了一个预处理模块用于VCD以及一个ID模块和运动模块如下图3所示。此外提供了一个可选模块利用ControlNet Tile来对视频进行上采样并生成高分辨率内容。包括来自AnimateDiff 的现成运动模块并增加了提出的3D高斯噪声先验。ID模块采用了扩展的ID token具有掩码损失和提示到分割。最后介绍了两个V2V VCDpipelineFace VCD和Tiled VCD。 3D高斯噪声先验为了简化将无需训练的3D高斯噪声先验应用于一个现成的运动模块以减轻推理过程中的曝光偏差。所选的运动模块扩展了网络以涵盖时间维度。它将2D卷积和注意力层转换为时间伪3D层符合前面方程2中概述的训练目标。 3D高斯噪声先验。对于包含f帧的视频3D高斯噪声先验从多元高斯分布中采样。这里表示由γ ∈(0,1)参数化的协方差矩阵。上述描述的协方差确保了初始化的3D噪声在第m和第n帧之间的相同位置呈的协方差。超参数γ代表了稳定性和运动幅度之间的权衡如下图4所示。较低的γ值会导致具有剧烈运动但增加不稳定性的视频而较高的γ值会导致更稳定的运动但幅度降低。 ID模块尽管先前的研究已经探索了Token embedding 和权重微调用于T2I的身份定制但很少有人深入研究T2V生成中的身份定制。观察到虽然像CustomDiffusion 或 LoRA 这样的权重调整方法在图像生成中实现了精确的身份但生成的视频往往显示出有限的多样性和用户输入对齐。扩展的ID token。建议使用扩展的ID token仅与条件编码交互并更好地保留身份的视觉特征如下图5所示。与原始的LoRA相比这种方法在下表1中显示出了更高质量的视频。此外所提出的ID模块仅需要16KB的存储空间与Stable Diffusion中需要的3.6G参数或SVDiff 中的1.7MB相比参数空间明显更紧凑。 prompt-to-segmentation。在工作[11,20]中已经注意到ID token中的背景噪声编码是保持身份的重要问题。背景噪声可能会破坏条件化的文本 embedding从而损害图像-文本一致性。在VCD框架中ID模块在各帧之间引入了不同级别的过拟合的背景噪声预测这妨碍了运动模块将各种背景对齐为一致的背景。为了去除编码的背景噪声这里提出了一个简单而强大的方法提示到分割。由于训练数据已经包含了身份的类别使用GPT-4V描述图像中的主体以及COCO 中的相应类并将这些类信息输入Grounding DINO来获取边界框。然后将这些边界框输入SAM来生成主体的分割mask。在训练期间仅在mask区域内计算损失。如下图6所示通过prompt-to-segmentation生成的视频与用户的提示更加接近。人脸VCD和平铺VCD 如前面图3所示由于扩散模型受限于在潜在空间中几个单元内呈现清晰的脸部其中每个单元由VAE从8x8像素下采样而来远处的脸部会模糊。为了解决这个问题提出了人脸VCD。它首先检测并裁剪不同帧的人脸区域并将人脸帧连接成一个以人脸为中心的视频。然后通过插值将人脸上采样到512x512并通过具有相同ID模块的VCD进行部分去噪处理以便以更高的分辨率更好地恢复身份。然后将输出降采样过的人脸并粘贴回帧的原始位置。人脸VCD的输出分辨率仍然有限512x512。建议应用平铺VCD来提高视频的分辨率同时保持身份。视频首先通过ESRGAN上采样到1024x1024然后分割成4个tile每个tile占据512x512像素。每个tile都通过VCD进行部分去噪以恢复在ESRGAN上采样中丢失的身份细节。实验定性结果在下图7中呈现了几个结果。本文提出的模型不仅保持了现实基础模型中角色的身份还在各种类型的风格化模型中保持了身份。从Civitai 获取了开源模型包括Realist VisionToonYou和RCNZ Cartoon 3D。本节首先描述了实现细节和选择的基线的细节。然后提出了消融研究和与选定基线方法的比较。实现细节训练。除非另有说明否则ID模块是使用Stable Diffusion 1.5进行训练的并在推理过程中与Realistic Vision一起使用。将其直接应用于Stable Diffusion 1.5进行视频生成结合AnimateDiff会导致视频失真。将扩展的 token tokens的学习率设置为1e-3。批量大小固定为4。每个身份的ID模块在训练过程中进行了200个优化步骤。对于运动模块将方程4中的γ调整为0.15。在人脸VCD中去噪80%在平铺VCD中去噪20%。数据集。为验证VCD框架的有效性精心从DreamBooth数据集、CustomConcept101以及互联网上选择了16个主体确保了人类、动物和物体的多样化代表。对于每个主体要求GPT-4V创建25个提示以在不同背景下进行动画制作。为了评估模型为每个提示生成四个视频使用不同的随机种子。这个过程总共生成了1600个视频。评估指标。从三个角度评估生成的视频。 ID对齐生成的身份的视觉外观应与参考图像中的视觉外观相匹配。利用CLIP-I和DINO计算每对视频帧和参考图像之间的相似性分数。文本对齐在CLIP特征空间中计算文本图像相似性分数。时间平滑性通过计算所有连续视频帧对之间的CLIP和DINO相似性分数来评估生成的视频的时间一致性。值得注意的是时间平滑性不仅受到连续帧之间内容一致性的影响还受到动作幅度的影响。因此在比较结果时建议综合考虑文本对齐、图像对齐和时间平滑性。基线。由于缺乏特定于身份的T2V方法将选择的ID模块与AnimateDiff和几种特定于身份的定制方法进行比较例如CustomDiffusion 、Textual Inversion (TI) 和LoRA 所有这些方法都与3D高斯噪声先验结合使用。尽管最近的进展引入了更多针对多身份定制的新方法例如[17, 20]中的方法但与这些方法的集成可能留待未来工作。定量结果在下表1中呈现了定量结果。最初评估了两个预训练模型 Stable Diffusion (SD) 和Realistic Vision。Realistic Vision是社区开发的模型在SD上进行了微调显示出在生成逼真图像方面的有希望的结果。如表1所示Realistic Vision通常优于SD这导致在可能的情况下采用它作为基准模型。然而对于像DreamBooth这样的模型它涉及对UNet中的所有权重进行微调替换基准模型权重是不可行的。其性能通常较其他模型差突显了广泛微调的局限性。消融研究如下表2所示进行了详细的消融研究并发现3D高斯噪声先验对视频平滑度、图像对齐度和CLIP-T分数至关重要。相反去除prompt-to-segmentation模块会增加视频的平滑度但会降低CLIP-T和CLIP-I分数。这种降低是因为去除会导致 token中编码的背景噪声从而损坏文本条件。因此生成的视频缺乏动作导致更高的平滑度分数。限制和未来工作 VCD框架有几个改进的方面。首先当尝试制作具有几个不同身份的视频时每个身份都有自己特殊的 token embedding和LoRA权重时它会遇到困难。当这些角色需要相互交互时生成的视频会比较差。其次所提出的框架受到动作模块容量的限制。鉴于动作模块只生成短时间的视频要在保持相同一致性和保真度的情况下延长视频长度并不容易。展望未来需要致力于使系统能够处理相互交互的多个身份并确保其在更长的视频中能够保持质量。结论本文介绍了Video Custom DiffusionVCD这是一个旨在解决主体身份可控视频生成挑战的框架。通过专注于身份信息与逐帧相关性的融合VCD为生成视频铺平了道路这些视频不仅跨越帧保持主体的身份而且稳定而清晰。创新贡献包括用于精确身份解缠的ID模块、用于增强帧一致性的T2V VCD模块以及用于改善视频质量的V2V模块共同确立了视频内容中身份保留的新标准。进行的广泛实验证实与现有方法相比VCD在生成保持主体身份的高质量、稳定视频方面具有优势。此外ID模块适应现有的文本到图像模型增强了VCD的实用性使其在广泛的应用领域具有多样性。参考文献 [1] Magic-Me: Identity-Specific Video Customized Diffusion 更多精彩内容请关注公众号AI生成未来

查看全文

http://www.hkea.cn/news/14290712/