当前位置：首页 > news >正文

绿色能源网站模板5g网络优化工程师

news 2026/4/8 10:54:48

绿色能源网站模板,5g网络优化工程师,南海大良网站建设,机械毕业设计代做网站文章目录 1 Motivation2 背景相关工作 Related work3 Method 方法4 效果 1 Motivation 背景是 Tuning-free personalized image generation methods无微调的个性化图像生成方式在维持脸部一致性上取得了显著性的成功。这里我不是很了解然而，在多个场景中缺乏整…

文章目录

1 Motivation
2 背景相关工作 Related work
3 Method 方法
4 效果

1 Motivation

背景是

Tuning-free personalized image generation methods无微调的个性化图像生成方式在维持脸部一致性上取得了显著性的成功。这里我不是很了解

然而，在多个场景中缺乏整体一致性，整体一致性是什么呢？虽然脸一致了，但是比如衣服和身体，头发样式上的一致性很难保证，这些进而阻碍了创建连贯的叙事的能力。

StoryMaker结合了多重条件，包括面部识别和裁剪的人物图像（包括服装、发型和身体），将两个特征通过一种叫做（位置感知感知重采样器 (PPR) 的方法将面部身份信息与裁剪的字符图像相结合，以获得不同的人物特征。

为了防止多个人物和背景的混杂，分别通过带有分割遮挡的MSE损失来限制了不同人物和背景的交叉注意力。

除此之外，训练了基于特定姿势的生成模型。

Lora也被用来提高质量。

2 背景相关工作 Related work

主流维持脸部一致性的工作有2个派系

派系1：微调系列

Break-A-Scene: Extracting Multiple Concepts from a Single Image（2023）

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion（2022）

Multi-Concept Customization of Text-to-Image Diffusion（2022）

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation（2022）

派系1生成能力不自然，因为图像有限并且在微调上面花费成本较大

派系2：不微调系列

Customizing realistic human photos via stacked id embedding（2024）

Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning（2024）

High-fidelity image personalization via multi-modal condition integration（2024）

Instantfamily: Masked attention for zero-shot multi-id image generation.（2024）

Instantid: Zero-shot identity-preserving generation in seconds（2024）

通过视觉编码器将视觉信息集成到生成器中，没有用微调。

然而是上面的工作只能维持脸部特征，他们不能维持更全面的一致性

StoryMaker允许通过文本提示改变背景、人物姿势和样式。怎么做到的呢？就通过脸部特征上和裁剪的人物图像去提取信息，使用位置感知感知器重采样器(PPR)来导出人物特征

3 Method 方法

在这里插入图片描述

具体来说，首先使用人脸编码器提取人物的面部信息，即面部特征，

以及通过人物图像编码器提取它们的衣服、发型和身体的细节。

然后，我们使用所提出的位置感知感知器重采样器（PPR模块）来细化此信息。PPR模块的结构组成如右侧所示。

为了控制主干生成网络，将细化的信息注入到IP-Adapter提出的解耦交叉注意模块中[Ye et al.， 2023b]。

为了防止多个字符和背景交错，我们分别约束交叉注意对不同人物和背景的影响区域。

ID 损失还用于维护人物的身份。此外，为了将姿态信息与参考图像解耦，利用ControlNet检测到的姿态训练网络[Zhang et al.， 2023]。

为了提高保真度和质量，我们还使用 LoRA [Hu et al., 2021] 训练 U-Net。

一旦经过训练，就可以丢弃整个ControlNet，并通过文本提示控制字符的姿势，或者在推理过程中用新的姿势指导图像生成。

提出的方法的完整流程如图所示

4 效果

请添加图片描述

请添加图片描述

训练在8卡 A100

http://www.hkea.cn/news/944369/

相关文章：

网页设计师证书含金量高吗百度网络优化

咸阳网站开发长沙seo优化公司

网站通cms国内十大搜索引擎排名

centos7安装 wordpress网站如何进行seo

设计师灵感网站美国今天刚刚发生的新闻

重庆南岸营销型网站建设公司推荐竞价sem托管

深圳做二维码网站建设什么是互联网营销

网易企业邮箱收费标准百色seo关键词优化公司

做网站的财务需求张北网站seo

北京赛车彩票网站怎么做佛山本地网站建设

门户网站的建设方式有哪些网络推广引流

做中东服装有什么网站免费seo刷排名

做网站用java还是c语言百度竞价推广培训

做动画视频的网站市场监督管理局官网入口

做bbs网站教程军事新闻最新消息今天

在哪儿可以找到网站开发的需求搜索引擎优化介绍

成都网站建设代理加盟网络运营培训班多少钱

太原开发网站公司站长工具端口扫描

域控制网站访问自媒体视频发布平台

广西住房和城乡建设委员会网站湖南网站营销seo多少费用

关键词推广名词解释百度竞价关键词怎么优化

群辉服务器做网站网络优化的内容包括哪些

做淘客的网站岳阳seo

网吧设计方案seox

谁做网站市场营销专业

慈溪外贸公司网站网络营销就业前景和薪水

电商网站建设实训报告长沙网站seo推广公司

阿里云ecs怎么建网站吉林网站seo

企业营销型网站建设的可行性西安竞价托管

做网站如何适应分辨率网站分析培训班