网站建设开发教程视频,昆明网页重做,设计公司logo设计图片,网站开发技术题目文章目录 论文简介模型的部署需要下载的预训练权重 模型的生成效果图像编辑的效果风格迁移的效果 总结 论文简介
OmniGen的github项目地址
OmniGen: Unified Image Generation。OmniGen 在各种图像生成任务中都表现出了卓越的性能#xff0c;并可能大大超过现有扩散模型的极… 文章目录 论文简介模型的部署需要下载的预训练权重 模型的生成效果图像编辑的效果风格迁移的效果 总结 论文简介
OmniGen的github项目地址
OmniGen: Unified Image Generation。OmniGen 在各种图像生成任务中都表现出了卓越的性能并可能大大超过现有扩散模型的极限。OmniGen 是第一个能够以统一的方式处理各种任务的模型如从文本生成图像、图像编辑和视觉条件生成。用一个模型实现多类文生图任务
模型框架图
模型的部署
需要下载的预训练权重
模型在huggingface的权重 将huggingface中的权重下到文件夹里 需要保证保的版本和requirements中的版本一致
torch2.3.1
transformers4.45.2
datasets2.20.0
accelerate0.26.1
jupyter1.0.0
numpy1.26.3
pillow10.2.0
torch2.3.1
peft0.9.0
diffusers0.30.3
timm0.9.16模型的生成效果
模型推理代码
separate_cfg_infer:
这个参数通常用于区分训练和推理时的配置。当设置为 True 时模型可能会使用不同的配置或策略来处理推理任务以优化性能或提高生成质量。具体的实现取决于模型的框架或库。 use_kv_cache:
这个参数表示是否使用键值缓存。在变换器模型中推理时会生成上下文即输入序列的表示。使用键值缓存可以在处理长序列时提高效率因为它允许模型在生成下一个 token 时重用先前计算的键key和值value从而减少计算开销。
from OmniGen import OmniGenPipelinepipe OmniGenPipeline.from_pretrained(Shitao/OmniGen-v1)
#img_guidance_scale1.6
images pipe(promptA man in a black shirt and a blue hat is reading a book in the library. The man is the left man in img|image_1|/img.,input_images[./imgs/test_cases/two_man.jpg],height1024,width1024,guidance_scale2.5,img_guidance_scale1.6,separate_cfg_inferTrue,use_kv_cacheTrue,seed0)
images[0].save(example_ti2i.png) # save output PIL image图像编辑的效果
输入的文本
promptimg|image_1|img Remove the womans book. Replace the mug with A pot of sunflowers .prompt“|image_1| 删除女人的书 用一盆向日葵代替杯子。”
输入的图像如下
生成的图像结果如下 可以看到书被删除了被子被替换了有向日葵但是不是我们想要的效果。
换一个提示词
promptimg|image_1|img Remove the womans book.The women in img|image_1|img waves her hand移除图片中女人的书图片中的女人在挥舞她的手 生成结果如下 可以看到效果还不错就是背景变化了
风格迁移的效果
prompt Make this image img|image_1|img has the same style of img|image_2|img|原图 风格参考图像 生成的图像 可以看到有一定的风格迁移能力但是效果一般应该还需要调试一些模型的参数。
总结
确实这个模型有很好的文本理解能力可以实现多种类型文生图任务但是每个任务的能力可能不会非常好。