大气网站模板下载,做网站需不需要购买服务器,马鞍山网站建设制作公司,网站建设多少时间前言
Stable Diffusion#xff08;稳定扩散#xff09;是一种生成模型#xff0c;基于扩散过程来生成高质量的图像。它通过一个渐进过程#xff0c;从一个简单的噪声开始#xff0c;逐步转变成目标图像#xff0c;生成高保真度的图像。这个模型的基础版本是基于扩散过程…前言
Stable Diffusion稳定扩散是一种生成模型基于扩散过程来生成高质量的图像。它通过一个渐进过程从一个简单的噪声开始逐步转变成目标图像生成高保真度的图像。这个模型的基础版本是基于扩散过程的但也有一些改进版本包括基于变分自动编码器VAE、局部正则化的自动编码器LORA和嵌入式扩散等。
1.基础模型
Stable Diffusion Checkpoint模型是生成图像所必须的基础模型也称之为大模型。要使用Stable Diffusion出图之前必须配备一个主模型才能开始创作。这个主模型包含了生成图像所需的所有信息无需额外的文件或组件。这些主模型的文件通常比较大大小在2GB到7GB之间。它们的文件后缀通常是“ckpt”或“safetensors”。
不同的主模型具有不同的特点它们在创作风格和擅长的领域上有所侧重。因此在选择主模型时需要考虑自己的创作需求和偏好。不同的主模型可以帮助你实现不同风格的图像生成。
一些流行和常见的Checkpoint模型包括“Anything”系列如v3、v4.5、v5.0、“AbyssOrangeMix3”、“ChilloutMix”、“Deliberate”以及“国风系列”等等。这些Checkpoint模型都是从Stable Diffusion的基础模型训练而来它们使用不同的数据进行训练以生成特定风格或对象的图像。
需要注意的是通常情况下是不会使用官方自带的大模型来进行创作出图的因为它们的效果较差。但是如果想要自己练大模型官方自带的大模型系列是一个不错的基础模型因为它们涵盖了各种风格属于中性模型。
当在下载模型时可能会看到带有pruned、emaonlyema等后缀pruned表示完整版而emaonly表示剪枝版。模型剪枝是一种通过删除神经网络中的冗余连接或参数来减小模型大小。可以帮助减少模型的存储空间和计算成本同时在某些情况下还可以提高模型的推理速度。需要注意的是尽管剪枝版模型在大小上更为轻量级但在一些情况下可能会牺牲一定的性能。因此在选择模型时需要权衡模型大小和性能之间的关系根据具体的应用场景和需求来做出选择。但两者在使用上差别不大。如果想要自己练模型则需要下载完整版。需要注意的是有些剪枝版可能不带有后缀有些可能后缀也是prune因此在具体选择时需要参考相应的版本说明。
Civitai是一个全球性的提供AI艺术资源分享和发现的平台旨在帮助用户轻松探索并使用各类AI艺术模型。平台用户可以上传和分享自己用数据训练的AI自定义模型或者浏览和下载其他用户创建的模型。 以我这里使用的秋叶sd-webui-aki-v4.5整合包为例模型下载之后放到models/Stable-Diffusion目录。 之后刷新就可以看到相关的模型 选择要使用的模型之后可以输入正向提示词和反向提示然后点生成
2、外挂VAE模型
VAE模型可以被视作一种类似于颜色滤镜的工具用于调整和改善生成图片的色彩。它并非在制图时必不可少而是根据个人绘画需求决定是否采用。在使用某些模型时有时绘制的图片整体颜色可能会显得较灰暗。在这种情况下可以使用VAE模型对图片的颜色进行调整以改善整体视觉效果。 下载或者自己训练出来的VAE模型把它放到models/VAE目录下 测试VAE模型左边是没有使用VAE模型的右边是使用了VAE模型 在绘图过程中选择是否使用VAE模型通常对最终生成的图片效果并没有太大的影响。相比之下VAE模型并不像其他模型比如LORA模型那样在绘图中的作用和效果十分明显。在测试中尝试了几个常用的大型模型发现使用或不使用VAE模型对最终生成的图片效果的区别并不明显。
3、Lora模型
LoRALow-Rank Adaptation是一种大语言模型低秩适配器最早在2021年的论文《LoRA: Low-Rank Adaptation of Large Language Models》中提出。它的核心思想是通过降低模型可训练参数的数量尽量不损失模型的性能从而实现对大语言模型的微调。
在此之前对于Stable Diffusion这样的模型要训练大模型的话通常需要使用Dreambooth等方法。如果对大模型的效果不满意那么就只能从头开始重新训练但是这个过程需要高要求的算力且速度较慢。LoRA的引入极大地降低了训练的门槛扩大了产出模型的适用范围。这意味着即使是非专业人员也可以在家用电脑上尝试训练自己的LoRA模型从而更灵活地适应不同的任务和需求。 这里可以将大型模型比作素颜的人因为它们通常生成的图片与原始数据相似但可能缺乏一些细节或特定的特征。而LoRA模型则像是进行了化妆、整容或cosplay它们能够通过增加细节、调整风格或改变外观使生成的图片更加精美或符合特定的要求。LoRA模型不仅局限于人物也适用于场景、动漫或其他风格这使得它们在生成多样化的内容时具有广泛的应用性。大型模型提供了基础而LoRA模型在此基础上进一步增强和丰富了生成的图片效果。
LoRA模型具有几个明显的优点 性能优势 使用LoRA时只需要存储少量被微调过的参数而不需要保存整个新模型。这使得LoRA模型的存储开销较小。此外LoRA的新参数可以与原模型的参数合并不会增加模型的运算时间。 功能丰富 LoRA模型维护了模型在微调中的“变化量”通过用介于0到1之间的混合比例乘以这些变化量可以控制模型的修改程度。此外基于同一个原模型独立训练的多个LoRA模型可以同时使用。
这些优点在SD LoRA中得到体现 模型尺寸小 SD LoRA模型通常都很小只有几十MB大小这使得它们在存储和部署时都非常高效。 参数合并 SD LoRA模型的参数可以合并到SD基础模型中得到一个新的SD模型这有助于简化模型管理和部署过程。 画风控制 可以使用0到1之间的比例来控制SD LoRA新画风的程度使得用户可以根据需要调整生成图片的风格和效果。 多画风混合 可以将不同画风的SD LoRA模型以不同的比例混合从而进一步增加生成图片的多样性和可控性。
C站也有开源可用的Lora模型下载下载之后把模型放到models/Lora里面重启或者刷新webui界面 可以查看Lora的模型 在WebUI中点击所需的模型之后系统会自动在提示词中增加对该模型及其权重的引用。格式如下
lora:模型的名字:模型的权重这样就可以在提示词中引用所选模型以及其权重了。模型的权重越高生成图片时越贴近模型提供的主体或者风格权重的取值范围是0-1。生成图片时可以同时使用多个LoRA模型最终效果会综合多个模型的风格。
4.Embedding模型
Embedding可以被理解为一组提示词的集合将这些提示词汇总到一个文件中。当需要使用这些提示词时只需调用这个Embedding文件就相当于输入了很多的提示词这对用户来说非常方便。
Embedding可以用于正向提示词也可以用于负向提示词。但在大多数情况下它通常用于负向提示词因为负向提示词的数量通常很多而且复用性较高。例如在人物绘图时对于描述手指可能会使用诸如“坏的手指”、“多余的手指”、“缺失的手指”等多个负向提示词同样的情况也适用于其他身体部位如腿、手等。这导致在绘图时需要频繁输入这么多的负向提示词因此有时候负向提示词的数量远远超过正向提示词。
为了方便用户操作减轻用户编写提示词的麻烦常用的负向提示词会被打包在一起。这样用户只需要使用一个关键词就可以代替输入很多的负向提示词达到一词顶百词的效果。
由于Embedding模型是一组提示词的集合所以Embedding模型文件通常不大大小一般在几十KB到几百KB之间。
在C站上面在搜索条件中通过Embedding关键字过滤出所有的Embedding模型。