亚马逊欧洲站,宁波市网站集约化建设通知,培训课程,权重高的博客网站系列文章目录
本文专门开一节写SD原理相关的内容#xff0c;在看之前#xff0c;可以同步关注#xff1a; stable diffusion实践操作 文章目录 系列文章目录前言一、原理说明1.1、出图原理1.1.1 AI画画不是和人一样#xff0c;从0开始#xff0c;而是一个去噪点的过程在看之前可以同步关注 stable diffusion实践操作 文章目录 系列文章目录前言一、原理说明1.1、出图原理1.1.1 AI画画不是和人一样从0开始而是一个去噪点的过程1.1.2 逆向去噪1.1.3 AI如何学会去噪点的 1.2、出图机制1.2.1 文字编码 CLIP1.2.2 图片绘制1.2.2.1 随机种子和采样器1.2.2.2 迭代步数1.2.2.3 采样方法 1.2.3放大图片 总结 前言
(后期补充) 一、原理说明
1.1、出图原理
1.1.1 AI画画不是和人一样从0开始而是一个去噪点的过程 1.1.2 逆向去噪
所有的人图片都是从一张噪点图开始的。根据目标生成一张猫的图片将噪点一步步转化为猫
1.1.3 AI如何学会去噪点的
AI首先将图片一步步加入噪点。 所以任何一张图都可以逆向这个过程
1.2、出图机制
将输入的文字进行编码传入潜空间。在潜空间根据文字的描述进行图片的绘制将图片从潜空间的压缩态进行放大补充细节提升分辨率
1.2.1 文字编码 CLIP
计算机不能直接理解文本和图片 而是通过特征向量来标记 而这一项工作是通过CLIP模型来完成的
clip模型包括文字编码器和图片编码器将文字和图片都编码成向量 所以CLIP设置的层数越高图片和文字相关度越低一般设置为2就可以了。
1.2.2 图片绘制
SD绘制图片内容的时候并不是直接绘制512512的图片而是绘制核心内容6464然后再将图片放大还原。 所以绘图的实际过程就是去噪
1.2.2.1 随机种子和采样器
SD会根据随机种子生成一张正态分布的噪点图然后根据传入的文字加入是狗去向量数据库中搜索生成狗的去噪方式。去噪方式又是采样器进行调用的 采样器会调用Unet模型对图片中的噪点预测生成噪点预测图 让噪点图减去预测出的全部噪点生成最终的模型图片
1.2.2.2 迭代步数
Unet模型在噪点多的时候预测并不理想所以我们并不一次性全部采纳其预测的噪点而是每次只采用一部分噪点循环多次 这个过程就是下面的迭代步数 设置过小图片与文本匹配度较低过大则会画蛇添足一般我们设置为20-40步即可
1.2.2.3 采样方法
采样所采用的算法不同算法消耗的时间不同。 采样器时间对比 一般推荐大家 使用DPM SDE Karas/DPM2 SDE Karas 对比
1.2.3放大图片
在潜空间产生的图片比较小我们需要VAE将其放大优化细节。
这就是整个过程 总结
例如以上就是今天要讲的内容。