福建住房与城乡建设部网站,公司做网站多,塑模毕业设计代做网站,几度设计网站文章目录一、什么是扩散模型二、扩散模型相关定义2.1 符号和定义2.2 问题规范化三、可以提升的点参考论文#xff1a;A Survey on Generative Diffusion Model
github#xff1a;https://github.com/chq1155/A-Survey-on-Generative-Diffusion-Model
一、什么是扩散模型
已…
文章目录一、什么是扩散模型二、扩散模型相关定义2.1 符号和定义2.2 问题规范化三、可以提升的点参考论文A Survey on Generative Diffusion Model
githubhttps://github.com/chq1155/A-Survey-on-Generative-Diffusion-Model
一、什么是扩散模型
已经有大量的方法证明深度生成模型能够模拟人类的想象思维生成人类难以分辨真伪的内容主要方法如下
VAE依赖于替代损失EBMGAN因其对抗性训练性质而以潜在的不稳定训练和较少的生成多样性而闻名diffusion model 我们主要介绍扩散模型扩散模型背后的直觉来源于物理学
在物理学中气体分子从高浓度区域扩散到低浓度区域这与由于噪声的干扰而导致的信息丢失是相似的通过引入噪声然后尝试去噪来生成图像模型每次在给定一些噪声输入的情况下学习生成新图像。
扩散模型可以用到哪些任务上
计算机视觉语言模型声音模型AI for science
扩散模型的应用场景
图文生成视频生成分子结构生成AI 绘画AI 制药…
扩散模型的工作原理
学习由于噪声引起的信息衰减然后使用学习到的模式来生成图像
扩散模型的结构
扩散模型定义了一个扩散步骤的马尔可夫链慢慢地向数据中添加随机噪声然后学习反向扩散过程从噪声中构建所需的数据样本前向扩散过程为输入图像 x0x_0x0 引入一系列的随机噪声也就是对样本点分 T 步添加高斯噪声随着噪声的引入x0x_0x0 最终会失去区分特性反向恢复过程从高斯先验出发从有大量随机噪声的图中学习恢复原图
前向过程 扩散模型相比 GAN 或 VAE 的缺点
速度慢扩散模型是基于马尔科夫过程来实现的在训练和推理的时候都需要很多步骤 二、扩散模型相关定义
2.1 符号和定义
1、State状态
State 是能够描述整个扩散模型过程的一系列数据
初始状态starting state x0x_0x0prior state离散时为 xTx_TxT连续时为 x1x_1x1中间状态intermediate state xtx_txt
2、Process 和 Transition Kernel
Forward/Diffusion 过程 FFF将初始状态转换到有噪声的状态Reverse/Denoised 过程 RRR和前向过程方向相反从有噪声的图像中逐步复原原图的过程Transition Kernel在上面的两个过程中每两个 state 的变换都是通过 transition kernel 来实现的
前向和逆向的过程如下所示 对于非离散情况任何时间 0ts10ts10ts1 的前向过程如下 FtF_tFt 和 RtR_tRt 分别是 ttt 时刻从状态 xt−1x_{t-1}xt−1 转换成状态 xtx_txt 的前向 transition kernel 和逆向 transition kernelσt\sigma_tσt 是噪声尺度最常用的 transition kernel 是 Markov kernel因为其具有较好的任意性和可控性
3、Pipeline
假设定义 sampled data 为 x~0\widetilde{x}_0x0则整个过程可以描述如下 4、离散和连续过程
与离散过程相比连续过程能够从任何时间状态中提取任何信息
如果扰动核的变化足够小则连续过程有更好的理论支撑
5、训练目标
扩散模型是生成模型的一个子类和 VAE 的目标函数类似目标是让初始分布 x0x_0x0 和采样分布 x~0\widetilde{x}_0x0 尽可能的接近。
通过最大化如下 log-likelihood 公式来实现其中 σ~\widetilde{\sigma}σ 在前向和逆向过程中是不同的 2.2 问题规范化
1、Denoised Diffusion Probabilistic ModelDDPM去噪扩散概率模型
NIPS 2021 的论文 ‘Denoising diffusion probabilistic models’ 中对扩散概率模型进行了改进提出了 DDPM
使用固定的方差回归均值用和噪声表示通过均值预测网络重参数化将关于均值的差改写为噪声预测网络与噪声的差将目标函数改写为噪声预测的方式对高斯噪声进行回归预测对扩散模型的架构也进行了相应的改进使用 U-Net 形式的架构引入了跳跃连接更适合于像素级别的预测任务
DDPM Forward Process DDPM 使用一系列的噪声系数 β1\beta_1β1、β2\beta_2β2 … βT\beta_TβT 作为不同时刻的 Markov trasition kernel。 一般都使用常数、线性规则、cosine 规则 来选择噪声系数而且 [68] 中也证明了不同的噪声系数在实验中也没有明显的影响 DDPM 的前向过程定义如下 根据从 x0x_0x0 到 xTx_TxT 的扩散步骤 Forward Diffusion Process 如下
DDPM Reverse Process 逆向过程使用可学习的 Gaussian trasition 参数 θ\thetaθ 来定义如下 逐步从 xTx_TxT 复原到 x0x_0x0 的过程如下假设过程为 p(xT)N(xT;0,I)p(x_T) N(x_T;\ 0, I)p(xT)N(xT; 0,I) 所以pθ(x0)∫pθ(x0:T)dx1:Tp_{\theta}(x_0)\int p_{\theta}(x_{0:T})dx_{1:T}pθ(x0)∫pθ(x0:T)dx1:T 的分布就是 x~0\widetilde{x}_0x0 的分布
Diffusion Training Objective为了最小化 negative log-likelihood (NLL)则最小化问题转换为 LTL_TLTprior lossL0L_0L0reconstruction lossL1T−1L_{1T-1}L1T−1consistent loss
下图是 PPDM 的 pipeline 2、Score Matching Formulation
score matching 模型是为了解决原始数据分布的估计问题通过近似数据的梯度 ∇xlogp(x)\nabla_xlogp(x)∇xlogp(x) 来实现这也称为 score。
两个相邻状态的 transition kernel 为 Score matching 过程
score matching 的核心是训练一个得分估计网络 sθ(x,σ)s_{\theta}(x, \sigma)sθ(x,σ) 来预测得分。
DSM 三、可以提升的点
尽管扩散模型目前取得了很好的生成效果到其逐步去噪的过程涉及非常多的迭代步骤故此扩散模型的加速是很重要的研究课题。