当前位置：首页 > news >正文

建设网站的那个公司好汕头网站搭建

news 2026/4/28 1:41:57

建设网站的那个公司好,汕头网站搭建,经典网站设计风格,绍兴做网站哪家好在上期文章#xff0c;我们开始探讨生成式 AI#xff08;Generative AI#xff09;的另一个进步迅速的领域#xff1a;文生图#xff08;Text-to-Image#xff09;领域。概述了 CLIP、OpenCLIP、扩散模型、DALL-E-2 模型、Stable Diffusion 模型等文生图#xff08;Text…在上期文章我们开始探讨生成式 AIGenerative AI的另一个进步迅速的领域文生图Text-to-Image领域。概述了 CLIP、OpenCLIP、扩散模型、DALL-E-2 模型、Stable Diffusion 模型等文生图Text-to-Image的基本内容。亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术观点和项目并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏看到这里请一定不要匆匆划过点这里让它成为你的技术宝库本期内容将进行文生图Text-to-Image方向的主要论文解读。变分自编码器 VAE (Variational Auto-Encoder) 论文解读自编码器 (Auto-Encoder) 架构自编码器Auto-Encoder是一种无监督学习的神经网络用于学习输入数据的压缩表示。具体而言可以将其分为两个部分编码器负责将数据压缩为低维表示解码器负责将低维表示恢复为原始数据。 Source:https://towardsdatascience.com/applied-deep-learning-part-3-a... 读到这里可能有读者会问既然解码器只需要输入某些低维向量就能够输出高维的图片数据那我们是否可以把解码器模型直接当做生成模型呢比如在低维空间中随机生成某些向量再送给解码器来生成图片。不这样做的原因是绝大多数随机生成是无意义的噪声由于没有显性的对分布进行建模我们并不知道那些向量能够生成有用的图片我们用来训练的数据集通常是有限的因此只会具有有限响应。而整个低维空间很大如果只在这个空间上随机采样的话恰好采样到能够生成有用图片的概率不高。而 VAE自变分编码器Variational Auto-Encoders就是在 AE 的基础上显性对分布进行建模帮助自编码器成为一个合格甚至优秀的生成模型。降维(Dimensionality Reduction)和潜在空间(latent space) 上一节中我们谈到了一个降维Dimensionality Reduction的概念这个概念在所有生成式 AI 领域都非常重要。在本节中我会做一个通俗的解释。在机器学习中降维是减少描述某些数据的特征数量的过程。这种减少可以通过选择仅保留部分现有特征或提取减少基于旧特征创建的新要素数量来实现在许多需要低维数据的情况下数据可视化、数据存储、大量计算等很有用。首先让我们称编码器为从 “旧特征” 表示形式通过选择或提取生成 “新特征” 表示的过程并对反向过程进行解码。然后降维可以解释为数据压缩其中编码器压缩数据从初始空间到编码空间也称为潜在空间即 latent space而解码器则对其进行解压缩。当然根据初始数据分布、潜在空间维度和编码器定义这种压缩可能会有损失这意味着部分信息在编码过程中会丢失在解码时无法恢复。 Source: https://theaisummer.com/latent-variable-models/?trkcndc-detail 而自编码器Auto-Encoder使用了神经网络来降低维度。自动编码器的总体思路非常简单包括将编码器和解码器设置为神经网络并使用迭代优化过程学习最佳的编码解码方案。因此在每次迭代中我们向自动编码器架构编码器后面是解码器提供一些数据将编码解码后的输出与初始数据进行比较然后通过架构反向传播错误以更新网络的权重。整个自动编码器架构确保了只有信息的主要结构部分才能通过和重建。从总体框架来看考虑的编码器家族 E 由编码器网络架构定义考虑的解码器 D 族由解码器网络架构定义而以最大限度地减少重构误差是通过对这些网络的参数进行梯度下降Gradient Decent来完成的。如下图所示 Source:https://towardsdatascience.com/understanding-variational-auto... 这种自动编码器结构在现实世界中会面临两个主要挑战。首先在没有重建损失的情况下进行重要的降维往往是有代价的潜在空间中缺乏可解释和可利用的结构或者更简单来说缺乏规律性其次在大多数情况下降维的最终目的不仅是减少数据的维度数同时也将数据结构信息的大部分保留在简化表示中。基于这两个原因在现实世界中我们必须根据降维的最终目的仔细控制和调整潜在空间的尺寸和自动编码器定义压缩程度和质量的 “深度”。如下图所示 Source:https://towardsdatascience.com/understanding-variational-auto... 变分自编码器 Variational Auto-Encoder 铺垫完前面的知识基础终于可以来探究 VAE 这篇论文的精华了。 Source: https://arxiv.org/pdf/1312.6114.pdf?trkcndc-detail 到目前为止我们已经讨论了降维问题并介绍了自动编码器这些编码器是可以通过梯度下降进行训练的编码器-解码器架构。现在让我们把内容生成问题的关联起来看看自动编码器在解决这个问题时的局限性然后请变分自编码器Variational Auto-Encoder闪亮登场。关于内容生成和自动编码器的结合我们可能会想到如果潜在空间有足够规则我们是否可以从潜在空间中随机取点解码以获得新的内容如下图所示 Source:https://towardsdatascience.com/understanding-variational-auto... 变分自编码器的定义因此为了能够将自动编码器的解码器用于生成目的我们必须确保潜在空间足够规律。获得这种规律性的一个可能的解决方案是在训练过程中引入明确的正则化。变分自动编码器可以定义为自动编码器其训练经过正则化以避免过度拟合并确保潜在空间具有良好的特性从而实现生成过程。就像标准的自动编码器一样变分自动编码器是一种由编码器和解码器组成的架构经过训练可以最大限度地减少编码解码的数据和初始数据之间的重建错误。但是为了对潜在空间进行一些正则化我们对编码-解码过程进行了细微的修改我们没有将输入编码为单点而是将其编码为潜在空间上的分布。然后按如下方式训练模型输入被编码为在潜在空间上的分布潜在空间中的一个点是从该分布中采样的对采样点进行解码可以计算出重构误差重构误差通过网络反向传播如下图所示 Source:https://towardsdatascience.com/understanding-variational-auto... 实际上选择编码分布为正态分布这样就可以训练编码器返回描述这些高斯分布的均值和协方差矩阵。之所以将输入编码为具有一定方差的分布而不是单点分布是因为它可以非常自然地表达潜在空间正则化。通过这种方式确保了潜在空间的局部正则化和全局正则化方差控制局部正则化均值控制全局正则化。因此训练 VAE 时最小化的损失函数由 “重构项”位于最后一层和 “正则化”位于潜在层组成后者倾向于通过使编码器返回的分布接近标准正态分布来规范潜在空间的组织。该正则化表示为返回分布和标准高斯分布之间的 KL 散度Kulback-Leibler Divergence由于两个高斯分布之间的 KL 散度具有封闭形式可以直接用两个分布的均值和协方差矩阵表示。如下图所示 Source:https://towardsdatascience.com/understanding-variational-auto... 关于 VAE 我个人的理解是VAE 架构的核心是两个 Encoder一个用来计算均值一个用来计算方差这个均值和方差VAE 架构会用神经网络来计算。 VAE 本质上就是在我们常规的自编码器的基础上对 Encoder 的结果在 VAE 中对应着计算均值的网络加上了“高斯噪声”使得结果 Decoder 能够对噪声有鲁棒性而额外的 KL loss目的是让均值为 0方差为 1事实上就是相当于对 Encoder 的一个正则项希望 Encoder 出来的东西均有零均值。另外一个 Encoder对应着计算方差的网络用来动态调节噪声强度。当 Decoder 还没有训练好时重构误差远大于 KL lossKL 是 Kullback-Leibler 的缩写它作为经典函数用来度量概率分布相似度的指标就会适当降低噪声KL loss 增加使得拟合更容易重构误差开始下降反之如果 Decoder 训练得还不错时重构误差小于 KL loss这时噪声就会增加KL loss 减少使得拟合更困难重构误差开始增加推动 Decoder 想办法提高它的生成能力。这个本质在 VAE 的论文中它用了一个精妙的数学公式来做了阐述如下论文截图 Source: https://arxiv.org/pdf/1312.6114.pdf?trkcndc-detail VAE 论文的观点 VAE 这篇论文的主要观点有降维是减少描述某些数据的特征数量的过程要么仅选择初始特征的子集要么将它们合并为减少数量的新要素因此可以将其视为编码过程自动编码器是由编码器和解码器组成的神经网络架构编码器和解码器构成了数据穿越的瓶颈并且经过训练可以在编码-解码过程中丢失最少量的信息通过梯度下降迭代进行训练目的是减少重建错误由于过度拟合自动编码器的潜在空间可能非常不规则潜在空间中的近点可以提供截然不同的解码数据潜在空间的某些点解码后可能会提供毫无意义的内容而且我们无法真正定义一个生成过程该过程仅包括从潜在空间采样一个点并使其通过解码器获得新数据变分自动编码器 (VAE) 是自动编码器它通过使编码器返回潜在空间上的分布而不是单点的分布并在损失函数中添加针对该返回分布的正则化项来解决潜在空间不规则性问题以确保更好地组织潜在空间假设使用简单的底层概率模型来描述我们的数据则可以特别使用变分推理variational inference的统计技术因此被命名为变分自动编码器谨慎地推导出由重构项和正则化项组成的 VAE 的损失函数扩散模型Diffusion Models系列论文解读在扩散模型成为文生图领域的主流模型之前曾经出现过三种类型的生成模型。它们是 GANGenerative Adversarial NetworkVAE (Variational Auto-Encode)基于流的模型Flow-based models 这些模型在生成高质量样本方面都取得过巨大成功但每个样本都有其自身的局限性。众所周知由于其对抗训练性质GAN 模型的训练可能不稳定生成多样性较低VAE 依赖于代理损失Surrogate Loss函数而流模型必须使用专门的架构来构造可逆变换。代理损失Surrogate Loss函数https://baike.baidu.com/item/%E4%BB%A3%E7%90%86%E6%8D%9F%E5%A... 扩散模型Diffusion Models受到非平衡热力学的启发。他们定义了马尔可夫扩散链以缓慢地向数据添加随机噪声然后学会逆向扩散过程从噪声中构造出所需的数据样本。与 VAE 或基于流的模型不同扩散模型是通过固定的过程学习的潜在变量Latent Variable具有高维度与原始数据的维度相同。如下图所示 Source: https://lilianweng.github.io/posts/2021-07-11-diffusion-model... 而扩散模型的重要贡献之一就是在训练的过程中例如 DDPM 的训练过程通过噪声估计模型 ϵθ(xt,t) 来预测真实噪声以最小化估计噪声与真实噪声之间的差距。后面我们会详细阐述这一贡献。扩散模型概述基于扩散生成模型的主要几篇论文其思想都比较相似包括扩散概率模型Sohl-Dickstein 等人2015 年、噪声条件评分网络NCSNYang Ermon2019 年和去噪扩散概率模型DDPMHo 等人2020 年。 Sohl-Dickstein 等人2015 年 https://arxiv.org/abs/1503.03585?trkcndc-detail Yang Ermon2019 年 https://arxiv.org/abs/1907.05600?trkcndc-detail Ho 等人2020 年 https://arxiv.org/abs/2006.11239?trkcndc-detail 1. 正向扩散过程 Forward diffusion process 给定从真实数据分布中采样的数据点 x0∼q(x)让我们定义一个正向扩散过程。在该过程中我们在步骤 T 时添加少量的高斯噪声到样本中以产生一系列嘈杂的样本 x1,…,xT, 其步长由方差计划控制数据样本 x0 随着步骤 t 变大逐渐失去其显著特征。当 T→∞ 时xT 等同于各向同性高斯分布。如下图所示 The Markov chain of forward (reverse) diffusion process of generating a sample by slowly adding (removing) noise. (Image source: Ho et al. 2020 with a few additional annotations) 正向扩散和逆扩散过程都是马尔可夫过程唯一的区别就是正向扩散过程里每一个条件概率的高斯分布的均值和方差都是已经确定的依赖于 βt 和 x0 而逆扩散过程里面的均值和方差需要通过神经网络学出来。马尔可夫过程: https://zhuanlan.zhihu.com/p/426290103?trkcndc-detail 上述过程的还有一个不错的特性是可以使用重新参数化技巧Reparameterised trick以封闭形式对任意时间步骤 xt 进行采样如下图所示: Illustration of how the reparameterization trick makes the sampling process trainable.(Image source: Slide 12 in Kingma’s NIPS 2015 workshop talk) 重新参数化技巧也适用于其他类型的分布而不仅仅是高斯分布。在多变量高斯的情况下通过使用如上图描述的重新参数化技巧以及学习分布的均值 μ 和方差 σ 来使模型可训练而随机性在随机变量 ∈~Ν(0,Ι) 中体现。下图就是使用多变量高斯假设的变分自动编码器模型示意图这个变分自动编码器模型我在前一章里曾详细探讨过。 Source: https://lilianweng.github.io/posts/2018-08-12-vae/#reparamete... 正向扩散过程的数学推导过程我就不在这个篇幅里详细展开了有兴趣的同学可以参考以下文章的 “Forward diffusion process” 这个小节的内容 https://lilianweng.github.io/posts/2021-07-11-diffusion-model... 此处仅做小结与标准随机梯度下降SGD的方法相比扩散模型中参考了随机梯度 Langevin 动力学stochastic gradient Langevin dynamics的方法该方法可以在参数更新中注入高斯噪声以避免崩溃为局部最小值。 2. 反向扩散过程 Reverse diffusion process 如果能逆转上述过程并从 q(x(t−1)∣xt) 中取样就能够从高斯噪声输入 xT N(0,I) 中重新创建真实样本。请注意如果 βt 足够小q(x(t−1)∣xt) 也将是高斯分布。但是由于无法轻易估算出 q(x(t−1)∣xt) 因为估算它需要使用整个数据集如下图所示 Image source: Ho et al. 2020 with a few additional annotations 因此需要训练一个模型 ρθ来近似出这些条件概率以运行反向扩散过程下图为 “Sohl-Dickstein et al., 2015” 论文中训练扩散模型以建模二维瑞士轧辊数据的示例。 Sohl-Dickstein et al., 2015 https://arxiv.org/abs/1503.03585?trkcndc-detail Image source: Sohl-Dickstein et al., 2015 第一行显示了从正向轨迹 q(x(0:T)) 开始的时间片段。数据分布从左侧经历高斯扩散在右侧高斯扩散逐渐将其转换为特征协方差高斯分布identity-covariance Gaussian。中间一行显示了经过训练的反向轨迹 ρθ(x0:T) 的相应时间片段。特征协方差高斯分布右通过学到的均值和协方差函数经历高斯扩散过程并逐渐转换还原回原始数据分布左。最后一行显示了相同反向扩散过程的漂移项 μθ(xt,t)—xt 的情况。 3. DDPM 论文和参数化 Lt 如前所述我们需要学习一个神经网络来近似逆向扩散过程中的条件概率分布我们想训练 μθ 来预测由于 xt 在训练时可用作输入因此可以改为重新参数化高斯噪声项使其在时间步骤 t 从输入 xt 中预测 ∈t 后面还可以通过一些数学公式做简化具体的数学推导过程有兴趣的读者可以参考以下文章https://lilianweng.github.io/posts/2021-07-11-diffusion-model... 简化的结果可以参考如下 DDPM 论文 Source: https://arxiv.org/abs/2006.11239?trkcndc-detail The training and sampling algorithms in DDPM (Image source: Ho et al. 2020) 以上简化结果的得出的原因在 DDPM 这篇论文中提到主要是 Ho 等人2020根据经验发现如果使用忽略加权weighting项的简化目标则训练扩散模型效果更好最终的简化公式是其中 C 是一个不依赖于 θ 的常数。 Ho 等人2020: https://arxiv.org/abs/2006.11239?trkcndc-detail 扩散模型的加速采样 Speed up Diffusion Model Sampling 1. DDIM 论文解读通过遵循反向扩散过程的马尔可夫链Markov chain从 DDPM 生成样本非常缓慢因为最多可以是几千步。来自 Song 等人的 2020 年 DDIM 论文中的数据指出“例如从 DDPM 采样 5 万张大小为 32×32 的图像大约需要 20 个小时但从 Nvidia 2080 Ti GPU 上的 GAN 采样不到一分钟。” Song 等人的 2020 年 DDIM 论文: https://arxiv.org/abs/2010.02502?trkcndc-detail Source: https://arxiv.org/pdf/2010.02502.pdf?trkcndc-detail DDIM 具有相同的边际噪声分布但会确定性地将噪声映射回原始数据样本。在生成过程中我们仅对扩散步骤的子集 {τ1,…,τS} 进行采样DDIM 的推理过程变为虽然所有模型在实验中都使用 Τ1000 扩散步长进行训练但他们观察到当 S 较小时 DDIM (η0) 可以产生最优质的样本而 DDPM (η1) 在小 S 上的表现要差得多。当我们有能力运行完全的反向马尔可夫扩散步骤 (SΤ1000) 时DDPM 的表现会更好。而使用 DDIM 之后可以将扩散模型训练到任意数量的前进步数但只能从生成过程中的一部分步骤中采样。DDPM 和 DDIM 在论文中的对比测试结果如下图所示 Source: https://arxiv.org/pdf/2010.02502.pdf?trkcndc-detail DDIM 和 DDPM 的对比小结如下使用更少的步骤生成更高质量的样本因为生成过程确定意味着以同一个潜在变量为条件的多个样本具有相似的高级特征由于一致性DDIM 可在潜在变量中进行有意义的语义插值meaningful interpolation 2. LDM 论文解读另一篇重要论文是潜在扩散模型LDM: Rombach Blattmann 等人2022的论文如下图所示该论文提出在潜在空间而不是像素空间中运行扩散过程从而降低训练成本加快推理速度。 LDM: Rombach Blattmann 等人2022 https://arxiv.org/abs/2112.10752?trkcndc-detail Source: https://arxiv.org/pdf/2112.10752.pdf?trkcndc-detail 论文动机是观察到图像的大部分都是感知细节而语义和概念构图在积极压缩后仍然存在。LDM 通过生成建模学习松散地分解感知压缩和语义压缩方法是首先使用自动编码器削减像素级冗余然后在学习的潜在上使用扩散过程操作/生成语义概念。说明感知和语义压缩illustrating perceptual and semantic compression 数字图像的大多数部分对应于难以察觉的细节。尽管扩散模型已经通过最大限度地减少损失项来抑制这些在语义上毫无意义的信息但仍需要在所有像素上评估梯度训练期间和神经网络主干训练和推断这会导致多余的计算和不必要的昂贵的优化和推断。因此DDIM 论文建议将潜在扩散模型 (LDM) 作为有效的生成模型并采用单独的轻度压缩阶段。 DDIM 感知压缩过程依赖于自动编码器模型。编码器用于将输入图像 x∈RH×W×3 压缩为较小的 2D 潜在矢量 zε(x)∈Rh×w×c其中向下采样率 fH/hW/w2m,m∈N然后解码器 D 从潜在矢量 x ̃D(z) 中重建图像。扩散和去噪过程发生在潜在向量 Z 上。去噪模型是一种时效条件下的 U-Net增强了交叉注意力机制用于处理图像生成的灵活条件信息例如类别标签、语义地图、图像的模糊变体。该设计等同于通过交叉注意力机制将不同模态的表示融合到模型中。每种类型的调理信息都与特定领域编码器 τθ 配对用于将调理输入 y 投影为中间表示形式该中间表示形式可以映射到交叉注意力分量 τθ(y)∈R(M×dτ ) The architecture of latent diffusion model. (Image source: Rombach Blattmann, et al. 2022) 扩散模型的条件生成 (Conditioned Generation) 在使用 ImageNet 数据集等条件信息的图像上训练生成模型时通常会根据类别标签或一段描述性文本生成样本。 1. 扩散模型的分类器指导(Classifier Guided Diffusion) GLIDE 论文如下图所示阐述了它在扩散模型的分类器指导领域的最新工作。 Source: https://arxiv.org/pdf/2112.10741.pdf?trkcndc-detail 为了将类别信息明确纳入模型扩散过程Dhariwal Nichol (2021) 在噪声图像 xt 上训练了分类器 fϕ(y∣xt,t)并使用梯度 ∇xlog⁡fϕ(y∣xt) 通过改变噪声预测来引导扩散采样过程向条件信息 y例如目标类别标签发展。由此产生的消融扩散模型 (ADM) 和具有额外分类器指导的模型 (ADM-G) 能够获得比 SOTA 生成模型例如 BigGAN更好的结果。 Dhariwal Nichol (2021) https://arxiv.org/abs/2105.05233?trkcndc-detail The algorithms use guidance from a classifier to run conditioned generation with DDPM and DDIM. (Image source: Dhariwal Nichol, 2021]) 2. 扩散模型的无分类指导(Classifier-Free Guidance) 另外GLIDE 论文中还阐述了使用无分类器指导从 GLIDE 中选择样本。从论文提供的样本图像数据中可以观察到GLIDE 模型可以生成带有阴影和反射的逼真图像可以组合多个概念生成新概念的艺术渲染等。 Source: https://arxiv.org/pdf/2112.10741.pdf?trkcndc-detail GLIDE 论文中还详细探讨了指导策略、CLIP 指导和无分类指导发现后者更受欢迎。扩散模型的高分辨率和图像质量 1. CDM 论文论文 “Cascaded Diffusion Models for High Fidelity Image Generation” 建议使用一系列分辨率更高的多个扩散模型。流水线模型之间的噪声调节增强Noise conditioning augmentation对最终图像质量至关重要即对每个超分辨率模型 pθ(x∣z) 的调节输入 z 应用强大的数据增强调节噪声有助于减少管道设置中的复合误差。 Cascaded Diffusion Models for High Fidelity Image Generation https://arxiv.org/abs/2106.15282?trkcndc-detail Source: https://arxiv.org/pdf/2106.15282.pdf?trkcndc-detail 在生成高分辨率图像的扩散建模中U-Net 是模型架构的常见选择。论文里谈到在级联扩散模型Cascaded Diffusion Models的管道中其每个模型都是使用的 U-Net 架构。如下图所示 Source: https://arxiv.org/pdf/2106.15282.pdf?trkcndc-detail 该论文还指出他们发现最有效的噪声是在低分辨率下施加高斯噪声Gaussian noise在高分辨率下施加高斯模糊Gaussian blur。此外他们还探索了两种形式的条件增强需要对训练过程进行少量修改。条件噪声仅适用于训练不适用于推理。 2. UnCLIP 论文在两阶段扩散模型 UnCLIPRamesh et al. 2022论文中其建议利用 CLIP 文本编码器来生成高质量的文本引导图像。 Ramesh et al. 2022 https://arxiv.org/abs/2204.06125?trkcndc-detail Source: https://arxiv.org/abs/2204.06125?trkcndc-detail 给定预训练的 CLIP 模型 c 和扩散模型 (x, y) 的配对训练数据其中 x 是图像y 是相应的标题我们可以分别计算 CLIP 文本和图像的向量表示 Ct(y) 和 Ci(x) 。 UnCLIP 同时学习两个模型先验模型 p(ci∣y)给定文本 y输出 ci 的 CLIP 图像向量表示解码器 p(x∣ci,[y]) 给定 CLIP 图像向量表示 ci 以及原始文本 y可选输出图像 x。这两个模型支持条件生成因为: The architecture of unCLIP. (Image source: Ramesh et al. 2022) 3. Imagen 论文而 Imagen 的论文 Imagen (Saharia et al. 2022) 却未使用 CLIP 模型而是使用预先训练的大型 LM冻结的 T5-XXL 文本编码器对文本进行编码以生成图像。 Saharia et al. 2022 https://arxiv.org/abs/2205.11487?trkcndc-detail Source: https://arxiv.org/pdf/2205.11487.pdf?trkcndc-detail 普遍的趋势是较大的模型尺寸可以带来更好的图像质量和文本图像对齐方式。该论文研究团队发现 T5-XXL 和 CLIP 文本编码器在 MS-COCO 上实现了相似的性能。 Source: https://arxiv.org/pdf/2205.11487.pdf?trkcndc-detail Imagen 修改了 U-net 中的多项设计以使其高效 U-Net。例如通过为较低的分辨率添加更多的残差锁residual locks将模型参数从高分辨率模块转移到低分辨率模块扩大 skip connections 的规模到 1/√2 倍调转向下采样在卷积之前移动和向上采样操作卷积后移动的顺序以提高向前传递的速度该论文团队的经验总结包括噪声调节增强、动态阈值和高效的 U-Net 对图像质量至关重要缩放文本编码器大小比 U-Net 大小更重要小结本期我们开始探讨了文生图Text-to-Image方向的主要论文解读包括VAE、DDPM、DDIM、GLIDE、Imagen、UnCLIP、CDM、LDM 等主要扩散模型领域的发展状况。由我们的分析可知扩散模型的主要优点和缺点如下优点可追溯性和灵活性是生成建模中两个相互矛盾的目标。可处理的模型可以通过分析进行评估并有效地拟合数据例如通过高斯或拉普拉斯但它们无法轻松描述丰富数据集中的结构。灵活的模型可以拟合数据中的任意结构但是从这些模型中进行评估、训练或采样通常很昂贵。而扩散模型则可以在分析上既可实现可追溯性又不失灵活性缺点扩散模型依赖于长链的马尔可夫扩散步骤来生成样本因此在时间和计算方面可能较昂贵。虽然目前已经出现一些使过程加速的新方法但采样速度仍然比 GAN 慢。下期我们将进入动手实践环节我会带领大家使用亚马逊云科技的 SageMaker 等服务在云中体验构建文生图Text-to-Image领域大模型的应用敬请期待。请持续关注 Build On Cloud 微信公众号了解更多面向开发者的技术分享和云开发动态往期推荐机器学习洞察架构模型最佳实践 GitOps 最佳实践文章来源https://dev.amazoncloud.cn/column/article/64702f06182e6e537ca4bd7c7?sc_mediumregulartrafficsc_campaigncrossplatformsc_channelCSDN

查看全文

http://www.hkea.cn/news/14442228/