当前位置: 首页 > news >正文

网站建设开发管理 总结榆树网站建设

网站建设开发管理 总结,榆树网站建设,网站建设有证书吗,网站开发学什么好DIFFWAVE: A VERSATILE DIFFUSION MODEL FOR AUDIO SYNTHESIS Zhifeng Kong, Computer Science and Engineering, UCSD, ICLR2021, Code, Paper 1. 前言 在这项工作中#xff0c;我们提出了DiffWave#xff0c;这是一种用于条件和无条件波形生成的多功能扩散概率模型。该模…DIFFWAVE: A VERSATILE DIFFUSION MODEL FOR AUDIO SYNTHESIS Zhifeng Kong, Computer Science and Engineering, UCSD, ICLR2021, Code, Paper 1. 前言 在这项工作中我们提出了DiffWave这是一种用于条件和无条件波形生成的多功能扩散概率模型。该模型是非自回归的通过具有合成过程中恒定步数的马尔可夫链将白噪声信号转换为结构化波形。通过在数据似然上优化一种变体的变分下界该模型能够高效训练。DiffWave在不同的波形生成任务中产生高保真音频包括基于梅尔频谱图的神经声码化、类别条件生成和无条件生成。我们证明DiffWave在语音质量方面与强大的WaveNet声码器相匹配MOS4.44对比4.43同时合成速度更快数个数量级。特别是在具有挑战性的无条件生成任务中它在音频质量和从各种自动和人工评估中得到的样本多样性方面明显优于自回归和基于GAN的波形模型。 2. 整体思想 扩散模型的U-Net换为1维的网络其他基本一致 3. 方法 大多数先前的波形模型侧重于具有信息性局部条件的音频合成例如梅尔频谱图或对齐的语言特征只有少数例外用于无条件生成。已经注意到自回归模型在无条件设置下往往会生成虚构的类似词汇的声音或者在无条件情况下生成较差的样本。这是因为需要生成非常长的序列例如一个秒的语音需要生成16,000个时间步而没有任何条件信息。 扩散概率模型简称扩散模型是一类有前途的生成模型它使用马尔可夫链逐渐将一个简单分布例如各向同性高斯分布转化为复杂的数据分布。尽管数据似然性难以计算但扩散模型可以通过优化变分下界来高效地进行训练。最近在图像合成中已经展示了一种特定的参数化方式取得了成功该方式与去噪分数匹配有关。扩散模型可以利用扩散加噪过程而无需可学习参数从训练数据中获得“白化”的潜在表示。因此与其他模型相比训练过程中不需要额外的神经网络。这避免了由于两个网络的联合训练而产生的“后验崩溃”或“模式崩溃”问题因此对于高保真度的音频合成非常有价值。 在这项工作中我们提出了DiffWave一种用于原始音频合成的多功能扩散概率模型。DiffWave相比先前的工作具有几个优势i) 它是非自回归的因此可以并行合成高维波形。ii) 它是灵活的因为与需要保持潜在表示与数据之间双射关系的流模型不同它不强加任何架构约束。这导致了仍然能够生成高保真语音的小型神经声码器。iii) 它使用基于单一ELBO的训练目标无需任何辅助损失例如基于频谱图的损失进行高保真度的合成。iv) 它是一个多功能模型可为有条件和无条件波形生成产生高质量的音频信号。具体而言我们做出了以下贡献 DiffWave采用了受WaveNet启发的前馈和双向扩张卷积架构。它在语音质量方面与强大的WaveNet声码器相匹配同时合成速度更快因为它仅需要进行少量的顺序步骤即可生成非常长的波形。 我们的小型DiffWave具有2.64M参数并在V100 GPU上以超过5倍于实时的速度合成22.05 kHz的高保真语音而无需经过专门设计的内核。虽然它的速度仍然比最先进的基于流的模型慢但它的占用空间更小。我们期望通过在未来优化其推理机制来进一步提高速度。 在具有挑战性的无条件和类条件波形生成任务中DiffWave在音频质量和多样性方面显著优于WaveGAN和WaveNet这是通过多个自动和人工评估进行衡量的。 网络结构如图。输入一维输出一维算法流程如下其实和DDPM一样的 局部条件器在语音合成中神经声码器可以在对齐的语言特征、从文本到频谱图模型得到的梅尔频谱图或文本到波形架构中的隐藏状态的条件下合成波形。在这项工作中**我们将DiffWave作为一个神经声码器以梅尔频谱图为条件进行测试。我们首先通过转置的2D卷积将梅尔频谱图上采样到与波形相同的长度。在将其梅尔频谱图映射为2C通道的每个层特定的Conv1×1之后条件器作为偏差项添加到每个残差层的扩张卷积中。超参数可以在第5.1节中找到。 全局条件器在许多生成任务中条件信息是由全局离散标签例如说话者ID或单词ID给出的。在所有实验中我们使用维度为128的共享嵌入。在每个残差层中我们应用层特定的Conv1×1将dlabel映射到2C通道并在每个残差层的扩张卷积后将嵌入作为偏差项添加。
http://www.hkea.cn/news/14534341/

相关文章:

  • 如何增加网站pr值游戏开发与网站开发就业情况
  • 宁波建设网站报价免费做公司手机网站
  • 网站建设案例教程公司网站维护流程
  • 快速学制作网站宜宾网站制作
  • app应用网站html5模板下载网站title是什么
  • 太原网站建设解决方案网站的设计特点有哪些
  • 自学网站建设推荐赤峰市建设局网站
  • wordpress建站ftp手机页面网站模板怎么卖
  • 什么网站做ppt赚钱网站建设与管理结课论文
  • 企业网站建设空间做网站遇到的问题及解决方法
  • 许昌网站建设江苏省网站建设与管理历年自考试题
  • 坡头网站开发公司wordpress注册添加算术验证码
  • 做跟单员的话应该关注哪些网站中国建设银行报网站
  • 个人注册网站一般做什么彬县网招聘
  • 学会计算机编程可以做网站吗wordpress输入xml
  • wordpress免费网站seo外链优化
  • 北京平台网站建设教做衣服的网站
  • 济宁官方网站如果做镜像网站
  • 东平县建设局信息网站网站未授权cas要怎么做
  • 网站查询服务器建立网站找什么公司
  • 手机网站建设外包企业logo标志设计免费
  • 国外做的不错的网站ui中国网站
  • 上传网站步骤室内设计网站国外
  • 可以做分销的淘客网站淘宝指数查询官网
  • 徐州建设网站公司广州注册公司费用
  • 网站开发程序用什么好中国第八冶金建设公司网站
  • 东光有做网站的吗常见的网站类型
  • 成华区网站开发网站推广方案范例
  • 制作一份网站建设的简要任务执行书码制作官网
  • 天津宁河区建设网站网站开发电子书