能自己在家做网站吗,购物软件有哪些,小程序商店制作教程,京东上怎样做网站本文介绍了一种名为“Embarrassingly Easy Text-to-Speech#xff08;E2 TTS#xff09;”的文本转语音系统。
该系统通过将输入文本转换为填充标记字符序列#xff0c;并基于音频填充值任务训练流匹配基mel频谱生成器#xff0c;实现了人类水平的自然度和最先进的说话人相…
本文介绍了一种名为“Embarrassingly Easy Text-to-SpeechE2 TTS”的文本转语音系统。
该系统通过将输入文本转换为填充标记字符序列并基于音频填充值任务训练流匹配基mel频谱生成器实现了人类水平的自然度和最先进的说话人相似性和可理解性。
与许多先前的工作不同它不需要额外组件或复杂技术的支持。尽管简单但E2 TTS在零样本TTS能力方面取得了与先前工作相当甚至超越的效果包括Voicebox和NaturalSpeech 3。
此外E2 TTS的简单性也允许灵活地表示输入。本文还提出了几种E2 TTS变体以提高推理时的可用性。
地址https://arxiv.org/pdf/2406.18009
代码https://aka.ms/e2tts/
方法改进
相较于传统的语音合成方法E2 TTS 的改进主要体现在以下两个方面
使用字符序列替代音素序列E2 TTS 将音素序列替换为字符序列避免了需要进行音素转写、音素对齐和音素时长模型等额外处理的需求。
增加了两个扩展功能第一个扩展功能E2 TTS X1消除了在推理中对音频提示进行转录的需求第二个扩展功能E2 TTS X2允许用户在句子中的特定单词上明确指定发音。 解决的问题
E2 TTS 主要解决了以下几个问题
零样本语音合成传统的语音合成方法通常需要大量的样本数据进行训练而 E2 TTS 可以在没有样本数据的情况下进行语音合成。
简化模型结构E2 TTS 通过使用字符序列替代音素序列简化了模型结构减少了额外的处理需求。
支持新的单词发音E2 TTS X2 扩展功能允许用户在句子中的特定单词上明确指定发音从而满足个性化需求。
论文实验
E2 TTS模型使用了Transformer架构和U-Net风格的skip连接具有出色的零样本语音合成能力。
实验数据和模型配置。
实验数据来源于Libriheavy和LibriSpeech-PC等数据集包括50,000小时的英语语音和200,000小时的额外数据。模型采用了Transformer架构其中包括24层、16个注意力头、1024维嵌入维度、4096维线性层维度和0.1的dropout率。该模型用于将log mel滤波器组特征转换为波形使用的BigVGAN-vocoder模型在测试中表现良好。
评估数据和指标。
评估数据来源于LibriSpeech-PC数据集包括1,132个音频样本和39个演讲者。评估指标包括单词错误率WER和相似度评分SIM-o。此外还进行了客观和主观评估分别通过计算平均值来得出结果。
实验结果和分析。
作者对四种模型进行了比较包括Voicebox、VALL-E和NaturalSpeech 3。结果显示E2 TTS模型在所有方面都优于这些基准模型包括更好的WER、更高的自然度和更好的说话人相似度。此外E2 TTS还可以扩展到不同的应用场景例如不需要音频转录和指定新术语的发音。最后作者还分析了E2 TTS模型的行为包括训练进度、音频提示长度和改变语速的影响