英文模板网站,太原在线制作网站,企业网站未来发展趋势,十大国际展览公司GPT-SoVITS 是由社区开发者联合打造的开源语音生成框架#xff0c;其创新性地融合了GPT语言模型与SoVITS#xff08;Singing Voice Inference and Timbre Synthesis#xff09;语音合成技术#xff0c;实现了仅需5秒语音样本即可生成高保真目标音色的突破。该项目凭借其开箱…GPT-SoVITS 是由社区开发者联合打造的开源语音生成框架其创新性地融合了GPT语言模型与SoVITSSinging Voice Inference and Timbre Synthesis语音合成技术实现了仅需5秒语音样本即可生成高保真目标音色的突破。该项目凭借其开箱即用的特性已成为AIGC语音领域的热门工具。
功能 零样本文本到语音TTS 输入 5 秒的声音样本即刻体验文本到语音转换。 少样本 TTS 仅需 1 分钟的训练数据即可微调模型提升声音相似度和真实感。 跨语言支持 支持与训练数据集不同语言的推理目前支持英语、日语、韩语、粤语和中文。 WebUI 工具 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注协助初学者创建训练数据集和 GPT/SoVITS 模型。
GPT-SoVITS-V3 win整合包下载:
https://pan.quark.cn/s/f3d782bea7ee
GPT-SoVITS-V3新增特点 训练集增加至7k小时 (MOS分音质过滤、标点停顿校验) s2结构变更为shortcut Conditional Flow Matching Diffusion Transformers (shortcut-CFM-DiT)。由于s2占整体延时比例太低s2变复杂对于整体耗时影响不大。【说人话就是s2变复杂了但训练轮数变少了整体训练时长不变】s2原理的变更基于参考音频扩散补全导致音色相似度大幅提升。由于没用端到端合成使用了开源的24k的BigVGANv2参数从mel谱得到波形。 s1结构不变更新了一版参数
语种主持可跨语种合成GPT训练集时长SoVITS训练集时长推理速度参数量文本前端功能V12024年1月发布中日英2k小时2k小时baseline90M77MbaselinebaselineV22024年8月更新中日英韩粤2.5k小时vq encoder2k小时剩余5k小时翻倍90M77M中日英逻辑均有增强新增语速调节无参考文本模式更好的混合语种切分音色混合V32025年2月更新中日英韩粤7k小时vq encoder2k小时剩余7k小时约等于v2330M77M不变大幅增加zero shot相似度情绪表达、微调性能提升
⚠️在开始之前你必须同意并遵循使用规约在任何音视频网站发布基于 GPT-SoVITS 项目或本整合包制作的作品时需要对GPT-SOVITS工具进行署名否则违反开源协议。