StableTTS: 下一代融合流匹配和 DiT 的文本转语音模型

StableTTS: 开源文本转语音技术的新篇章

在人工智能和语音合成技术飞速发展的今天，一个名为 StableTTS 的项目正在为文本转语音（Text-to-Speech，TTS）领域带来新的突破。这个由 GitHub 用户 KdaiP 开发的开源项目，融合了流匹配（flow-matching）和扩散变换器（Diffusion Transformer，DiT）技术，为中英文语音生成提供了一个快速、轻量且高效的解决方案。

🌟 StableTTS 的特色与创新

StableTTS 作为首个尝试结合流匹配和 DiT 的开源 TTS 模型，其创新性令人瞩目。这个灵感来源于 Stable Diffusion 3 的项目，仅用 10M 的参数就能实现出色的中英文语音生成效果。以下是 StableTTS 的几个关键特点：

轻量级设计：仅需 10M 参数，大大减少了模型的复杂度和计算资源需求。
多语言支持：目前支持中文和英文，未来计划扩展到日语等更多语言。
开源友好：完整的代码库和详细的文档使得研究者和开发者可以轻松上手和二次开发。
高效训练：提供了预训练模型和详细的训练指南，方便用户进行微调和定制。

💻 模型架构与技术细节

StableTTS 的核心架构融合了多项先进技术，以下是其主要组成部分：

StableTTS 模型结构图

扩散卷积变换器块：借鉴自 Hierspeech++，结合了原始 DiT 和 FFT（来自 FastSpeech 的前馈变换器）以提升韵律表现。
流匹配解码器：在 DiT 块之前添加了 FiLM 层，用于将时间步嵌入条件化到模型中。同时，在 DiT 之前还增加了三个 ConvNeXt 块，这有助于模型的收敛和提高音质。
参考编码器：用于捕捉说话人身份，使得模型在多说话人合成和训练中无需特定的说话人 ID。

🚀 使用与部署

StableTTS 提供了多种使用方式，满足不同用户的需求：

Hugging Face 演示：提供了中文版和英文版的在线演示，让用户可以直接体验模型效果。
预训练模型：开发者提供了多个预训练模型，包括用于英文和中文的文本到梅尔频谱图模型，以及用于梅尔频谱图到波形转换的 Vocos 模型。这些模型可以从 Hugging Face 下载。
本地安装与推理：
- 首先需要按照 PyTorch 官方指南安装 PyTorch 和 torchaudio。
- 然后通过 pip install -r requirements.txt 安装所需依赖。
- 详细的推理指南可以在项目的 inference.ipynb 文件中找到。
- 项目还提供了基于 Gradio 的 WebUI，可以通过 webui.py 文件启动。
模型训练：
- 数据准备：生成文本和音频对的文件列表，并使用 preprocess.py 进行预处理。
- 配置调整：在 config.py 中修改 TrainConfig 以设置文件列表路径和训练参数。
- 开始训练：运行 train.py 启动模型训练过程。