Amphion 项目简介
Amphion 是一个开源的音频、音乐和语音生成工具包,其发展目标是支持可重复的研究,帮助初级研究人员和工程师进入音频、音乐和语音生成领域。Amphion 提供了丰富的模型和结构的可视化功能,帮助用户更好地理解这些模型。此外,Amphion 提供一个平台,用于探索如何将各种输入转换为音频。
核心功能
Amphion 支持多个生成任务,包括:
- 文本转语音 (TTS):此功能已被广泛支持,Amphion 提供了包括 FastSpeech2、VITS、VALL-E、NaturalSpeech2、Jets 和 MaskGCT 等多种尖端架构。
- 歌声合成 (SVS) 和 语音转换 (VC):目前正在开发中,目标是实现更精确的语音转换。
- 歌声转换 (SVC) 和 文本转音频 (TTA):已经实现支持,并且使用了包括WeNet、Whisper 和 ContentVec等预训练模型。
- 文本转音乐 (TTM):目前正在开发中,期待在不久的将来提供支持。
除此之外,Amphion 包含了多种 声码器 (vocoders) 和 评估指标。声码器是生成高质量音频信号的重要模块,而评估指标则确保了生成任务的质量一致性。
最新动态
- 2024年10月19日:发布了新的 MaskGCT 模型,这是一个无需显式对齐的全非自回归 TTS 模型。
- 2024年8月28日:欢迎加入 Amphion 的 Discord 频道,与社区互动。
- 2024年7月1日:推出了首个支持多语言的 Emília 数据集,为在野语音数据集成与高质量训练数据注解提供支持。
评估和数据集
Amphion 提供了全面的生成音频的客观评估指标,包括 F0 建模、能量建模、可懂度、声谱失真以及说话人相似性等。
在数据集方面,Amphion 汇集了市面上多个公开数据集的预处理,包括 AudioCaps、LibriTTS、LJSpeech 等。其独有的数据集 Emilia 及其处理管道为在野语音数据的生成提供了全方位支持。
可视化工具
Amphion 提供如 SingVisio 等可视化工具,用于交互式展示经典模型的内部处理机制,帮助用户理解复杂的模型操作。这些工具对教育和研究非常有益。
安装和使用
Amphion 可以通过 Setup Installer 或 Docker Image 进行安装。用户可以选择通过命令行界面或 Docker 进行简单快速的安装,从而开始利用 Amphion 的强大功能。在 Python 中的使用也非常简便,Amphion 提供了详细的任务指引,包括 TTS、SVC 和 TTA 等,用户可以轻松进行实验和研究。
开源与贡献
Amphion 采用 MIT 许可协议,允许用于研究和商业用途。项目团队欢迎各类贡献者的加入,帮助 Amphion 变得更好。详细的贡献指南请参见项目的 CONTRIBUTING.md 文档。