Amphion

Amphion 项目简介

Amphion 是一个开源的音频、音乐和语音生成工具包，其发展目标是支持可重复的研究，帮助初级研究人员和工程师进入音频、音乐和语音生成领域。Amphion 提供了丰富的模型和结构的可视化功能，帮助用户更好地理解这些模型。此外，Amphion 提供一个平台，用于探索如何将各种输入转换为音频。

核心功能

Amphion 支持多个生成任务，包括：

文本转语音 (TTS)：此功能已被广泛支持，Amphion 提供了包括 FastSpeech2、VITS、VALL-E、NaturalSpeech2、Jets 和 MaskGCT 等多种尖端架构。
歌声合成 (SVS) 和 语音转换 (VC)：目前正在开发中，目标是实现更精确的语音转换。
歌声转换 (SVC) 和 文本转音频 (TTA)：已经实现支持，并且使用了包括WeNet、Whisper 和 ContentVec等预训练模型。
文本转音乐 (TTM)：目前正在开发中，期待在不久的将来提供支持。

除此之外，Amphion 包含了多种 声码器 (vocoders) 和 评估指标。声码器是生成高质量音频信号的重要模块，而评估指标则确保了生成任务的质量一致性。

评估和数据集

Amphion 提供了全面的生成音频的客观评估指标，包括 F0 建模、能量建模、可懂度、声谱失真以及说话人相似性等。

在数据集方面，Amphion 汇集了市面上多个公开数据集的预处理，包括 AudioCaps、LibriTTS、LJSpeech 等。其独有的数据集 Emilia 及其处理管道为在野语音数据的生成提供了全方位支持。

可视化工具

Amphion 提供如 SingVisio 等可视化工具，用于交互式展示经典模型的内部处理机制，帮助用户理解复杂的模型操作。这些工具对教育和研究非常有益。

安装和使用

Amphion 可以通过 Setup Installer 或 Docker Image 进行安装。用户可以选择通过命令行界面或 Docker 进行简单快速的安装，从而开始利用 Amphion 的强大功能。在 Python 中的使用也非常简便，Amphion 提供了详细的任务指引，包括 TTS、SVC 和 TTA 等，用户可以轻松进行实验和研究。