TensorVox - 用 C++ 编写的神经语音合成桌面应用程序

TensorVox 项目介绍

TensorVox 是一款致力于在桌面环境中提供用户友好且轻量化的神经语音合成应用程序。其目的在于提高人们对该技术的可访问性，使得普通用户也可以轻松地进行语音合成体验。

背景技术

TensorVox 主要由 TensorFlowTTS 驱动，同时也引入了 Coqui-TTS 和 VITS。整个程序是用纯 C++/Qt 编写的，利用 Tensorflow 的 C API 来与 Tensorflow 模型交互（前两个模型），并使用 LibTorch 处理 PyTorch 模型。因此，用户不需要安装大型的 Python 库，只需几个简单的 DLL 文件即可进行推断。

软件功能与特性

TensorVox 支持从多个代码库中导入模型：

TensorFlowTTS 支持的模型有 FastSpeech2、Tacotron2（基于字符和音素）及 Multi-Band MelGAN。
Coqui-TTS 支持 Tacotron2（基于音素的 IPA）和 Multi-Band MelGAN，需将其从 PyTorch 转换为 Tensorflow。
jaywalnut310/VITS 支持 VITS，这是一个端到端的模型。

这些模型示范提供了足够的指导，以便用户了解所需的步骤。对于希望专门为此目的训练模型的用户，推荐使用支持最好的 TensorFlowTTS 与实现最接近完美的 VITS。