项目介绍:Voice Builder
背景信息
Voice Builder 是一个开源的文本到语音(TTS)语音生成工具,专注于简便性、灵活性和协作性。尽管它不是 Google 官方的产品,但为全球用户提供了进行语音训练实验并收听合成语音的能力,即便用户只有基本的计算机知识。
项目目标
Voice Builder 旨在降低创建新语音的门槛,并加速 TTS 研究进程。这一工具尤其在对于资源匮乏的语言进行研究时,能够通过更高效的实验和跨学科的合作,最大程度地利用有限的数据资源。
安装步骤
前置条件
安装和配置 Voice Builder 之前,需要完成以下步骤:
- 在 Google Cloud Platform (GCP) 上创建项目。
- 启用账单功能并请求更多配额。
- 安装 Docker。
- 在 firebase.com 上导入项目。
- 安装 Cloud SDK 以获取 gcloud 命令行工具。
- 安装 Node.js。
- 安装 firebase 命令行工具。
- 启用 GCP 服务,如 Appengine API、Firebase Cloud Function 和 Genomics Pipeline API。使用这个链接 可一次性启用这些服务。
部署步骤
在完成前置条件后,可以按照以下步骤进行部署:
-
克隆该项目:
git clone https://github.com/google/voice-builder.git && cd voice-builder
-
登录 gcloud 和 firebase 账户:
gcloud auth login firebase login --no-localhost
-
编辑
deploy.sh
文件,设置项目名称、项目 ID 和 GCP 服务账户 email。 -
创建用于储存每个任务数据的 GCS 存储桶:
./deploy.sh initial_setup
-
部署云功能组件:
./deploy.sh cloud_functions
-
部署 UI 组件,并通过 EXTERNAL_IP 访问:
./deploy.sh ui create
创建示例语音
在初始化设置完成后,用户可以通过提供的 TTS 引擎(例如 Festival 和 Merlin)创建示例语音。用户可在创建界面选择不同的 TTS 引擎和输入数据,进行语音生成测试。
自定义数据导出器(可选)
用户可以为 Voice Builder 添加数据导出器组件,用于在将数据输入 TTS 算法之前进行转换和处理,例如格式转换或数据过滤。
- 获取服务账户并为其设置 GCS 存储桶访问权限。
- 在
config.js
中配置数据导出器 API 的 URL 和 API_KEY 。 - 更新 UI 实例,使其识别新的配置并正确发送语音规格信息至数据导出器。
Voice Builder 规格说明
VoiceBuildingSpecification
是一个用于定义语音规格的 JSON 对象,由 Voice Builder 在用户触发语音生成请求时创建。它提供了包含文件路径、选定 TTS 算法、调优参数等的详细信息,供数据导出器和 TTS 引擎使用。
附加信息
更多信息可以参考 JSON Phonology。