Parler-TTS Large v1项目介绍
Parler-TTS Large v1是一个强大的文本转语音(TTS)模型,旨在生成高质量、自然的语音。该模型具有以下几个突出特点:
模型规模与训练数据
- 模型参数量达到22亿,属于大型TTS模型
- 训练数据量高达45,000小时的音频数据,保证了模型的性能
核心功能
- 能够通过简单的文本提示来控制生成语音的多个特征,包括:
- 性别
- 背景噪音
- 说话速度
- 音高
- 混响效果
使用方法
使用Parler-TTS Large v1非常简单:
- 首先通过pip安装所需库
- 加载预训练模型和分词器
- 准备文本提示和描述
- 使用模型生成语音
- 将生成的音频保存为WAV文件
语音特征控制
用户可以通过两种方式控制生成语音的特征:
- 随机语音生成:通过文本描述控制语音特征
- 特定说话人生成:使用34个预定义说话人中的一个,如Jon、Lea等
项目背景
- Parler-TTS项目的第二个发布模型
- 基于Stability AI和爱丁堡大学的研究工作
- 完全开源,包括数据集、预处理、训练代码和模型权重
相关资源
- Parler-TTS GitHub仓库:提供模型训练和微调代码
- Data-Speech仓库:用于标注语音数据集的工具脚本
- Parler-TTS组织:包含标注数据集和未来的模型检查点
许可证
Parler-TTS Large v1采用Apache 2.0许可证,允许用户自由使用和修改。
总的来说,Parler-TTS Large v1是一个功能强大、易于使用且完全开源的TTS模型,为研究人员和开发者提供了宝贵的语音合成资源。