Project Icon

glow-tts

通过单调对齐搜索进行文本转语音的生成流

Glow-TTS,一款创新的文本到语音转换模型,独立完成文本与语音的单调对齐搜索,无需外部辅助。此模型不仅大幅提升合成速度,还支持多样性与可控性,并可适应多说话人环境。更新项包括采用新技术降低噪声并优化发音,使其在速度和音质上优于传统模型。

Glow-TTS 项目介绍

项目背景

Glow-TTS 是一个旨在提升文本转语音(TTS)技术的新项目。当前的 TTS 技术如 FastSpeech 和 ParaNet,能够并行生成 mel 频谱,但在训练时通常需要依赖自回归模型提供的外部对齐。这给模型的训练增加了复杂性和时间成本。为解决这个问题,研究团队提出了不依赖外部对齐的 Glow-TTS 模型。

Glow-TTS 的创新

Glow-TTS 是一种基于流(flow-based)的生成模型,结合了流(flow)和动态规划的特点。该模型通过自身的能力,进行文本与语音潜在表示的单调对齐。通过这种方法,Glow-TTS 实现了以下几个创新:

  1. 无需外部对齐器:模型能够自主搜索文本与语音之间的最可能的单调对齐路径,无需依赖额外的对齐工具。

  2. 快速高效:相较于经典的自回归模型 Tacotron 2,Glow-TTS 在语音合成速度上实现了数量级的提升,而语音质量保持相当。

  3. 支持长语句生成:对单调对齐方式的加强,使得模型在生成长句子时表现稳定优异。

  4. 多样性和可控性:运用生成流(generative flows)使得生成的语音不仅快速,还具有可控性和多样性。

项目成果

Glow-TTS 不仅在合成速度和音质上具有优势,模型还可以扩展到多说话人场景。用户可以在项目的在线演示页面听到模型生成的音频示例。此外,团队还提供了一个预训练模型以供下载和使用。

最新更新

尽管在最初的论文中未提及,最近的更新包含两项改进:

  1. 使用 HiFi-GAN 作为声码器来减少噪音。

  2. 在每两个输入标记之间插入空白标记,提升发音质量。

这些调整通过优化声码器和输入序列,提高了语音质量。更多细节及实例请参考项目的更新说明。

使用环境与前置条件

  • 环境要求:Glow-TTS 需要以下软件环境:

    • Python 3.6.9
    • PyTorch 1.2.0
    • Cython 0.29.12
    • Librosa 0.7.1
    • Numpy 1.16.4
    • Scipy 1.3.0
  • 混合精度训练:使用 apex 提升训练性能。

  • 数据集准备:需要下载并解压 LJ Speech 数据集并进行相应的文件链接和子模块的初始化。

训练与推理示例

示例代码和配置文件已经在项目中提供,可通过简单指令进行训练和推理:

  • 训练命令:sh train_ddi.sh configs/base.json base
  • 推理文件:inference.ipynb

鸣谢

Glow-TTS 的实现借鉴了诸多开源项目的成果,包括 WaveGlowTensor2TensorMellotron

通过这些合作者和项目的启发,Glow-TTS 为文本转语音技术带来了新的可能性,期待更多用户体验和反馈。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号