Project Icon

Comprehensive-Transformer-TTS

基于非自回归 Transformer 的 TTS

该项目采用非自回归Transformer技术,集成多种最新状态转换模型。Comprehensive-Transformer-TTS不仅提供监督与非监督持续时间建模, 也支持多种数据集和SOTA技术,如Fastformer和Long-Short Transformer,力求在文本到语音转换领域取得领先成果。

Comprehensive-Transformer-TTS 项目介绍

Comprehensive-Transformer-TTS 是一个基于非自回归变压器的文本到语音(TTS)转换项目,支持一系列先进的变压器技术,并包含有监督和无监督的时长建模。这个项目随着研究社区的壮大不断发展,致力于实现终极的 TTS 技术,并欢迎对打造最佳非自回归 TTS 的建议和讨论。

变压器技术

该项目整合了多种先进的变压器模型:

  • Fastformer:提供了加性注意力机制的变压器技术。
  • Long-Short Transformer:用于高效处理语言和视觉任务的变压器。
  • Conformer:结合卷积增强的变压器,应用于语音识别。
  • Reformer:高效变压器技术。
  • Transformer:经典的“Attention Is All You Need”变压器模型。

韵律建模

音频的韵律部分也在开发中,包含以下模型:

  • DelightfulTTS:微软在 2021 年 Blizzard 挑战中的语音合成系统。
  • Rich Prosody Diversity Modelling:通过电话级混合密度网络实现丰富的韵律多样性建模。

时长建模

有监督时长建模

  • FastSpeech 2:快速且高质量的端到端文本到语音模型。

无监督时长建模

  • One TTS Alignment To Rule Them All:通过这一模型,我们解放了对外部对齐器(如 MFA)的依赖,且在一些实例中表现良好。

性能比较

针对 LJSpeech 数据集,项目评估了多种变压器在单个 TITAN RTX 24G 卡下的性能,结果举例如下:

  • Fastformer 的内存使用约为 10531MiB,训练 1000 步的时间约为 4 分 25 秒。
  • Transformer_fs2 的内存使用为 11571MiB,训练同样步数用时 4 分 53 秒。

项目快速入门

项目支持 LJSpeechVCTK 数据集,并支持单说话人和多说话人 TTS。系统还提供了对音高、音量和语速的可控性,例如,可以通过参数调整语速提高 20%,音量降低 20%。

数据集与训练

项目训练步骤如下:

  1. 数据采集:支持的数据集包括 LJSpeech 和 VCTK,可以按照示例添加单说话人或多说话人数据集。
  2. 数据预处理:准备齐全的对齐工作后,运行预处理脚本。
  3. 模型训练:使用预处理好的数据集进行模型训练,并支持自动混合精度和多GPU。

可视化与分析

通过 TensorBoard,用户可以查看训练过程中的损失曲线、合成的梅尔频谱图,以及音频文件,这使得项目的开发和改进更加直观。

更新日志

项目保持更新,最近一次版本更新包括代码基和预训练模型的修复,并增加了一些示例,便于大家体验和使用。

综上所述,Comprehensive-Transformer-TTS 是一个强大而灵活的 TTS 系统,旨在集成众多最新的变压器技术并优化文本到语音的转换效果。这一项目通过不断改进和社区合作,致力于在语音合成领域实现新的突破。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号