相关项目
makeaudio.app
makeaudio.app是一款AI驱动的文本转语音工具,支持16种语言输入和6种自然音色。可处理10万字符的文本,输出MP3、WAV和FLAC格式音频。该工具便于创建高质量音频内容,适用于播客和有声书制作等多种场景。其多语言支持和灵活输出选项使其成为全面的文本转语音解决方案。
Make-An-Audio
Make-An-Audio是一个开源的文本到音频生成项目,基于条件扩散概率模型。该项目能够从文本等多种模态生成高保真音频,支持文本到音频、音频到音频等多种任务。项目提供了预训练模型和简单的命令行操作,方便用户生成自定义音频。此外,项目还包含了详细的训练和评估流程,以及与其他模型的性能比较。
tango-full
TANGO是一个开源的文本到音频生成工具,基于潜在扩散模型实现。它可根据文本提示生成包括人声、动物声、自然声和人工音效在内的多种逼真音频。TANGO采用Flan-T5作为文本编码器,结合UNet架构的扩散模型进行音频生成,在客观和主观评估中均优于现有技术。该项目提供了完整的模型代码、训练流程和预训练权重,为音频生成研究提供了有力支持。