#文本转音频生成

Tango: 革命性的文本到音频生成技术

3 个月前

Tango 文本转音频生成潜在扩散模型人工智能音频生成 Github 开源项目

3 个月前

相关项目

tango

Tango是一个创新的文本到音频生成模型,结合了潜在扩散模型和大语言模型技术。该模型使用冻结的Flan-T5作为文本编码器,训练UNet扩散模型生成音频。尽管训练数据集较小,Tango的性能仍可媲美最先进模型。Tango 2版本通过在Audio-alpaca数据集上的DPO对齐训练进一步提升了生成质量。项目开源了模型代码和预训练权重,为音频生成研究提供了有价值的资源。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com