热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#文本转音频生成
tango - 利用扩散模型和大语言模型实现先进的文本到音频生成
Tango
文本转音频生成
潜在扩散模型
人工智能
音频生成
Github
开源项目
Tango是一个创新的文本到音频生成模型,结合了潜在扩散模型和大语言模型技术。该模型使用冻结的Flan-T5作为文本编码器,训练UNet扩散模型生成音频。尽管训练数据集较小,Tango的性能仍可媲美最先进模型。Tango 2版本通过在Audio-alpaca数据集上的DPO对齐训练进一步提升了生成质量。项目开源了模型代码和预训练权重,为音频生成研究提供了有价值的资源。
1
1
相关文章
Tango: 革命性的文本到音频生成技术
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号