Project Icon

mustango

基于文本的智能音乐生成系统

Mustango是一个多模态大语言模型,专注于可控音乐生成。该模型结合潜在扩散模型、Flan-T5和音乐特征,能够将文本提示转化为高质量音乐。通过MusicBench数据集训练,Mustango在音乐匹配度、和弦匹配和节奏稳定性等方面表现出色。这一开源项目为音乐创作和研究提供了新的可能性。

Mustango:迈向可控的文本到音乐生成

演示 | 模型 | 网站和示例 | 论文 | 数据集

Hugging Face Spaces

认识Mustango,这是多模态大语言模型领域中用于可控音乐生成的激动人心的新成员。Mustango利用潜在扩散模型(LDM)、Flan-T5和音乐特征来实现魔法!

🔥 在ReplicateHuggingFace上提供实时演示。

快速入门指南

从文本提示生成音乐:

import IPython
import soundfile as sf
from mustango import Mustango

model = Mustango("declare-lab/mustango")

prompt = "这是一首新世纪音乐。有一支长笛演奏主旋律,包含大量断音。节奏背景由中速电子鼓点和遍布整个音域的打击乐元素组成。整首曲子有一种俏皮的氛围。这首曲子可以用作儿童电视节目的配乐或广告歌。"

music = model.generate(prompt)
sf.write(f"{prompt}.wav", audio, samplerate=16000)
IPython.display.Audio(data=music, rate=16000)

安装

git clone https://github.com/AMAAI-Lab/mustango
cd mustango
pip install -r requirements.txt
cd diffusers
pip install -e .

数据集

MusicBench数据集包含52k个音乐片段,每个片段都有丰富的音乐专用文本说明。

专家听众主观评估

模型数据集预训练整体匹配度和弦匹配度速度匹配度音频质量音乐性节奏存在感和稳定性和声与协和性
TangoMusicCaps4.352.753.883.352.833.953.84
TangoMusicBench4.913.613.863.883.544.014.34
MustangoMusicBench5.495.764.984.304.284.655.18
MustangoMusicBench5.756.065.114.804.804.755.59

训练

我们使用Hugging Face的accelerate包进行多GPU训练。在终端运行accelerate config,通过回答问题来设置运行配置。

现在你可以使用以下命令在MusicBench数据集上训练Mustango

accelerate launch train.py \
--text_encoder_name="google/flan-t5-large" \
--scheduler_name="stabilityai/stable-diffusion-2-1" \
--unet_model_config="configs/diffusion_model_config_munet.json" \
--model_type Mustango --freeze_text_encoder --uncondition_all --uncondition_single \
--drop_sentences --random_pick_text_column --snr_gamma 5 \

--model_type标志允许选择训练Mustango或Tango,使用相同的代码。但请注意,你还需要将--unet_model_config更改为相关配置:Mustango使用diffusion_model_config_munet;Tango使用diffusion_model_config。

参数--uncondition_all--uncondition_single--drop_sentences控制论文第5.2节中的dropout函数。--random_pick_text_column参数允许在两个输入文本提示之间随机选择 - 对于MusicBench,我们在ChatGPT重新表述的说明和原始增强的MusicCaps提示之间选择,如论文图1所示。

建议在MusicBench上从头开始训练至少40个周期。

模型库

我们发布了以下模型:

Mustango预训练:https://huggingface.co/declare-lab/mustango-pretrained

Mustango:https://huggingface.co/declare-lab/mustango

引用

如果您觉得我们的工作有用,请考虑引用以下文章:

@misc{melechovsky2023mustango,
      title={Mustango: Toward Controllable Text-to-Music Generation}, 
      author={Jan Melechovsky and Zixun Guo and Deepanway Ghosal and Navonil Majumder and Dorien Herremans and Soujanya Poria},
      year={2023},
      eprint={2311.08355},
      archivePrefix={arXiv},
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号