AudioCraft
AudioCraft是一个用于音频生成深度学习研究的PyTorch库。AudioCraft包含两个最先进的AI生成模型的推理和训练代码,这两个模型可以生成高质量音频:AudioGen和MusicGen。
安装
AudioCraft需要Python 3.9和PyTorch 2.1.0。要安装AudioCraft,可以运行以下命令:
# 最好先确保已安装torch,特别是在安装xformers之前。
# 如果已经安装了PyTorch,请勿运行此命令。
python -m pip install 'torch==2.1.0'
# 在尝试安装软件包之前,可能需要运行以下命令
python -m pip install setuptools wheel
# 然后继续执行以下其中一个命令
python -m pip install -U audiocraft # 稳定版本
python -m pip install -U git+https://git@github.com/facebookresearch/audiocraft#egg=audiocraft # 最新版本
python -m pip install -e . # 或者如果您已克隆仓库到本地(如果要训练,则必须这样做)
python -m pip install -e '.[wm]' # 如果您想训练水印模型
我们还建议安装ffmpeg
,可以通过系统或Anaconda安装:
sudo apt-get install ffmpeg
# 或者如果您使用Anaconda或Miniconda
conda install "ffmpeg<5" -c conda-forge
模型
目前,AudioCraft包含以下模型的训练代码和推理代码:
- MusicGen:最先进的可控文本到音乐模型。
- AudioGen:最先进的文本到声音模型。
- EnCodec:最先进的高保真神经音频编解码器。
- Multi Band Diffusion:使用扩散的EnCodec兼容解码器。
- MAGNeT:最先进的非自回归文本到音乐和文本到声音模型。
- AudioSeal:最先进的音频水印技术。
训练代码
AudioCraft包含用于音频深度学习研究的PyTorch组件和已开发模型的训练流程。关于AudioCraft设计原则的总体介绍和开发自己的训练流程的说明,请参阅AudioCraft训练文档。
要复现现有工作并使用已开发的训练流程,请参阅每个特定模型的说明,其中提供了配置、示例网格以及模型/任务特定信息和常见问题的指引。
API文档
我们为AudioCraft提供了一些API文档。
常见问题
训练代码是否可用?
是的!我们提供了EnCodec、MusicGen和Multi Band Diffusion的训练代码。
模型存储在哪里?
Hugging Face将模型存储在特定位置,可以通过设置AUDIOCRAFT_CACHE_DIR
环境变量来覆盖AudioCraft模型的存储位置。要更改其他Hugging Face模型的缓存位置,请查看Hugging Face Transformers文档中的缓存设置。最后,如果您使用依赖Demucs的模型(例如musicgen-melody
)并想更改Demucs的下载位置,请参阅Torch Hub文档。
许可证
- 本仓库中的代码根据LICENSE文件中的MIT许可证发布。
- 本仓库中的模型权重根据LICENSE_weights文件中的CC-BY-NC 4.0许可证发布。
引用
对于AudioCraft的总体框架,请引用以下内容。
@inproceedings{copet2023simple,
title={Simple and Controllable Music Generation},
author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
year={2023},
}
在引用特定模型时,请按照模型特定README中提到的方式进行引用,例如./docs/MUSICGEN.md、./docs/AUDIOGEN.md等。