音频人工智能时间线

在这里，我们将从2023年开始，追踪最新的基于波形的音频生成人工智能模型！

2023

日期	发布 [样本]	论文	代码	训练模型
11.14	Mustango: 面向可控文本到音乐生成	arXiv	GitHub	Hugging Face
11.13	Music ControlNet: 多时变控制的音乐生成	arXiv	-	-
11.02	E3 TTS: 简易端到端扩散模型文本转语音	arXiv	-	-
10.01	UniAudio: 面向通用音频生成的音频基础模型	arXiv	GitHub	-
09.24	VoiceLDM: 带环境上下文的文本转语音	arXiv	GitHub	-
09.05	PromptTTS 2: 用文本提示描述和生成声音	arXiv	-	-
08.14	SpeechX: 作为多功能语音转换器的神经编解码语言模型	arXiv	-	-
08.10	AudioLDM 2: 通过自监督预训练学习整体音频生成	arXiv	GitHub	Hugging Face
08.09	JEN-1: 使用全方位扩散模型的文本引导通用音乐生成	arXiv	-	-
08.03	MusicLDM: 使用节拍同步混合策略增强文本到音乐生成的新颖性	arXiv	GitHub	-
07.14	Mega-TTS 2: 使用任意长度语音提示的零样本文本转语音	arXiv	-	-
07.10	VampNet: 通过掩蔽声学标记建模的音乐生成	arXiv	GitHub	-
06.22	AudioPaLM: 能说能听的大型语言模型	arXiv	-	-
06.19	Voicebox: 大规模文本引导多语言通用语音生成	PDF	GitHub	-
06.08	MusicGen: 简单且可控的音乐生成	arXiv	GitHub	Hugging Face Colab
06.06	Mega-TTS: 大规模零样本文本转语音与内在归纳偏置	arXiv	-	-
06.01	Vocos: 缩小时域和傅里叶域神经声码器在高质量音频合成中的差距	arXiv	GitHub	-
05.29	Make-An-Audio 2: 时间增强的文本到音频生成	arXiv	-	-
05.25	MeLoDy: 高效神经音乐生成	arXiv	-	-
05.18	CLAPSpeech: 通过对比语言-音频预训练从文本上下文学习韵律	arXiv	-	-
05.18	SpeechGPT: 赋予大型语言模型内在跨模态对话能力	arXiv	GitHub	-
05.16	SoundStorm: 高效并行音频生成	arXiv	GitHub (非官方)	-
05.03	从文本描述生成多样化和生动的声音	arXiv	-	-
05.02	长期节奏视频配乐器	arXiv	GitHub	-
04.24	TANGO: 使用指令调优LLM和潜在扩散模型的文本到音频生成	PDF	GitHub	Hugging Face
04.18	NaturalSpeech 2: 潜在扩散模型是自然的零样本语音和歌唱合成器	arXiv	GitHub (非官方)	-
04.10	Bark: 文本提示生成音频模型	-	GitHub	Hugging Face Colab
04.03	AUDIT: 使用潜在扩散模型按指令编辑音频	arXiv	-	-
03.08	VALL-E X: 用自己的声音说外语：跨语言神经编解码语言建模	arXiv	-	-
02.27	我听到你的真实色彩：图像引导的音频生成	arXiv	GitHub	-
日期	项目名称和链接	论文链接	代码仓库	在线演示
------	------------	--------	--------	--------
02.08	Noise2Music: 基于扩散模型的文本条件音乐生成	arXiv	-	-
02.04	多源扩散模型用于同步音乐生成和分离	arXiv	GitHub	-
01.30	SingSong: 从歌唱生成音乐伴奏	arXiv	-	-
01.30	AudioLDM: 基于潜在扩散模型的文本到音频生成	arXiv	GitHub	Hugging Face
01.30	Moûsai: 基于长上下文潜在扩散的文本到音乐生成	arXiv	GitHub	-
01.29	Make-An-Audio: 基于提示增强扩散模型的文本到音频生成	PDF	-	-
01.28	Noise2Music	-	-	-
01.27	RAVE2 [RAVE1样本]	arXiv	GitHub	-
01.26	MusicLM: 从文本生成音乐	arXiv	GitHub (非官方)	-
01.18	Msanii: 低成本高保真音乐合成	arXiv	GitHub	Hugging Face Colab
01.16	ArchiSound: 基于扩散的音频生成	arXiv	GitHub	-
01.05	VALL-E: 神经编解码语言模型作为零样本文本到语音合成器	arXiv	GitHub (非官方) (演示)	-

audio-ai-timeline

音频人工智能时间线

2023