ai-audio-datasets

AI 音频数据集 (AI-ADS) 🎵

AI 音频数据集 (AI-ADS) 🎵，包括语音、音乐和音效，可以为生成式 AI，AIGC，AI 模型训练，智能音频工具开发和音频应用程序提供训练数据。

项目列表

语音

AISHELL-1 - AISHELL-1 是一个普通话语音识别研究和构建语音识别系统的语料库。
AISHELL-3 - AISHELL-3 是由北京壳壳科技有限公司发布的大规模高保真多说话人普通话语音语料库。它可以用于训练多说话人文本转语音(TTS)系统。该语料库包含大约85小时的情感中性录音，由218位母语为普通话的说话人录制，总共有88035句语音。
阿拉伯语音库 - 阿拉伯语语音库（1.5 GB）是一个用于语音合成的现代标准阿拉伯语(MSA)语音语料库。该语料库包含了对超过3.7小时的MSA语音的音位级对齐语音录制的语音及拼写转录。注释包括单个音位上的词重音标记。
AudioMNIST - 该数据集包括60位不同说话人说出的30000个(0-9)数字音频样本。
AVSpeech - AVSpeech 是一个大规模的视听数据集，包含没有干扰背景信号的语音片段。这些片段长度各异，介于3到10秒之间，并且每个片段中视频中唯一可见的脸部和音轨中可闻的声音均属于同一个说话人。整个数据集包含大约4700小时的视频片段，约有150,000个不同的说话人，涵盖了各种各样的人、语言和面部姿势。
ATIS (航空旅行信息系统) - ATIS（航空旅行信息系统）是一个包含人类在自动航空旅行查询系统中询问航班信息的音频录音及相应手动转录的数据集。该数据包括17个独特的意图类别。原始数据集分别包含训练、开发和测试集中的4478、500和893个带有意图标签的参考语句。
卡尔纳提克瓦尔纳数据集 - 卡尔纳提克瓦尔纳数据集是28个独奏声乐录音的集合，这些录音是为了我们对卡尔纳提克音程分析的研究而记录的。该集合包括音频录音、时间对齐的塔拉循环注释及机器可读格式的斯瓦拉标注。
休闲对话 - 休闲对话数据集旨在帮助研究人员在不同年龄、性别、显现肤色和环境光照条件下评估他们的计算机视觉和音频模型的准确性。
CN-Celeb - CN-Celeb 是一个在“真实世界”中收集的大规模说话人识别数据集。该数据集包含来自1000位中国名人的超过130,000句语音，涵盖了现实生活中的11个不同类型。
Clotho - Clotho 是一个音频描写数据集，包含4981个音频样本，每个音频样本有五个描述（总共24,905个描述）。音频样本的时长为15到30秒，描述的长度为8到20个词。
Common Voice - Common Voice 是一个音频数据集，包含一个独特的MP3文件和相应的文本文件。数据集包含9283个录制小时。这些数据还包括人口统计元数据，如年龄、性别和口音。数据集中有7335个验证小时，涵盖60种语言。
CoVoST - CoVoST 是一个大规模的多语言语音到文本翻译语料库。其最新的第二版涵盖了21种语言到英语的翻译和英语到15种语言的翻译。总共2880小时的语音数据，包含78000个说话人和66种口音。
CVSS - CVSS 是一个大规模的多语言到英语的语音到语音翻译(S2ST)语料库，包含从21种语言到英语的句子级平行S2ST对。CVSS 源自 Common Voice 语音语料库和 CoVoST 2 语音到文本翻译(ST)语料库，通过使用最先进的TTS系统将 CoVoST 2 的翻译文本合成为语音。
EasyCom - Easy Communications (EasyCom) 数据集是世界首个数据集，旨在帮助缓解增强现实(AR)动机的多传感器自我中心视角中的鸡尾酒会效应。数据集包含AR眼镜自我中心多通道麦克风阵列音频、宽视角RGB视频、语音源姿势、耳机麦克风音频、标注的语音活动、语音转录、头部和面部边界框以及源标识标签。我们创建此数据集并公开以促进在鸡尾酒会问题上的多模态AR解决方案的研究。
ESD (情感语音数据库) - ESD 是一个用于语音转换研究的情感语音数据库。ESD 数据库包含了10个英语母语者和10个汉语母语者说的350个平行语句，涵盖5种情感类别（中性、开心、生气、悲伤和惊讶）。数据是在受控的声学环境中录制的，总计超过29小时的语音数据。该数据库适用于多说话人和跨语言的情感语音转换研究。
FPT开放语音数据集 (FOSD) - 该数据集包含了FPT公司在2018年公开发布的3个子数据集中手动编译的25,921段越南语音(及其转录和每段语音的起止时间标签)，总计大约30小时。
免费说数字数据集 (FSDD) - 一个免费的说数字音频数据集。想象一下为音频准备的MNIST。一个简单的音频/语音数据集，包含以8kHz采样率录制的说数字(wav文件)录音。这些录音经过裁剪，几乎没有开始和结尾的静音。
Fluent Speech Commands - Fluent Speech Commands 是一个开放源码音频数据集，用于口语理解(SLU)实验。每个语句都带有“动作”、“对象”和“位置”值标签；例如，“在厨房开灯”的标签是{"动作": "activate", "对象": "lights", "位置": "kitchen"}。模型必须预测这些值，并且当所有值预测正确时，语句的预测才被视为正确。
原神数据集 - 用于SVC/SVS/TTS的原神数据集。
原神语音数据集 - 原神语音数据集
GigaSpeech - GigaSpeech 是一个不断进化的多领域英语语音识别语料库，包含10000小时适用于监督训练的高质量标注音频，总计40000小时的音频适用于半监督和无监督训练。
GigaSpeech 2 - 一个不断进化的大规模和多领域用于低资源语言的ASR语料库，包括自动爬取、转录和精炼。
How2 - How2数据集包含13,500个视频，即300小时的语音，并分为185,187个训练、2022个开发（dev）和2361个测试语句。它有英语字幕和众包的葡萄牙语翻译。
inaGVAD - 一个挑战性的法国电视和广播数据集，带有语音活动检测(VAD)和说话人性别分段(SGS)的注释，带有评估脚本和详细的注释方案，详细描述了非语音事件类型、说话人特征和语音质量。
KdConv - KdConv是一个中文多领域知识驱动对话数据集，将多轮对话的主题落实到知识图谱中。KdConv包含来自三个领域（电影、音乐和旅行）的4.5K对话，总共86K句对话，每对话平均有19个回合。这些对话包含了对相关主题的深入讨论和多个主题之间的自然过渡，同时该语料库也可用于迁移学习和领域适应性的探索。
Libriheavy - Libriheavy：一个包含50,000小时有标点和大小写上下文的ASR语料库。
LibriSpeech - LibriSpeech 语料库是一个由LibriVox项目的有声书组成的约1000小时的语料集。大多数有声书来自于古腾堡计划。训练数据分为3个分区，分别是100小时、360小时和500小时的数据集，而开发和测试数据则根据自动语音识别系统的表现好坏分别分为'干净'和'其他'类别。每个开发和测试集大约为5小时的音频时长。
LibriTTS - LibriTTS 是一个多说话人的英语语料库，包含约585小时的24kHz采样率的英语朗读语音，由Heiga Zen在谷歌语音和谷歌大脑团队成员的协助下准备。LibriTTS语料库旨在用于TTS研究。它来源于LibriSpeech语料库的原始材料（来自LibriVox的mp3音频文件和来自古腾堡计划的文本文件）。
LibriTTS-R - LibriTTS-R: 一个恢复的多说话人文本到语音语料库。通过对LibriTTS语料库进行语音恢复得到，包含585小时的24kHz采样率的语音数据，来自2456个说话人及相应的文本。LibriTTS-R的成分样本与LibriTTS相同，只是音质有所提升。
LJSpeech (LJ 语音数据集) - 这是一个公有领域语音数据集，包括13100个单一说话人从7本非小说书籍中读出片段的短音频剪辑。每个剪辑都提供了转录。剪辑的长度从1到10秒不等，总长度约为24小时。文本发布于1884年至1964年之间，属于公有领域。音频录制于2016-17年，由LibriVox项目进行，也属于公有领域。
LRS2 (读唇句子2) - 牛津-BBC读唇句子2 (LRS2) 数据集是目前公开可用的最大的读唇句子数据集之一。数据库主要由BBC节目中的新闻和访谈节目组成。每个句子最多100个字符。
LRW (野外读唇) - 野外读唇 (LRW) 数据集是一个大规模的音视频数据库，包含来自超过1000个说话人的500个不同词汇。每个语句有29帧，边界围绕目标词居中。数据库分为训练集、验证集和测试集。训练集至少包含每个类别的800个语句，而验证集和测试集则分别包含50个语句。
MuAViC - 一个用于鲁棒语音识别和鲁棒语音到文本翻译的多语言视听语料库。
MuST-C - MuST-C 目前是最大的公开可用的多语言（一对多）语音翻译语料库。它涵盖了从英语到德语、西班牙语、法语、意大利语、荷兰语、葡萄牙语、罗马尼亚语和俄语的八种语言方向。该语料库包含英语TED演讲的音频、转录和翻译，并带有预定义的训练、验证和测试划分。
MetaQA (电影文本音频问答) - MetaQA 数据集包括一个从 WikiMovies 数据集派生的电影本体论以及三组用自然语言写成的问题-答案对：1-hop、2-hop和3-hop查询。
MELD（多模态情感对话数据集） - MELD（多模态情感对话数据集）通过增强和扩展EmotionLines数据集创建。MELD包含EmotionLines中相同的对话实例，但还包括音频和视觉模式以及文本。MELD包含来自《老友记》电视系列的超过1400个对话和13000个话语。多个发言者参与了对话。对话中的每个话语都被标记为以下七种情绪之一——愤怒、厌恶、悲伤、快乐、中立、惊讶和恐惧。MELD还为每个话语提供了情感（正面、负面和中立）注释。
微软语音语料库（印度语言） - 微软发布的语音语料库（印度语言）包含泰卢固语、泰米尔语和古吉拉特语的对话和短语语音训练及测试数据。数据包包括音频和相应的转录。本数据集提供的数据不得用于商业目的。您只能将数据用于研究目的。如果发表您的研究成果，必须提供以下归属声明：“数据由微软和SpeechOcean.com提供”。
PATS（姿势音频转录风格） - PATS数据集包含大量多样化的对齐姿势、音频和转录文本。通过这个数据集，我们希望提供一个基准，帮助开发虚拟代理技术，使其能够生成自然且相关的手势。
RealMAN - RealMAN: 用于动态语音增强和定位的实际录制和标注的麦克风阵列数据集。
SAVEE（萨里音视表达情感） - 萨里音视表达情感（SAVEE）数据集是开发自动情感识别系统的预备条件。该数据库由4名男性演员在7种不同情绪下的录音组成，总共480条英式英语话语。这些句子从标准的TIMIT语料库中选择，并为每种情绪进行了音素平衡。
SoS_Dataset - 故事之声：带有音频的多模态叙事。在现实世界中，叙事是多模态的。讲述一个故事时，可能会使用所有的视觉效果和声音以及故事本身。然而，以前关于叙事数据集和任务的研究很少关注声音，即使声音也传达了故事的有意义语义。因此，我们提议通过建立一个新的组件“背景声音”，扩展故事理解和叙事领域，该组件是基于故事上下文的不包含任何语言信息的音频。
语音数据集合集 - 这是一个为语音相关研究（主要是自动语音识别）而整理的开放语音数据集清单。在此存储库中收集了超过110个语音数据集，其中超过70个数据集可以直接下载，而无需进一步申请或注册。
语音数据集生成器 - 语音数据集生成器致力于创建适合训练文本到语音或语音到文本模型的数据集。其主要功能包括转录音频文件、在必要时提高音频质量和生成数据集。
3D-Speaker-Datasets - 一个大规模的多设备、多距离和多方言的人类语音音频数据集。
TED-LIUM - TED演讲的音频转录。包含1495场TED演讲音频录音及其完整转录文本，由法国缅因大学信息学实验室（LIUM）创建。
The Flickr Audio Caption Corpus - Flickr 8k音频字幕语料库包含8,000张自然图像的40,000个语音字幕。收集于2015年，旨在研究无监督语音模式发现的多模态学习方案。
The People's Speech - 人民语音 是一个30,000小时及不断增长的免费对话英语语音识别数据集，适用于学术和商业用途，遵循CC-BY-SA许可（包含一个CC-BY子集）。数据通过在互联网上搜索适当授权的现有转录音频数据收集而来。
口述版维基百科学术词库 - 口述版维基百科项目联合维基百科文章的志愿朗读者。为那些因为各种原因无法或不愿阅读文本版文章的用户提供数百篇多国语言的口述文章。
TIMIT - DARPA TIMIT声学-语音连续语音语料库。
tts-frontend-dataset - TTS前端数据集：多音字/韵律/文本规范化。
VoxCeleb2 - VoxCeleb2是一个大规模的说话人识别数据集，来自开源媒体，包含超过一百万条话语，来自6000多名说话者。由于数据集在“真实世界”中收集，语音片段受到了包括笑声、交谈声、频道效应、音乐和其他声音在内的真实世界噪音的干扰。数据集也是多语言的，涉及145个不同国籍的说话者，覆盖广泛的口音、年龄、种族和语言。
VoxConverse - VoxConverse是一个音视混合的语音区分数据集，包含从YouTube视频中提取的多说话者片段。
VoxLingua107 - VoxLingua107是一个语音语言识别数据集，包含6628小时的语音（每种语言平均62小时），并附有1609条经过验证的话语评估集。
VoxPopuli - VoxPopuli是一个大规模的多语言语料库，提供23种语言的10万小时非标注语音数据。这是迄今为止最大的开放数据集，用于无监督表示学习以及半监督学习。VoxPopuli还包含16种语言的1.8万小时转录语音及其对应的5种语言的口译，总计5.1万小时。
VoxForge - VoxForge是一个开放的语音数据集，旨在收集转录语音，以供自由和开放源码语音识别引擎（在Linux、Windows和Mac上）使用。
VocalSound - VocalSound是一个免费的数据集，包含21,024条众包录音，涉及笑声、叹气、咳嗽、清嗓子、打喷嚏和吸鼻声，来自3,365名独特的受试者。VocalSound数据集还包含如说话者年龄、性别、母语、国家和健康状况等元信息。
VoiceBank + DEMAND - VoiceBank+DEMAND是一个用于训练语音增强算法和TTS模型的噪声语音数据库。该数据库设计用于训练和测试操作在48kHz的语音增强方法。有关该数据库的详细描述可见与之相关的论文。
WaveFake - WaveFake是一个音频深伪检测数据集。该数据集包含超过10万条生成的音频片段的大规模数据集。
WenetSpeech - WenetSpeech是一个包含超过10,000小时高质量标注语音、2,400小时弱标注语音和约10,000小时未标注语音的多领域普通话语料库，总计22,400多小时。作者从YouTube和播客中收集数据，涵盖了各种演讲风格、场景、领域、话题和噪音条件。引入了一种基于光学字符识别（OCR）的方法，生成与YouTube数据相对应的视频字幕的音频/文本分段候选者。
WSJ0-2mix - WSJ0-2mix 是使用《华尔街日报》（WSJ0）语料库语音混合物的语音识别语料库。
WHAM！（WSJ0 Hipster Ambient Mixtures） - WSJ0 Hipster Ambient Mixtures（WHAM！）数据集为WSJ0-2mix数据集中的每个两人对话混合物配上独特的噪声音景。这些噪声音频是于2018年底在旧金山湾区的各个城市地点收集的。环境主要包括餐厅、咖啡馆、酒吧和公园。使用Apogee Sennheiser双耳麦克风在距地面1.0到1.5米的三脚架上进行录音。
YODAS - 这是我们YODAS数据集中的YODAS手动/自动子集，包含369,510小时的语音。该数据集包含从YouTube获取的音频话语和相应的字幕（手动或自动）。请注意，手动字幕仅表示其由用户上传，但不一定由人类转录。
YODAS2 - YODAS2是YODAS数据集的长格式数据集。它提供了与espnet/yodas相同的数据集，但YODAS2具有以下新特性：1. 以长格式（视频级别）格式化，其中音频未被分段。2.音频使用更高的采样率编码（即24kHz）。
YTTTS - YouTube文本到语音数据集包含从YouTube视频中提取的波形音频及其英文转录文本。

音乐

AAM: Artificial Audio Multitracks Dataset - 该数据集包含3000个人工音乐音轨，具有丰富的注释。它基于真实的乐器样本，并通过符合音乐理论的算法作曲生成。它提供了歌曲的完整混音以及单个乐器轨道。用于生成的MIDI文件也可获得。注释文件包括：音头、音高、乐器、调性、速度、片段、旋律乐器、节拍和和弦。
Acappella - Acappella 包含大约 46 小时的无伴奏独唱视频，这些视频来自 YouTube，取自不同歌手和语言。考虑了四种语言：英语、西班牙语、印地语和其他语言。
ADD: audio-dataset-downloader - 简单的 Python CLI 脚本，用于根据音乐类型列表从 YouTube 下载 N 小时的音频。
ADL Piano MIDI - ADL Piano MIDI 是一个包含来自不同流派的11086首钢琴曲的数据集。该数据集基于Lakh MIDI数据集，该数据集是一个包含45,129个独特MIDI文件的集合，这些文件已与百万歌曲数据集中的条目匹配。
Aligned Scores and Performances (ASAP) - ASAP 是一个对齐的音乐乐谱（包括 MIDI 和 MusicXML）和演奏（音频和 MIDI）数据集，全部具有下拍、拍子、拍号和调号注释。
Annotated Jingju Arias Dataset - 注释的京剧唱段数据集是一个包含34段京剧唱段的数据集，这些唱段使用Praat软件手动在各个层级进行了分段。选中的唱段包含京剧中的两个主要声腔（即西皮和二黄）及五个主要唱腔行当（即旦、净、老旦、老生和小生）。每个唱段由Praat TextGrid文件组成，包含以下信息的层级：唱段、MusicBrainz ID、艺术家、流派、行当、声腔、板式、歌词、音节和打击乐模式。
Bach Doodle - Bach Doodle 数据集由 Bach Doodle 提交的 21.6 百万次和声化组成。该数据集包含有关作曲的元数据（例如来源国家和反馈），以及用户输入旋律的 MIDI 和生成的和声的 MIDI。数据集中包含大约6年的用户输入音乐。
Bach Violin Dataset - 一组高质量的巴赫无伴奏小提琴奏鸣曲和组曲（BWV 1001–1006）公共录音集。
Batik-plays-Mozart dataset - Batik-plays-Mozart 数据集是一个包含12首完整的莫扎特钢琴奏鸣曲（36个独立乐章）钢琴演奏数据集，由维也纳音乐会钢琴家罗兰·巴蒂克在计算机监控下的Bösendorfer大钢琴上演奏。演奏以MIDI格式提供（相应的音频文件是商业可用的），并与New Mozart Edition中的乐谱、音乐学和声、终止式和短语注释在以前的发布中逐一对齐。
Beijing Opera Percussion Instrument Dataset - 北京京剧打击乐器数据集是一个包含236个独立打击乐音例的集合，覆盖北京京剧中使用的四类打击乐器。它可用于构建每种打击乐器的击打模型。
Beijing Opera Percussion Pattern Dataset - 北京京剧打击乐图案（BOPP）数据集是一个包含133个音频打击乐图案的集合，覆盖五个图案类别。数据集包括图案的音频和音节级转录（非时间对齐）。它可用于打击乐转录和分类任务。图案是从唱段音频录音中提取的，并由音乐学家标记。
CAL500 (Computer Audition Lab 500) - CAL500（计算机听觉实验室500）是一个用于评估音乐信息检索系统的数据集。它由从西方流行音乐中挑选的502首歌曲组成。音频表示为前13个梅尔频率倒谱系数（及其一阶和二阶导数）的时间序列，通过在每首歌的波形上滑动一个12毫秒半重叠的短时间窗提取。
Carnatic Music Rhythm Dataset - 南印度古典音乐节奏数据集是一个包含176个摘录（共16.6小时）的子集合，涵盖南印度古典音乐中的四种塔拉，具有音频、相关塔拉元数据和时间对齐标记，指示塔拉循环的进程。它可用作许多南印度古典音乐自动节奏分析任务的测试语料库。
CCMixter - CCMixter 是一个唱歌声音分离数据集，由来自ccMixter的50首全长立体声歌曲组成，涵盖许多不同的音乐流派。每首歌曲有三个可用的WAV文件：背景音乐、声音信号及其总和。
ChMusic - ChMusic 是一个用于训练模型和评估乐器识别性能的传统中国音乐数据集。该数据集涵盖11种乐器，分别为二胡、琵琶、三弦、笛子、唢呐、坠琴、中阮、柳琴、古筝、扬琴和笙。
chongchong-free - 重新整理钢琴谱下载器是一款无需付费即可下载重新整理钢琴乐谱的软件，可以获取乐谱链接，分析乐谱内容并导出文件。
ComMU - ComMU 有 11,144 个 MIDI 样本，这些样本由专业作曲家创作的短音符序列和相应的 12 个元数据组成。该数据集旨在进行一个新的任务，即通过自回归语言模型仅使用元数据生成多样且高质量的音乐。
CoSoD - CoSoD 包含一个 331 首歌曲语料库的元数据和分析数据，这些歌曲构成了 2010 年至 2019 年期间发布的 Billboard 年终榜单“Hot 100”中所有多艺人合作歌曲的数据集。每首歌曲都与两个 CSV 文件相关联：一个用于元数据，一个用于分析数据。
DALI - DALI：一个包括同步的音频、歌词和声乐音符的大型数据集。
DadaGP - DadaGP 是一个新的符号音乐数据集，包括26,181首以GuitarPro格式的歌曲乐谱，涵盖739种音乐类型，以及适用于生成序列模型（如Transformer）的相应标记格式。标记格式受基于事件的MIDI编码启发，常用于符号音乐生成模型。该数据集发布了一个编码器/解码器，可以将GuitarPro文件转换为标记并转换回来。
DeepScores - 合成数据集，共包含300,000张带注释的书面音乐图像，用于对象分类、语义分割和对象检测。基于从MuseScore获取的大量MusicXML文档，使用复杂的流水线将来源转换为LilyPond文件，并使用LilyPond刻制和注释这些图像。
dMelodies - dMelodies 是一个简单的2小节旋律数据集，使用9个独立的潜在变化因素生成，每个数据点代表一个基于以下约束条件的独特旋律：- 每个旋律将对应一个独特的音阶（大调、小调、布鲁斯等）。- 每个旋律使用标准的 I-IV-V-I 终止和弦模式弹奏琶音。- 第1小节弹奏前2个和弦（6个音符），第2小节弹奏后2个和弦（6个音符）。- 每个所弹奏的音符都是八分音符。
DISCO-10M - DISCO-10M 是一个音乐数据集，旨在推动大规模音乐机器学习模型的研究。
Dizi - 笛子数据集包括北派和南派音乐风格的音乐。其特点包括对两种不同音乐风格的旋律和演奏技巧的解析。
DreamSound - 最近，文本到音乐生成模型在从给定文本提示中合成高质量和多样化的音乐样本方面取得了前所未有的成果。尽管取得了这些进展，但仍不清楚如何生成个性化的用户特定音乐概念，操控它们，并将它们与现有的概念结合起来。受计算机视觉文献的启发，我们通过探讨两种已建立的方法，即文本反转和Dreambooth，研究文本到音乐的生成。通过定量指标和用户研究，我们评估了它们在仅有少量样本的情况下重建和修改新音乐概念的能力。最后，我们提供了一个新数据集并提出了一个新任务的评估方案。
EMOPIA - 一个情感识别和基于情感的音乐生成的多模态流行钢琴数据集。EMOPIA（发音为‘yee-mò-pi-uh’）数据集是一个共享的多模式（音频和 MIDI）数据库，专注于流行钢琴音乐中的感知情感，以促进与音乐情感相关的各种任务研究。该数据集包含来自387首歌曲的1087个音乐片段，并由四个专注注释者进行了片段级别的情感标签。
ErhuPT (Erhu Playing Technique Dataset) - 该数据集是一个音频数据集，包含约1500个由多个专业演奏者录制的音频片段。
FiloBass - 一个基于爵士贝斯谱集和注释的新数据集及语料库研究。FiloBass：一个新颖的音乐谱集和注释集，重点关注爵士伴奏中双贝斯的重要角色，通常被忽视。受到最近关于独奏角色研究的启发，我们提供了一个包含专业爵士贝斯手的48个手动验证的转录本集合，包含超过 50,000 个音符事件，基于 FiloSax 数据集中使用的伴奏曲目。我们为每个录音提供了音频片段、乐谱、表演对齐的 MIDI 和节拍、下拍、和弦符号及音乐形式标记的相关元数据。
Finding Tori - Finding Tori：用于分析韩国民歌的自监督学习。我们介绍了对大约700小时的韩国民歌田野录音数据集的计算分析，这些数据集大约是1980-90年代录制的。
FMA - 免费音乐档案（FMA）是一个大规模数据集，用于评估音乐信息检索的多个任务。它包括来自16,341位艺术家和14,854张专辑的106,574首曲目，总计343天的音频，按161个类别的分类表示。它提供了全长和高质量的音频、预计算的特征，以及曲目和用户级的元数据、标签和自由格式文本，如传记。
GiantMIDI-Piano - GiantMIDI-Piano 是一个古典钢琴 MIDI 数据集，包含 2,786 位作曲家的 10,855 个 MIDI 文件。通过限制作曲家姓氏，精选子集包含 1,787 位作曲家的 7,236 个 MIDI 文件。
Groove (Groove MIDI Dataset) - Groove MIDI 数据集 (GMD) 由13.6小时对齐的 MIDI 和（合成的）人工表演节拍的音频组成。该数据集包含1150个MIDI文件和超过22,000个小节的打击乐表演。
GuitarSet - GuitarSet：一个用于吉他转录的数据集。
Hindustani Music Rhythm Dataset - 北印度古典音乐节奏数据集是一个包含151个摘录（共5小时）的子集合，涵盖北印度古典音乐中的四种塔尔，具有音频、相关塔尔元数据和时间对齐标记，指示塔尔循环的进程。该数据集可用作许多北印度古典音乐自动节奏分析任务的测试语料库。
HumTrans - 此数据集还可作为基于哼唱旋律的音乐生成等下游任务的基础。它由500首不同风格和语言的音乐作品组成，每首作品分为多个片段。总共，数据集包含1000个音乐片段。为了收集这个哼唱数据集，我们雇用了10名大学生，他们全部是音乐专业或至少精通一种乐器。他们每个分别使用我们设计的网站上提供的网页录音界面哼唱了每个片段两次。哼唱录音的采样频率为44,100 Hz。
Indian Art Music Tonic Datasets - 该数据集包括597个印度艺术音乐（印度斯坦音乐和卡纳塔克音乐）的商业可用音频音乐录音，每个录音都手动注释了主奏艺术家的调性。该数据集用作音调识别方法开发的测试语料库。
Jazz Harmony Treebank - 针对爵士和声树库，该存储库包含从zenodo上的iRealPro语料库中选取的爵士和弦序列的层次和声分析语料。
jazznet - jazznet: 一种用于音乐音频机器学习研究的基本钢琴模式数据集。本文介绍了jazznet 数据集，这是一种用于开发音乐信息检索（MIR）机器学习（ML）算法的基础爵士钢琴音乐模式的数据集。数据集包含162520个标记的钢琴模式，包括和弦、琶音、音阶及其倒影，音频总长超过26k小时，总大小为95GB。
Jingju A Cappella Singing Pitch Contour Dataset - 京剧无伴奏歌唱音高轮廓数据集是39首京剧无伴奏歌唱录音的音高轮廓分割的真值集合。数据集包括（1）旋律转录的真值，（2）音高轮廓分割的真值。它对旋律转录和音高轮廓分割任务很有用。音高轮廓从音频录音中提取，并由音乐学家手动校正和分割。
Jingju Music Scores Collection - 这是收集的92个京剧音乐乐谱集合，用于分析京剧唱法的音乐系统。它们从原始印刷版本转录为机器可读格式，使用MuseScore，并导出为MusicXML。
JS Fake Chorales - 由KS_Chorus算法生成的500个四声部合唱的MIDI数据集，并附有听音测试参与者的结果注释，还有300个未注释的合唱。
LAKH MuseNet MIDI Dataset - 完整的LAKH MIDI数据集转换为MuseNet MIDI输出格式（9种乐器+鼓）。
Los Angeles MIDI Dataset - 适用于MIR和音乐AI目的的SOTA千尺度MIDI数据集。
LP-MusicCaps - LP-MusicCaps: 基于LLM的伪音乐描述。
Lyra Dataset - Lyra 是一个用于希腊传统和民间音乐的数据集，包含1570首乐曲，共约80小时的数据。数据集结合了用于获取音频和视频的YouTube时间戳链接，以及有关乐器、地理分布和风格等方面的丰富元数据信息。
MAESTRO - MAESTRO 数据集包含了国际钢琴-e-比赛十年间超过200小时的音频和MIDI录音配对。MIDI数据包括键击力度和踏板位置（延音/长音/弱音踏板）。音频和MIDI文件以约3毫秒的精度对齐并切分为单个音乐作品，这些作品附有作曲家、标题和演出年份的注释。无压缩音频的质量为CD质量或更高（44.1–48 kHz 16位PCM立体声）。
MagnaTagATune - MagnaTagATune数据集包含25863个音乐片段。每个片段是一个属于5223首歌、445张专辑和230个艺术家的29秒长摘录。这些片段涵盖了广泛的音乐风格，如古典音乐、新世纪、电子音乐、摇滚、流行、世界音乐、爵士、布鲁斯、金属、朋克等。每个音频片段附有一个包含188个标签的二进制注释向量。
Main Dataset for "Evolution of Popular Music: USA 1960–2010" - 这是一个大文件（约20MB），名为EvolutionPopUSA_MainData.csv，采用逗号分隔的数据格式并带有列标题。每一行对应一个录音。该文件可以在任何文本编辑器中查看，也可以在Excel中打开或导入其他数据处理程序。
MetaMIDI Dataset - 我们介绍MetaMIDI数据集（MMD），这是一个大规模的MIDI文件及其元数据集合。除了MIDI文件，我们还提供了在抓取过程中收集的艺术家、标题和风格的元数据。在（MMD）中，MIDIs与从Spotify获取的32,000,000个30秒音频片段集合匹配，生成了超过10,796,557个音频-MIDI匹配。
Million Song Dataset - 该数据集包含从1922年至2011年的一百万首歌曲，并附有Echonest（现为Spotify的一部分）提供的艺术家标签信息、音频测量和其他相关信息。
MIR-1K - MIR-1K（多媒体信息检索实验室，1000个歌曲片段）是一个专为歌声分离设计的数据集。
Mridangam Stroke Dataset - Mridangam敲击数据集是各种调性下Mridangam单个敲击的7162个音频示例集合。该数据集包含在6个不同调性值的Mridangams上演奏的10种不同敲击。该数据集可用于训练每种Mridangam敲击的模型。
Mridangam Tani-avarthanam dataset - Mridangam Tani-avarthanam数据集是由著名Mridangam大师Padmavibhushan Umayalpuram K. Sivaraman演奏的两首tani-avarthanams的转录集合。音频是在印度马德拉斯理工学院录制的，并由专业卡纳塔克打击乐师注释。它包括大约24分钟的音频和8800次敲击。
MIRMLPop - 它包含1）MIR-MLPop数据集的注释，2）获取数据集音频的源代码，3）我们用来微调MIR-MLPop上的Whisper的源代码（包括歌词对齐和歌词转录），4）评估的源代码。
MSD (Million Song Dataset) - Million Song Dataset 是一个自由可用的现代流行音乐曲目音频特征和元数据集合。数据集的核心是一百万首歌曲的特征分析和元数据，由The Echo Nest提供。
MTG-Jamendo Dataset - 我们提供MTG-Jamendo数据集，一个用于音乐自动标注的新开放数据集。它由Jamendo上以CC协议发布的音乐和内容上传者提供的标签构建。数据集包含超过55,000首完整音轨，具有195个标签，涵盖了流派、乐器和情绪/主题类别。我们为研究人员提供了详细的数据拆分，并在五组不同的标签集上报告了一个简单基线方法的性能：流派、乐器、情绪/主题、前50名和总体。
MTG-Jamendo - MTG-Jamendo 数据集是一个用于音乐自动标注的开放数据集。数据集包含超过55,000首完整音轨，具有195个标签类别（87个流派标签、40个乐器标签和56个情绪/主题标签）。它由Jamendo上以CC协议发布的音乐和内容上传者提供的标签构建。所有音频均为320kbps MP3格式。
Music Data Sharing Platform for Computational Musicology Research (CCMUSIC DATASET) - 该平台是一个多功能音乐数据共享平台，用于计算音乐学研究。它包含许多音乐数据，如中国传统乐器的声音信息和中国流行音乐的标签信息，可供计算音乐学研究人员免费使用。
Music Emotion Recognition (MER) - 我们提供了一个用于分析个性化音乐情感识别（MER）系统的数据集。我们开发了音乐爱好者平台，旨在改善这类系统所需的“真实情况”的收集和分析。
MUSAN - MUSAN 是一个音乐、语音和噪音的语料库。该数据集适用于训练用于语音活动检测（VAD）和音乐/语音区分的模型。数据集包括多种风格的音乐、十二种语言的语音和各种技术和非技术噪音。
Musdb-XL-train - musdb-XL-train数据集由应用了限幅器的300,000个4秒音频段和100首原始歌曲组成。对于每个片段，我们随机选择musdb-HQ训练子集中的4个音干（主唱、贝斯、鼓、其他）中的任意片段，并随机混合。然后，我们对每个音干应用了商业限幅插件。
MusicBench - MusicBench 数据集是一个音乐-文本配对集合，专为文本到音乐生成设计，并随Mustango 文本到音乐模型发布。MusicCaps 数据集从5,521个样本扩展到52,768个训练样本和400个测试样本，以创建_MusicBench_！
MusicNet - MusicNet 是一个包含330个自由许可证的古典音乐录音的集合，附有超过一百万个注释标签，这些标签准确指出了每个录音中每个音符的精确时间，演奏每个音符的乐器，以及音符在作曲的节奏结构中的位置。标签是通过动态时间扭曲从音乐分数对准录音而获得的。标签由受过训练的音乐家验证；我们估计标签错误率为4%。我们向机器学习和音乐界提供MusicNet标签作为训练模型的资源和比较结果的通用基准。
MusicCaps - MusicCaps 是一个由5.5k音乐-文本对组成的数据集，附有由人类专家提供的丰富文本描述。
MuseData - MuseData 是CCARH的一个包含管弦乐和钢琴古典音乐的电子图书馆，总共包含约3MB的783个文件。
MUSDB18 - MUSDB18 是一个包含150首不同风格的完整长度音乐轨道（约10小时）的数据集，并附有其独立的鼓、贝斯、主唱和其他音干。数据集分为训练和测试集，分别包含100和50首歌曲。所有信号均为立体声并以44.1kHz编码。
Music Topics and Metadata - 该数据集提供了从1950年到2019年的歌词列表，描述了音乐的元数据，如悲伤度、舞蹈性、响度、音响性等。我们还提供了一些信息，如歌词，可用于自然语言处理。
Music genres dataset - 包含1494种流派的200首歌曲的数据集。
多模态乐谱数据集 - MSMD是一个合成数据集，包含497首（古典）音乐作品，包含音频和乐谱的细粒度对齐表示（344,742对音符头与其音频/MIDI对应的对齐）。
MuVi-Sync - MuVi-Sync 数据集是一个多模型数据集，包含从748个音乐视频中提取的音乐特征（和弦、调性、响度和音符密度）和视频特征（场景偏移、情感、动作和语义）。
Nlakh - Nlakh 是一个用于乐器检索的数据集。它结合了提供大量乐器的NSynth数据集和提供多轨MIDI数据的Lakh数据集。
NSynth - NSynth 是一个单音符乐器音频数据集，包含305,979个具有独特音高、音色和包络的音乐音符。这些声音来自1006种乐器，标注为声学、电子或合成源、乐器家族和音响特性。用于标注的乐器家族包括低音、铜管、长笛、吉他、键盘、敲击乐器、风琴、簧乐器、弦乐、合成主音和声乐。为乐器生成了四秒钟的单声道16kHz音频片段（音符）。
NES-MDB (Nintendo Entertainment System Music Database) - 任天堂娱乐系统音乐数据库（NES-MDB）是一个为NES音频合成器构建自动音乐创作系统而设计的数据集。它包含来自397个NES游戏的5278首歌曲。数据集代表了296位独特的作曲家，歌曲共包含超过两百万个音符，提供MIDI、乐谱和NLM（NES语言建模）格式文件选项。
Niko和弦进程数据集 - Niko和弦进程数据集用于AccoMontage2。包含5000+个和弦进程片段，带有风格标签。总共有四种风格：流行标准、流行复杂、暗以及R&B。
OnAir音乐数据集 - 🎵 一个新的用于音乐分离研究的分轨数据集，来自OnAir免版权音乐项目。
Opencpop - Opencpop, 一个公开可用的高质量普通话演唱语料库，旨在为演唱语音合成（SVS）系统服务。此语料库包含由专业女歌手录制的100首独特的普通话歌曲。所有音频文件均在专业录音室环境下以44,100 Hz的采样率录制。
OpenGufeng - 一个用于中国古风音乐的旋律和和弦进程数据集。
PBSCSR - 钢琴盗版乐谱作曲家风格识别数据集。我们的整体目标是创建一个用于研究作曲家风格识别的数据集，使其“与MNIST一样易于访问而与ImageNet一样挑战性。”为了实现这一目标，我们从IMSLP上钢琴乐谱图像中采样固定长度的盗版乐谱片段。该数据集包含40,000个用于9分类任务的62x64盗版乐谱图像，100,000个用于100分类任务的62x64盗版乐谱图像，以及29,310个用于预训练的未标记可变长度盗版乐谱图像。
POP909 - POP909是一个数据集，包含由专业音乐家创作的909首流行歌曲的不同版本的钢琴编曲。数据集的主要内容包括每首歌的声乐旋律、主导乐器旋律和钢琴伴奏的MIDI格式文件，这些文件与原始音频文件对齐。此外，还提供了节奏、节拍、调性和和弦的注释，其中节奏曲线是手工标注的，其它注释由MIR算法进行。
ProgGP - 一个包含173首前卫金属歌曲的数据集，提供GuitarPro和token格式，根据DadaGP规范创建。
RWC (Real World Computing Music Database) - RWC（真实世界计算）音乐数据库是一个经过版权清理的音乐数据库（DB），可供研究人员作为共同研究基础。包含约100首完整的歌曲，手动标注的章节边界。对于50种乐器，以半音间隔捕捉个别声音，包括几种演奏风格、动态、乐器制造商和音乐家。
Sangeet - 一个用于印度斯坦古典音乐的XML数据集。SANGEET以标准化的方式保存了任何给定作品的所有必要信息，包括元数据、结构、符号、节奏和旋律信息，以便于音乐信息的高效存储和提取。该数据集旨在为音乐信息研究任务提供基础数据，从而支持机器学习视角下的多种数据驱动分析。
singKT数据集 - SingKT 是一个用于KT领域音乐表演评估的数据集，尝试利用知识追踪方法捕捉学习者视唱能力的动态变化。该数据集收集了来自公共智能视唱练习平台SingMaster的数据。SingKT数据集包含主要的答题记录数据表（RecordDS）以及两个补充信息数据表（UserDS和OpernDS）。UserDS表记录了数据集中1074名学习者的视唱信息，OpernDS表记录了乐谱信息。
Slakh2100 - 合成的Lakh（Slakh）数据集是一个用于音频源分离的合成数据集，使用专业级样本为基础的虚拟乐器从Lakh MIDI数据集v0.1合成。在Slakh的第一个版本Slakh2100中，包含2100个自动混合轨道及其附带的MIDI文件，这些轨道使用专业级样本引擎合成。Slakh2100的音轨被分为训练集（1500条音轨）、验证集（375条音轨）和测试集（225条音轨），总共145小时的混合音频。
SymphonyNet - SymphonyNet是一个开源项目，旨在生成复杂的多轨和多乐器音乐，如交响乐。我们的方法完全兼容其他类型的音乐，如流行音乐、钢琴、独奏音乐等。
Tabla Solo数据集 - Tabla Solo数据集是一个录制的Tabla独奏音频集合，涵盖了Tabla的六个不同Gharanas的作品，由Pandit Arvind Mulgaonkar演奏。该数据集包含音频和时间对齐的bol转录。
Tegridy MIDI数据集 - Tegridy MIDI 数据集，用于精确有效的音乐AI模型创建。
The Lakh MIDI数据集 - The Lakh MIDI数据集是一个包含176,581个独特MIDI文件的集合，其中45,129个文件已与百万首歌曲数据集中的条目匹配并对齐。它的目标是促进大规模音乐信息检索，包括符号（仅使用MIDI文件）和基于音频内容（使用从MIDI文件中提取的信息作为匹配音频文件的注释）。
意大利音乐数据集 - 该数据集通过利用Spotify和SoundCloud API构建。它由超过14,500首不同的意大利音乐家的歌曲组成。数据集中的每首歌均由其Spotify ID和标题识别。音轨的元数据还包括词汇化和词性标记的歌词，以及大多数情况下直接从Spotify收集的十种音乐特征。音乐特征包括音响度（float）、舞蹈性（float）、持续时间_ms（int）、能量（float）、器乐性（float）、现场感（float）、响度（float）、口语性（float）、节奏（float）和情绪（float）。
波斯钢琴语料库 - 波斯钢琴语料库是一个全面的波斯钢琴音乐集合，涵盖了早期作曲家到当代人物。它经过精心编制并公开访问，旨在使研究人员能够进行专题研究并促进新发现。基于乐器的方法提供了一个完整的波斯钢琴相关语料库，包括相关标签和综合元数据。
The Song Describer数据集 - The Song Describer数据集：一个用于音乐和语言评估的音频字幕语料库。The Song Describer数据集是一个评估数据集，包括约1100个字幕和706个开放许可的音乐录音。
通用音乐符号分类器 - 一个通过训练深度神经网络区分音乐符号的Python项目。
URMP (罗切斯特大学多模态音乐表演) - URMP（罗切斯特大学多模态音乐表演）是一个促进音乐表演的音频-视频分析的数据集。数据集中包含通过协调但分别录制的音轨组成的44个简单多乐器音乐作品。每个作品提供的乐谱为MIDI格式，高质量的单独乐器音频录音和组装后的视频。
VGMIDI数据集 - VGMIDI是一个视频游戏配乐的钢琴编曲数据集。它包含200个按情感标注的MIDI片段和3850个未标注的片段。每个标注片段由30名受试者根据情绪圆环（valence-arousal）模型标注。
Virtuoso Strings - Virtuoso Strings是一个用于软起音检测的弦乐器数据集。它包括超过144个专业演奏的Haydn弦乐四重奏 Op. 74 No. 1 Finale 片段的录音，每个录音都有对应的单独乐器的起音标注。
WikiMuTe - WikiMuTe: 一个基于网络的数据集包含音乐音频的语义描述。在这项研究中，我们介绍了WikiMuTe，一个包含丰富音乐语义描述的新开放数据集。数据来自维基百科中覆盖音乐作品的丰富文章目录。通过专用的文本挖掘流程，提取了涵盖多种音乐内容（如流派、风格、情绪、乐器配置和节奏）的长短形式描述。
YM2413-MDB - YM2413-MDB 是一个80年代的FM视频游戏音乐数据集，带有多标签情感注释。包括669个音频和MIDI文件，这些文件来自80年代使用YM2413（基于FM的可编程音源）的Sega和MSX PC游戏。收集的游戏音乐使用了15种单音乐器和一种鼓乐器。

音效

动物声音数据集 - 该数据集包含875种动物声音，涵盖10种动物的声音。具体包括200只猫、200只狗、200只鸟、75只牛、45只狮子、40只羊、35只青蛙、30只鸡、25只驴和25只猴子的声音。
AudioSet - AudioSet是一个音频事件数据集，包含超过200万个人类注释的10秒视频剪辑。这些剪辑来自YouTube，因此许多质量较差并包含多种声音源。使用一个由632个事件类组成的分层本体来注释这些数据，这意味着相同的声音可以被标注为不同的标签。例如，狗叫声被标注为动物、宠物和狗。所有视频被分为评估/平衡训练/不平衡训练集。
AudioCaps - AudioCaps是一个具有事件描述的声音数据集，专为音频字幕任务而引入，声音来自AudioSet数据集。注释者提供了音频轨道和类别提示（如果需要，还包括额外的视频提示）。
Auto-ACD - 我们提出了一个创新的自动音频字幕生成管道，并构建了一个大规模、高质量的音频-语言数据集，名为Auto-ACD，包含超过190万个音频-文本对。Auto-ACD中的文本描述包含长文本（18个单词）和多样的词汇（23000个），并提供了声音发生时周围听觉环境的信息（带阴影的数据点）。
BBC声音效果 - BBC声音效果数据集中有33,066种声音效果，并配有文字描述。类型：主要是环境音。每个音频都有自然的文字描述。
DCASE 2016 - DCASE 2016是一个声音事件检测数据集。它包含20个短的单声道声音文件，每个11个声音类别（例如办公室环境中清嗓子、抽屉或键盘）的声音文件，每个文件包含一个声音事件实例。声音文件用事件的开始和结束时间进行注释，但实际物理声音之间的静音（如电话铃声）未标记，因此“包含”在事件中。
环境音频数据集 - 此页面试图维护一个适合环境音频研究的数据集列表。除了自由获取的数据集外，这里还列出了专有和商业数据集以供完整性。此外，还在页面末尾列出了一些在线声音服务。
ESC-50 - ESC-50数据集是一个标注的环境音频录音集合，适用于环境声音分类方法的基准测试。它包括2000个5秒的片段，涵盖自然声音、人类声音和家庭声音等50种不同类别，音频片段均来自Freesound.org。
FAIR-Play - FAIR-Play是一个视频-音频数据集，包含1871个视频剪辑及其相应的双耳音频剪辑，这些音频在音乐室中录制。同一索引的音频和视频剪辑大致对齐。
FSD50K（Freesound数据集50K） - Freesound数据集50K（简称FSD50K）是一个包含51,197个Freesound剪辑的开放数据集，这些剪辑被不平等地分布在来自AudioSet本体的200个类别中。FSD50K由位于巴塞罗那庞贝法布拉大学的音乐技术小组创建。它主要包含物理声源和生产机制产生的声音事件，包括人声、物件声音、动物声音、自然声音、乐器声音等。
FSDnoisy18k - FSDnoisy18k数据集是一个开放数据集，包含42.5小时的音频，涵盖20种声音事件类别，其中包括少量手动标注的数据和大量现实世界中的噪声数据。音频内容取自Freesound，数据集使用Freesound Annotator进行策划。FSDnoisy18k的噪声集包含15,813个音频剪辑（38.8小时），测试集包含947个正确标注的音频剪辑（1.4小时）。该数据集特点是包含两种主要类型的标签噪声：目标词汇内（IV）噪声和目标词汇外（OOV）噪声。IV适用于观察的标签不正确或不完整，且真实或缺失的标签属于目标类别集合的情况。同样，OOV则表示真实或缺失的标签不在这20个类别中。
FUSS（免费通用声音分离） - 免费通用声音分离（FUSS）数据集是一个任意声音混合物及其源级别参考的数据库，用于任意声音分离实验。FUSS基于FSD50K语料库。
iNaturalist声音数据集 - 我们介绍了iNaturalist声音数据集（iNatSounds），这一集合包含230,000个录音文件，捕捉了来自5,500多种物种的声音，这些录音由全世界超过27,000位录音师贡献。
具有情感意图的敲击声音效 - 该数据集由专业对话艺术家Ulf Olausson于2019年10月15日在斯德哥尔摩FoleyWorks工作室录制。受到以往敲击声音工作的启发，我们选择了五种情绪来表现数据集中的声音：愤怒、恐惧、快乐、中立和悲伤。
MIMII - 工业机器故障调查和检查声音数据集（MIMII）是一个包含工业机器声音的数据集。
Mivia音频事件数据集 - MIVIA音频事件数据集包含总共6000个事件，用于监控应用程序，具体为玻璃破碎、枪声和尖叫声。6000个事件分为训练集（4200个事件）和测试集（1800个事件）。
音高音频数据集（Surge合成器） - 使用开源Surge合成器合成的3.4小时音频，基于Surge包中包含的2084个预设，这些预设代表了"自然"合成声音——即由人类设计的预设。我们生成了4秒钟的样本，音符持续3秒钟。对于每个预设，我们仅改变音高，从MIDI 21到108，这是一个大钢琴的音域。数据集中的每一个声音都使用normalize包进行RMS级别归一化处理。没有简洁的方式去重，但仅有少量预设（例如鼓和声音效果）没有感知音高变化或排序。
RemFX - RemFX: 评估数据集。这些数据集最初来源于VocalSet、GuitarSet、DSD100和IDMT-SMT-Drums数据集，然后在我们的数据集生成脚本中进行处理。数据集根据应用效果的数量命名（0-5）。例如，2-2.zip包含每个输入音频示例应用的2种效果。目标保持不变。应用的音频效果来自（失真、延迟、动态范围压缩器、移相器、混响）集合，并为每个示例随机采样而不替换。
SoundCam - SoundCam，是到目前为止公开发布的最大的“野生”房间中的独特RIRs数据集。它包括5000个10通道的现实世界室内响应和2000个10通道的音乐录音，记录地点包括一个受控声学实验室、一个客厅和一个会议室，不同的人在各房间中位置不同。
SoundingEarth - SoundingEarth包含世界各地的同位空中影像和音频样本。
空间LibriSpeech - 空间LibriSpeech是一个包含超过650小时的一阶Ambisonics音频数据集，并附带可选的干扰噪音（即将提供19通道原始音频）。空间LibriSpeech专为机器学习模型训练而设计，包含声源位置、说话方向、空间声学和几何的标签。空间LibriSpeech通过使用超过20万个模拟声学条件在超过8000个合成房间中增强LibriSpeech样本生成。
STARSS22（Sony-TAu现实空间声景2022） - Sony-TAu现实空间声景2022（STARSS22）数据集包含使用高通道数球形麦克风阵列（SMA）捕获的真实场景录音。录音由两个不同的团队在两个地点（芬兰塔姆佩雷大学和日本东京索尼设施）进行。这两个地点的录音共享相同的捕获和注释过程，并且组织相似。
ToyADMOS - ToyADMOS数据集是一个机器操作声音数据集，包含大约540小时的正常机器操作声音和超过12,000个异常声音样本。这些声音使用48kHz的采样率由四个麦克风采集，由NTT媒体智能实验室的Yuma Koizumi和成员准备。
TUT声音事件2017 - TUT声音事件2017数据集包含24个街道环境的音频记录，包含6种不同的类别。类别包括：刹车声、汽车声、儿童声、大型车辆声、人讲话声和人走路声。
UrbanSound8K - Urban Sound 8K是一个音频数据集，包含8732个标注的声音片段（<=4秒），涵盖城市声音的10个类别：空调、汽车喇叭、儿童玩耍、狗叫声、钻孔声、引擎空转声、枪声、电钻声、警笛声和街头音乐。这些类别来自城市声音分类库。所有片段均取自上传至www.freesound.org的实地录音。
VGG-Sound - 一个大型音频-视觉数据集。VGG-Sound是一个音频-视觉对应的数据集，其音频片段摘自YouTube上传的视频。
视觉提示声音 - 材料在被击打或刮擦时会发出独特的声音——脏土发出沉闷的声音；陶瓷发出清脆的声响。这些声音揭示了物体材料的属性以及物理交互的力度和运动。