Frechet音频距离工具包

一个简单且标准化的Frechet音频距离(FAD)计算库。该库随论文《适应Frechet音频距离用于生成音乐评估》(IEEE、arXiv)一起发布。与该论文相关的数据集和论文中使用的示例代码工具也可在此仓库中获得。

您可以在此在线演示中收听每首歌曲FAD异常值的音频样本：https://fadtk.hydev.org/

0x00. 特性

轻松高效地使用各种模型计算音频嵌入。
计算两个数据集之间的FAD∞分数进行评估。
使用预先计算的统计数据("权重")从现有基线计算FAD∞分数。
计算每首歌曲的FAD以找出数据集中的异常值。

支持的模型

模型	FADtk中的名称	描述	创建者
CLAP	`clap-2023`	从自然语言监督中学习音频概念	微软
CLAP	`clap-laion-{audio/music}`	对比语言-音频预训练	LAION
Encodec	`encodec-emb`	最先进的基于深度学习的音频编解码器	Facebook/Meta研究
MERT	`MERT-v1-95M-{layer}`	具有大规模自监督训练的声学音乐理解模型	m-a-p
VGGish	`vggish`	音频特征分类嵌入	谷歌
DAC	`dac-44kHz`	使用改进的RVQGAN的高保真音频压缩	Descript
CDPAM	`cdpam-{acoustic/content}`	基于对比学习的深度感知音频度量	Pranay Manocha等
Wav2vec 2.0	`w2v2-{base/large}`	Wav2vec 2.0：自监督语音表示学习框架	Facebook/Meta研究
HuBERT	`hubert-{base/large}`	HuBERT：通过隐藏单元的掩蔽预测进行自监督语音表示学习	Facebook/Meta研究
WavLM	`wavlm-{base/base-plus/large}`	WavLM：用于全栈语音处理的大规模自监督预训练	微软
Whisper	`whisper-{tiny/base/small/medium/large}`	通过大规模弱监督实现强大的语音识别	OpenAI

0x01. 安装

要使用FAD工具包，您必须首先安装它。该库在Linux上的Python 3.11环境下创建和测试，但应该也可以在Python >3.9以及Windows和macOS上运行。

安装torch https://pytorch.org/
pip install fadtk

为确保环境设置正确并且一切按预期工作，建议在安装后使用命令python -m fadtk.test运行我们的测试。

可选依赖

您可以选择安装添加额外嵌入支持的依赖项。它们是：

CDPAM: pip install cdpam
DAC: pip install descript-audio-codec==1.0.0

0x02. 命令行使用

# 评估
fadtk <模型名称> <基线> <评估集> [--inf/--indiv]

# 计算嵌入
fadtk.embeds -m <模型...> -d <数据集...>

示例1：在FMA_Pop基线上计算FAD_inf分数

# 使用两种不同模型计算基线和评估数据集之间的FAD-inf
fadtk clap-laion-audio fma_pop /path/to/evaluation/audio --inf
fadtk encodec-emb fma_pop /path/to/evaluation/audio --inf

示例2：计算每首歌曲的单独FAD分数

fadtk encodec-emb fma_pop /path/to/evaluation/audio --indiv scores.csv

示例3：使用您自己的基线计算FAD分数

首先，创建两个目录，一个用于基线，一个用于评估，并将音频文件放入其中。然后，运行以下命令：

# 计算基线和评估数据集之间的FAD
fadtk clap-laion-audio /path/to/baseline/audio /path/to/evaluation/audio

示例4：仅计算嵌入

如果您只想使用特定模型列表为一系列数据集计算嵌入，可以使用命令行完成。

fadtk.embeds -m 模型1 模型2 -d /数据集1 /数据集2

0x03. 最佳实践

使用FAD工具包计算FAD分数时，考虑以下最佳实践至关重要，以确保报告结果的准确性和相关性。

选择有意义的参考集：不要在未经考虑的情况下默认使用常用的参考集，如Musiccaps。应选择与研究特定目标相符的参考集。对于生成音乐，我们建议使用论文中提出的FMA-Pop子集。
选择适当的嵌入：嵌入的选择会严重影响评分。例如，VGGish针对分类进行了优化，如果研究目标是衡量质量等方面，它可能不是最合适的选择。
提供全面的报告：确保报告中包含所有测试统计数据：
- 选择的参考集。
- 选定的嵌入。
- 参考集和测试集中的样本数量及其持续时间。
这种透明度确保读者或用户能理解FAD分数的上下文和潜在变异性。
与最先进技术进行基准比较：进行比较时，研究人员理想情况下应使用相同的设置来评估最先进的模型以进行比较。没有一致的设置，FAD比较可能失去其意义。
上下文解释FAD分数：应计算每个样本的FAD分数。听取每个样本中的异常值将提供对当前设置捕捉内容的实际理解，以及在研究背景下"低"和"高"FAD分数的含义。

通过遵循这些最佳实践，可以确保我们的FAD工具包的使用在方法上既合理又与上下文相关。

0x04. 程序化使用

在Python中执行上述操作

如果您想了解如何在Python中执行上述命令行过程，可以查看我们的启动器是如何实现的（__main__.py和embeds.py）

添加新的嵌入

要添加新的嵌入模型，你只需要修改 model_loader.py 文件。你必须创建一个继承自 ModelLoader 类的新类。你需要实现构造函数、load_model 和 _get_embedding 函数。你可以从以下模板开始：

class YourModel(ModelLoader):
    """
    在这里添加你的模型的简短描述。
    """
    def __init__(self):
        # 在这里定义你的采样率和特征数量。音频将自动重采样到这个采样率。
        super().__init__("模型名称包括变体", num_features=128, sr=16000)
        # 在这里添加你需要的任何其他变量

    def load_model(self):
        # 在这里加载你的模型
        pass

    def _get_embedding(self, audio: np.ndarray) -> np.ndarray:
        # 使用你的模型计算嵌入
        return np.zeros((1, self.num_features))

    def load_wav(self, wav_file: Path):
        # 可选地，你可以重写这个方法以不同的方式加载wav文件。输入的wav_file已经是构造函数中指定的正确采样率。
        return super().load_wav(wav_file)

0x05. 已发布的数据和代码

我们还在这个仓库中包含了一些来自论文的示例代码和数据。

精炼数据集

musiccaps-public-openai.csv：这个文件包含原始 MusicCaps 歌曲 ID 和说明，以及 GPT4 对其质量的标签和用于音乐生成的 GPT4 精炼提示。

fma_pop_tracks.csv：这个文件包含我们在论文中提出的 FMA-Pop 子集的 4839 个歌曲 ID 和元数据信息。从原始来源下载免费音乐档案数据集后，你可以使用歌曲 ID 轻松找到这个 FMA-Pop 子集的音频文件。

示例代码

我们用于创建 GPT4 一次性提示以生成精炼 MusicCaps 提示和从 MusicCaps 说明中分类质量的方法可以在 example/prompts 中找到。

0x06. 引用、致谢和许可

此工具包中的代码采用 MIT 许可证。如果这个仓库在你的项目中有所帮助，请引用我们的工作。

@inproceedings{fadtk,
  title = {Adapting Frechet Audio Distance for Generative Music Evaluation},
  author = {Azalea Gui, Hannes Gamper, Sebastian Braun, Dimitra Emmanouilidou},
  booktitle = {Proc. IEEE ICASSP 2024},
  year = {2024},
  url = {https://arxiv.org/abs/2311.01616},
}

如果你使用 FMA-Pop 作为你的 FAD 评分基准，请同时引用 FMA（免费音乐档案）数据集。

@inproceedings{fma_dataset,
  title = {{FMA}: A Dataset for Music Analysis},
  author = {Defferrard, Micha\"el and Benzi, Kirell and Vandergheynst, Pierre and Bresson, Xavier},
  booktitle = {18th International Society for Music Information Retrieval Conference (ISMIR)},
  year = {2017},
  archiveprefix = {arXiv},
  eprint = {1612.01840},
  url = {https://arxiv.org/abs/1612.01840},
}

特别感谢

对基础仓库 gudgud96/frechet-audio-distance - "一个用于 Frechet 音频距离计算的轻量级库" 表示深深的感谢。我们项目的大部分内容都是从 gudgud96 的贡献中改编和增强的。为了表彰这项工作，我们保留了原始 MIT 许可证。

Facebook 的 Encodec：facebookresearch/encodec
CLAP：microsoft/CLAP
LAION 的 CLAP：LAION-AI/CLAP
M-A-P 的 MERT：m-a-p/MERT
Wav2vec 2.0：facebookresearch/wav2vec 2.0
HuBERT：facebookresearch/HuBERT
WavLM：microsoft/WavLM
Whisper：OpenAI/Whisper
PyTorch 版 VGGish：harritaylor/torchvggish
免费音乐档案：mdeff/fma
Frechet Inception Distance 实现：mseitzer/pytorch-fid
Frechet Audio Distance 论文：arxiv/1812.08466