#音频嵌入
fadtk - 标准化Frechet音频距离计算工具
FAD音频嵌入评估工具音频模型音频距离Github开源项目
fadtk是一个计算Frechet音频距离(FAD)的标准化工具库。它支持多种音频嵌入模型,能高效计算音频嵌入和FAD∞分数。该工具提供预计算统计数据用于基线比较,可计算单曲FAD以识别异常。fadtk主要用于评估生成音乐质量,为音频研究提供了实用灵活的解决方案。
clap-htsat-unfused - CLAP音频-文本预训练模型实现零样本音频分类
音频嵌入Huggingface模型多模态学习语音识别CLAPGithub开源项目零样本分类
CLAP是一个基于对比学习的音频-文本预训练模型,利用LAION-Audio-630K数据集进行训练。该模型通过特征融合和关键词增强技术,能够处理不同长度的音频输入,在文本到音频检索、零样本音频分类等任务中表现优异。CLAP在零样本设置下达到了领先水平,可用于零样本音频分类或音频和文本特征提取。