#音频预训练

MERT-v1-330M - 先进音乐理解模型用于多任务音频特征提取和识别

机器学习Github音乐处理音频预训练开源项目MERTHuggingface深度学习模型

MERT-v1-330M是一种基于MLM范式的音乐理解模型，采用24层Transformer架构，拥有330M参数。该模型经过16万小时音频数据训练，支持24kHz采样率输入，每秒生成75个特征向量。通过encodec的8个码本和批内噪声混合等技术，MERT-v1-330M在下游任务中表现出色。除了音乐特征提取，它还可用于音乐生成，是当前领先的音乐音频预训练模型之一。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号