#说话人验证

3D-Speaker - 开源多模态说话人识别与验证工具包

Github开源项目预训练模型ModelScope开源工具包说话人验证3D-Speaker

3D-Speaker是一个开源的单模态和多模态说话人验证、识别和分离工具包。它提供ERes2Net、CAM++等预训练模型，适用于多种说话人相关任务。该项目发布的大规模语音数据集3D-Speaker有助于语音表示解耦研究。3D-Speaker支持有监督和自监督训练，以及语言识别等多种实验设置，为研究人员提供全面的说话人技术解决方案。

wespeaker - 深度学习声纹识别开源工具包支持多模型和应用场景

Github开源项目深度学习语音处理说话人验证WeSpeaker说话人嵌入学习

WeSpeaker是一个开源的说话人嵌入学习工具包，主要用于说话人验证。它支持在线特征提取和加载预提取的kaldi格式特征，提供ResNet和ECAPA-TDNN等多种预训练模型。WeSpeaker具有命令行和Python编程接口，在VoxCeleb和CNCeleb等数据集上表现出色。此外，它还提供说话人分割功能。这个工具包适用于研究和生产环境，为声纹识别领域提供了有力支持。

wavlm-base-plus-sv - 面向说话人验证的先进语音模型

Github开源项目预训练模型语音识别模型自监督学习Huggingface说话人验证WavLM

WavLM-Base-Plus-SV是一款专为说话人验证优化的预训练语音模型。基于HuBERT框架，通过创新的门控相对位置偏置和话语混合训练，显著提升了语音内容和说话人特征的建模能力。经过94000小时语音数据预训练和VoxCeleb1数据集微调，该模型在SUPERB基准测试中展现出卓越性能。它能够有效提取说话人嵌入向量，适用于相似度检索和说话人验证等多种应用场景。

wavlm-base-sv - WavLM预训练模型声纹识别与说话人验证系统

Github开源项目语音识别模型自监督学习Huggingface语音处理说话人验证WavLM

WavLM是Microsoft开发的说话人验证预训练模型，基于16kHz采样语音训练，使用960小时Librispeech数据集预训练，并在VoxCeleb1数据集上进行X-Vector架构微调。模型通过话语和说话人对比学习，实现语音特征提取、身份验证及声纹识别。

相关文章

Article Cover

3D-Speaker: 多模态说话人验证、识别与分割的开源工具包

Article Cover

WeSpeaker：一个面向研究和生产的说话人嵌入学习工具包

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号