#说话人验证

3D-Speaker: 多模态说话人验证、识别与分割的开源工具包

3 个月前

说话人验证开源工具包 3D-Speaker 预训练模型 ModelScope Github 开源项目

3 个月前

WeSpeaker：一个面向研究和生产的说话人嵌入学习工具包

2 个月前

WeSpeaker 说话人嵌入学习说话人验证深度学习语音处理 Github 开源项目

2 个月前

相关项目

3D-Speaker

3D-Speaker是一个开源的单模态和多模态说话人验证、识别和分离工具包。它提供ERes2Net、CAM++等预训练模型，适用于多种说话人相关任务。该项目发布的大规模语音数据集3D-Speaker有助于语音表示解耦研究。3D-Speaker支持有监督和自监督训练，以及语言识别等多种实验设置，为研究人员提供全面的说话人技术解决方案。

wespeaker

WeSpeaker是一个开源的说话人嵌入学习工具包，主要用于说话人验证。它支持在线特征提取和加载预提取的kaldi格式特征，提供ResNet和ECAPA-TDNN等多种预训练模型。WeSpeaker具有命令行和Python编程接口，在VoxCeleb和CNCeleb等数据集上表现出色。此外，它还提供说话人分割功能。这个工具包适用于研究和生产环境，为声纹识别领域提供了有力支持。

wavlm-base-plus-sv

WavLM-Base-Plus-SV是一款专为说话人验证优化的预训练语音模型。基于HuBERT框架，通过创新的门控相对位置偏置和话语混合训练，显著提升了语音内容和说话人特征的建模能力。经过94000小时语音数据预训练和VoxCeleb1数据集微调，该模型在SUPERB基准测试中展现出卓越性能。它能够有效提取说话人嵌入向量，适用于相似度检索和说话人验证等多种应用场景。

wavlm-base-sv

WavLM是Microsoft开发的说话人验证预训练模型，基于16kHz采样语音训练，使用960小时Librispeech数据集预训练，并在VoxCeleb1数据集上进行X-Vector架构微调。模型通过话语和说话人对比学习，实现语音特征提取、身份验证及声纹识别。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com