#说话人验证
3D-Speaker: 多模态说话人验证、识别与分割的开源工具包
3 个月前
相关项目
3D-Speaker
3D-Speaker是一个开源的单模态和多模态说话人验证、识别和分离工具包。它提供ERes2Net、CAM++等预训练模型,适用于多种说话人相关任务。该项目发布的大规模语音数据集3D-Speaker有助于语音表示解耦研究。3D-Speaker支持有监督和自监督训练,以及语言识别等多种实验设置,为研究人员提供全面的说话人技术解决方案。
wespeaker
WeSpeaker是一个开源的说话人嵌入学习工具包,主要用于说话人验证。它支持在线特征提取和加载预提取的kaldi格式特征,提供ResNet和ECAPA-TDNN等多种预训练模型。WeSpeaker具有命令行和Python编程接口,在VoxCeleb和CNCeleb等数据集上表现出色。此外,它还提供说话人分割功能。这个工具包适用于研究和生产环境,为声纹识别领域提供了有力支持。
wavlm-base-plus-sv
WavLM-Base-Plus-SV是一款专为说话人验证优化的预训练语音模型。基于HuBERT框架,通过创新的门控相对位置偏置和话语混合训练,显著提升了语音内容和说话人特征的建模能力。经过94000小时语音数据预训练和VoxCeleb1数据集微调,该模型在SUPERB基准测试中展现出卓越性能。它能够有效提取说话人嵌入向量,适用于相似度检索和说话人验证等多种应用场景。
wavlm-base-sv
WavLM是Microsoft开发的说话人验证预训练模型,基于16kHz采样语音训练,使用960小时Librispeech数据集预训练,并在VoxCeleb1数据集上进行X-Vector架构微调。模型通过话语和说话人对比学习,实现语音特征提取、身份验证及声纹识别。