#WavLM
wavlm-base-sv - WavLM预训练模型声纹识别与说话人验证系统
语音处理GithubWavLM自监督学习Huggingface语音识别开源项目模型说话人验证
WavLM是Microsoft开发的说话人验证预训练模型,基于16kHz采样语音训练,使用960小时Librispeech数据集预训练,并在VoxCeleb1数据集上进行X-Vector架构微调。模型通过话语和说话人对比学习,实现语音特征提取、身份验证及声纹识别。
wavlm-base - 适用于多语音任务的自监督预训练模型
LibriSpeechWavLM音频分类自监督学习语音识别模型Github开源项目Huggingface
WavLM是基于自监督学习的语音预训练模型,旨在支持多种语音任务。模型在960小时Librispeech数据集上进行预训练,适用于语音识别和分类等任务,需在下游任务中微调。WavLM通过门控相对位置偏置和发音混合训练策略,强调说话者身份保留和内容建模,在SUPERB基准测试中表现优异。模型主要在英语环境中有良好表现,但目标是提供全语言栈的统一表示。