#VoxCeleb
embedding - 开源说话人嵌入模型 改进x-vector架构提升语音识别效果
模型说话人识别Github开源项目Huggingface音频处理VoxCelebpyannote嵌入模型
这是一个基于pyannote.audio的开源说话人嵌入模型,采用改进的x-vector TDNN架构和SincNet特征。模型在VoxCeleb 1测试集上达到2.8%的等错误率,无需额外的语音活动检测或PLDA。支持GPU加速、音频片段嵌入提取和滑动窗口嵌入等功能,可用于说话人识别、验证和分类等任务。
voxcelebs12_rawnet3 - 多语言语者识别解决方案,提升音频处理能力
多语言语音识别Github模型开源项目VoxCelebESPnetHuggingface演讲者识别
RawNet3模型基于ESPnet2框架和VoxCeleb数据集进行训练,专注于提升语者识别和音频处理的精度。该模型结合自监督式前端和现成工具,提供了创新的语者嵌入解决方案。用户可按照ESPnet的安装指南下载并应用此模型,配置选项包括Adam优化器和余弦退火调度器,充分保障模型训练过程的高效性与稳定性。适用于多语言语者识别应用场景,助力开发者增强音频处理的精度与便捷性。