#pyannote
embedding - 开源说话人嵌入模型 改进x-vector架构提升语音识别效果
模型说话人识别Github开源项目Huggingface音频处理VoxCelebpyannote嵌入模型
这是一个基于pyannote.audio的开源说话人嵌入模型,采用改进的x-vector TDNN架构和SincNet特征。模型在VoxCeleb 1测试集上达到2.8%的等错误率,无需额外的语音活动检测或PLDA。支持GPU加速、音频片段嵌入提取和滑动窗口嵌入等功能,可用于说话人识别、验证和分类等任务。
overlapped-speech-detection - 开源重叠语音检测工具实现多人同时发言识别
语音识别pyannote语音重叠检测声纹分割模型Github音频处理Huggingface开源项目
开源重叠语音检测工具overlapped-speech-detection专注于识别音频中的多人同时发言片段,通过Python API接口快速部署实现。该工具基于神经网络技术,支持多种数据集训练,可应用于会议记录、课堂互动、多人访谈等场景的语音分析。
speaker-segmentation-fine-tuned-callhome-eng - 基于Callhome数据集微调的英语语音说话人分割开源模型
Huggingface音频处理开源项目模型说话人分割GithubpyannoteCallhome机器学习
这是一个基于pyannote/segmentation-3.0在英语Callhome数据集上微调的说话人分割模型。模型在评估集上达到0.4602的损失率和0.1828的DER值。它可以集成到pyannote说话人分割流程中,支持GPU加速,适用于高质量说话人分割任务。模型提供了使用示例代码,方便快速上手。