#说话人识别
VideoToTextAI - 多语言AI音视频转写与翻译解决方案
AI工具视频转文字多语言支持自定义字幕说话人识别文件转录
VideoToTextAI提供先进的AI音视频转写服务,支持100多种语言的转写和翻译。平台特点包括快速精准的文件处理、定制字幕和说话人识别功能。操作简便,适用于内容创作、专业工作等多种场景,有效简化全球沟通。
speakerverification_en_titanet_large - NVIDIA TitaNet-Large英语说话人识别模型
模型说话人验证TitaNet说话人识别Github语音识别Huggingface开源项目NeMo
NVIDIA TitaNet-Large是一个专为英语说话人验证和分割设计的深度学习模型。它采用深度可分离1D卷积架构,参数量约23M,能从16kHz单声道音频中提取说话人特征。模型在VoxCeleb1等数据集上表现优异,可通过NVIDIA NeMo工具包进行推理和微调。适用于说话人验证、分割等多种语音识别任务。
embedding - 开源说话人嵌入模型 改进x-vector架构提升语音识别效果
模型说话人识别Github开源项目Huggingface音频处理VoxCelebpyannote嵌入模型
这是一个基于pyannote.audio的开源说话人嵌入模型,采用改进的x-vector TDNN架构和SincNet特征。模型在VoxCeleb 1测试集上达到2.8%的等错误率,无需额外的语音活动检测或PLDA。支持GPU加速、音频片段嵌入提取和滑动窗口嵌入等功能,可用于说话人识别、验证和分类等任务。