#说话人分类

pyannote-whisper: 强大的语音识别和说话人分离工具

3 个月前

pyannote-whisper 语音识别说话人分类数字化转型采购流程 Github 开源项目

3 个月前

diart: 构建实时音频AI应用的Python框架

3 个月前

实时音频处理说话人分类 AI模型 Python diart Github 开源项目

3 个月前

Whisper-Diarization: 基于OpenAI Whisper的自动语音识别与说话人分类技术

3 个月前

Speaker Diarization OpenAI Whisper 语音识别说话人分类音频处理 Github 开源项目

3 个月前

相关项目

whisper-diarization

whisper-diarization项目整合了OpenAI Whisper的语音识别技术和先进的说话人分离方法。该工具首先进行人声提取，然后利用Whisper生成转录文本，并通过WhisperX优化时间戳。结合MarbleNet和TitaNet等技术，它能够准确识别多个说话人，最终输出包含说话人标识的精确转录结果。这一开源解决方案特别适合需要处理多人对话音频的场景，为音频转录和分析提供了强大支持。

pyannote-audio

pyannote.audio是基于PyTorch的开源语音说话人分离工具包，提供先进预训练模型和管道。支持针对特定数据集微调，实现多GPU训练，采用Python优先API。在多项基准测试中表现优异，并提供全面文档和教程，包括模型应用、训练和自定义指南。适用于需要高性能说话人分离功能的音频处理项目。

diart

diart是一个开源的Python实时音频处理框架，专注于AI驱动的音频应用开发。其核心功能包括实时说话人分离、语音活动检测和增量聚类。该框架集成了说话人分段和嵌入模型，支持自定义AI流程、基准测试和超参数优化。diart还提供WebSocket接口，方便进行Web服务部署。

pyannote-whisper

pyannote-whisper整合了Whisper的自动语音识别和pyannote.audio的说话人分割功能。该工具提供命令行和Python接口，支持多种音频格式的转录和分析。它能生成带时间戳和说话人标识的文本，适用于会议记录和多人访谈分析。pyannote-whisper还可与ChatGPT集成，实现会议总结和观点提取，为语音内容分析提供完整解决方案。

wavlm-base-plus-sd

WavLM-Base-Plus-SD是一个基于微软WavLM技术的预训练模型，专注于说话人分类任务。该模型在94,000小时的大规模语音数据上进行自监督学习，采用创新的话语混合训练策略，有效保留说话人身份信息。在SUPERB基准测试中，模型展现出卓越性能，可显著提升多种语音处理任务的效果。通过简洁的API接口，用户可直接对音频进行说话人分类分析。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com