#说话人分类

pyannote-whisper: 强大的语音识别和说话人分离工具

2024年09月05日

pyannote-whisper 语音识别说话人分类数字化转型采购流程 Github 开源项目

2024年09月05日

diart: 构建实时音频AI应用的Python框架

2024年09月05日

实时音频处理说话人分类 AI模型 Python diart Github 开源项目

2024年09月05日

Whisper-Diarization: 基于OpenAI Whisper的自动语音识别与说话人分类技术

2024年09月04日

Speaker Diarization OpenAI Whisper 语音识别说话人分类音频处理 Github 开源项目

2024年09月04日

相关项目

whisper-diarization

whisper-diarization项目整合了OpenAI Whisper的语音识别技术和先进的说话人分离方法。该工具首先进行人声提取，然后利用Whisper生成转录文本，并通过WhisperX优化时间戳。结合MarbleNet和TitaNet等技术，它能够准确识别多个说话人，最终输出包含说话人标识的精确转录结果。这一开源解决方案特别适合需要处理多人对话音频的场景，为音频转录和分析提供了强大支持。

pyannote-audio

pyannote.audio是基于PyTorch的开源语音说话人分离工具包，提供先进预训练模型和管道。支持针对特定数据集微调，实现多GPU训练，采用Python优先API。在多项基准测试中表现优异，并提供全面文档和教程，包括模型应用、训练和自定义指南。适用于需要高性能说话人分离功能的音频处理项目。

diart

diart是一个开源的Python实时音频处理框架，专注于AI驱动的音频应用开发。其核心功能包括实时说话人分离、语音活动检测和增量聚类。该框架集成了说话人分段和嵌入模型，支持自定义AI流程、基准测试和超参数优化。diart还提供WebSocket接口，方便进行Web服务部署。

pyannote-whisper

pyannote-whisper整合了Whisper的自动语音识别和pyannote.audio的说话人分割功能。该工具提供命令行和Python接口，支持多种音频格式的转录和分析。它能生成带时间戳和说话人标识的文本，适用于会议记录和多人访谈分析。pyannote-whisper还可与ChatGPT集成，实现会议总结和观点提取，为语音内容分析提供完整解决方案。

speaker-diarization-3.0

该模型基于pyannote.audio 3.0.0训练，可处理16kHz单声道音频并输出说话人分离结果。经多个数据集基准测试，表现优异。支持GPU加速实时处理，提供进度监控和说话人数量控制等功能。适用于需要高性能说话人分离的研究和开发场景。

voice-activity-detection

该项目提供基于pyannote.audio 2.1的开源语音活动检测模型，可精确识别音频中的语音片段。支持AMI、DIHARD和VoxConverse等数据集，适用于多种应用场景。用户通过简单的Python代码即可调用预训练模型，实现高效的语音检测。这一工具为语音分析和处理提供了可靠基础，适用于学术研究及商业应用。

wavlm-base-plus-sd

WavLM-Base-Plus-SD是一个基于微软WavLM技术的预训练模型，专注于说话人分类任务。该模型在94,000小时的大规模语音数据上进行自监督学习，采用创新的话语混合训练策略，有效保留说话人身份信息。在SUPERB基准测试中，模型展现出卓越性能，可显著提升多种语音处理任务的效果。通过简洁的API接口，用户可直接对音频进行说话人分类分析。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com