相关项目
whisperX
WhisperX是一款基于Whisper的开源自动语音识别工具,通过强制音素对齐和语音活动批处理技术,实现了高达70倍实时的转录速度。它提供精确的单词级时间戳和说话人分离功能,适用于长音频的高效转录和分析。WhisperX在保持高转录质量的同时,显著提升了时间戳的准确性,为音频处理领域带来了新的可能。
speaker-diarization-3.1
该开源语音分区模型应用了纯PyTorch,替换了存在问题的onnxruntime,以简化部署流程并可能提高推断效率。此工具接受16kHz的单声道音频输入,能够自动混合多声道音频为单声道,并支持音频的自动重采样。其高效性能允许在CPU或GPU上运行,同时支持从内存加载音频以加快处理速度。
speaker-diarization
pyannote/speaker-diarization是一个高效的开源说话人分割系统,支持指定说话人数量等高级功能。该系统在多个基准数据集上实现较低的分割错误率,无需人工调整。其实时因子约为2.5%,可快速处理大量音频。项目还提供详细的技术报告和适配指南,方便用户根据需求进行调整。
speech-separation-ami-1.0
这是一个基于pyannote.audio的开源项目,实现了同步的说话人分类和语音分离功能。系统接收16kHz采样率的单声道音频,输出说话人分类结果和分离后的语音。该项目由Joonas Kalda基于AMI数据集开发,适用于实际多说话人场景。项目提供简洁的Python接口,支持GPU加速和内存处理,为语音分析提供了实用解决方案。