相关项目
whisperX
WhisperX是一款基于Whisper的开源自动语音识别工具,通过强制音素对齐和语音活动批处理技术,实现了高达70倍实时的转录速度。它提供精确的单词级时间戳和说话人分离功能,适用于长音频的高效转录和分析。WhisperX在保持高转录质量的同时,显著提升了时间戳的准确性,为音频处理领域带来了新的可能。
speech-separation-ami-1.0
这是一个基于pyannote.audio的开源项目,实现了同步的说话人分类和语音分离功能。系统接收16kHz采样率的单声道音频,输出说话人分类结果和分离后的语音。该项目由Joonas Kalda基于AMI数据集开发,适用于实际多说话人场景。项目提供简洁的Python接口,支持GPU加速和内存处理,为语音分析提供了实用解决方案。