#说话人分离

WhisperX: 突破性的语音识别技术实现精准转录与说话人分离

3 个月前

WhisperX 语音识别时间戳说话人分离对齐 Github 开源项目

3 个月前

相关项目

whisperX

WhisperX是一款基于Whisper的开源自动语音识别工具，通过强制音素对齐和语音活动批处理技术，实现了高达70倍实时的转录速度。它提供精确的单词级时间戳和说话人分离功能，适用于长音频的高效转录和分析。WhisperX在保持高转录质量的同时，显著提升了时间戳的准确性，为音频处理领域带来了新的可能。

speech-separation-ami-1.0

这是一个基于pyannote.audio的开源项目，实现了同步的说话人分类和语音分离功能。系统接收16kHz采样率的单声道音频，输出说话人分类结果和分离后的语音。该项目由Joonas Kalda基于AMI数据集开发，适用于实际多说话人场景。项目提供简洁的Python接口，支持GPU加速和内存处理，为语音分析提供了实用解决方案。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com