#语音活动检测

silero-vad - 企业级预训练语音活动检测工具,适用于多种平台
Silero VAD音频处理语音活动检测声学模型PyTorchGithub开源项目
Silero VAD 是一种企业级预训练语音活动检测工具,具备高精确度和快速处理能力。支持多种采样率、体积小巧,适用于 IoT、移动设备和电信应用。通过 PyTorch 和 ONNX 实现高度便携,无需注册或密钥,易于集成和广泛使用。
ffsubsync - 自动对齐字幕和视频的开源解决方案
FFsubsync字幕同步语音活动检测音频处理开源项目Github
FFsubsync是一个开源的自动字幕同步工具,适用于各种语言的字幕。它通过分析视频音频和字幕文件,利用快速傅里叶变换算法找出最佳匹配点,从而解决字幕与视频不同步的问题。该工具支持多种文件格式,处理速度快,通常只需20-30秒即可完成同步。FFsubsync特别适用于处理从不同来源获取的视频和字幕文件,如下载的电影、电视剧或在线视频平台的内容。它可以有效解决由于帧率差异、剪辑不一致或时间码错误导致的字幕同步问题,为用户提供更好的观看体验。FFsubsync为提升视频观看体验提供了一个简单有效的解决方案,特别适合需要处理大量视频字幕的用户。
vad - JavaScript实时语音活动检测开源库
语音活动检测JavaScriptSilero VADONNX Runtime实时语音处理Github开源项目
vad是一个开源的JavaScript语音活动检测库,支持浏览器端运行。该项目基于Silero VAD模型和ONNX Runtime,提供麦克风管理、音频录制和语音段识别功能。通过简洁API,开发者可轻松将其集成到Web、Node.js和React应用中,实现实时语音检测和处理。vad为语音交互应用提供了高效且易用的底层支持。
android-vad - Android语音活动检测库 支持多种实时离线模型
AndroidVAD语音活动检测音频处理机器学习Github开源项目
Android-vad项目提供语音活动检测库,支持实时音频处理和人声识别。集成了WebRTC、Silero和Yamnet三种VAD模型,分别适用于不同场景。该库可离线运行,适合移动设备上的实时语音检测应用。WebRTC模型轻量快速,Silero模型精度高,Yamnet模型则支持多种音频事件识别。
segmentation-3.0 - 多说话者分段和语音活动检测的开源模型
模型语音活动检测扬声器分割开源项目Huggingface开源模型重叠语音检测Githubpyannote.audio
Powerset编码为核心的开源模型,结合pyannote.audio 3.0,实现多说话者分段以及语音活动和重叠检测,适用于多种语音会议场景。